心跳
ResourceManager,TaskManager,JobManager会通过心跳来监测相互之间的状态
高可用服务
Leader选举和提取。只有配置了Zookeeper才是真正的高可用
Flink中的容错,一致性语义都是靠State来实现的。
State需要结合Checkpoint,Snapshot才能发挥作用。
State 可以按照维度进行划分:
类型:
数据组织格式:
Flink以DAG的方式来执行程序,它会根据用户的代码生成三个Graph,但我认为实际上还有一个Graph,就是用户的程序直接映射出来的。
CheckpointCoordinator会启动一个定时任务触发checkpoint
窗口机制是Flink流处理的核心,它将无限元素的流分割成有限元素的集合(窗口)。当一个窗口不再增加新元素时,就可以对这个窗口中的所有元素执行计算逻辑。
将一条消息从被Flink job消费到最后被sink下来的整个过程划分成两部分,算子的逻辑处理、task之间的消息传递。其中算子的逻辑处理需要用户参与,task之间的消息传递一般是不需要用户参与的,但是了解其实现过程,对理解Flink的原理是非常有帮助的。
OLAP 联机分析处理(OnLine Analytical Processing)。OLAP系统是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP 联机事务处理(Online Transaction Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
数据工程师( DE )和数据产品经理(DPM)日常的一部分工作是和运营、PM对接,根据需求产出APP层数据和可视化报表。 DE分别通过Tableau和数易来产出报表,但这两个产品都有局限性:
最近在做一个数据分析门户的过程中,引发了一个思考:我应该怎么才能把这个项目做好?
不仅仅追求技术上的精进,也能够跳出来看业务全局。
不仅能解决技术难题,还会主动关注业务,用技术加速业务的成功。
不要将业务和技术割裂来看,它们应该是一体的。
业务的需求能够促使技术进行创新,业务上的成功才能让技术产生意义。