赞
踩
Checkpoint 本质就是对State的备份, 持久化到文件系统比如HDFS中
检查点机制
目的
为了保证程序发生故障时状态不丢也不错,它是保证状态一致性而不是数据一致性。
原理
使用异步屏障快照Asynchronous Barrier Snapshotting
(简称 ABS)算法(依赖于Chandy-Lamport
算法的变种)实现分布式快照。
状态
Raw State
)Managed State
)Keyed State
和Operator State
。按键分区状态
:一个SubTask有多个State,每一个Key对应一个State。有ValueState,ListState,MapState等算子状态
:一个SubTask有一个State。有ListState,BroadcastState等state backends
:HashMapStateBackend
:状态数据以 Java 对象的形式存储在堆中。EmbeddedRocksDBStateBackend
:状态数据保存在 RocksDB 数据库中,数据被以序列化字节数组的方式存储,RocksDB 数据库默认将数据存储在 TaskManager 的数据目录。HashMapStateBackend
。MemoryStateBackend
FsStateBackend
RocksDBStateBackend
Checkpoint 本质就是对State的备份
时间语义和水平线
Process Time
)数据进入Flink被处理的系统时间(Operator处理数据的系统时间)Event Time
)数据在数据源产生的时间,一般由事件中的时间戳描述,比如用户日志中的TimeStamp。Ingestion Time
)数据进入Flink的时间,记录被Source节点观察到的系统时间。createWatermarkGenerator
创建watermark。WatermarkStrategy
中的静态方法forBoundedOutOfOrderness
。WatermarkStrategy
中的静态方法forMonotonousTimestamps
。事件时间的独立标准为水平线
无界流转化为有节流分析的手段
事件时间的度量标志为水平线, 事件时间应用于窗口中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。