赞
踩
How Apache Flink manages Kafka consumer offsets
Step 1:
例子:一个kafka topic,有两个partition,每个含有"A,B,C,D,E"信息。offset从0开始。
Step 1
Step 2:
第二步,kafka consumer开始从partition 0开始读取信息,"A"正在处理,第一个consumer的offset变成了1。
Step 2
Step 3:
第三步,“A”到达了Flink Map Task。每个consumer继续读取他们下一个记录(partition 0读取“B”,partition 1读取“A”)。各自更新offset,同时Job Master开始触发checkpoint。
Step 3
Step 4:
接下来,kafka consumer已经创建他们的状态快照(“offset = 2, 1”),存在了Job Master。Source从partition 0和1分别发出“B”和“A”后面发出了checkpoint barrier。在operator task中对barriers进行align操作,保证了一致性。消息A到达Flink Map Task,而上面的consumer继续读取下一个记录(消息“C”)。
Step 4
Step 5:
当 Flink Map Task 从sources接收到了全部的checkpoint barriers(同一版本的barrier),那么就会checkpoint他的state到Job Master里面。同时,consumers继续读取记录。
Step 5
Step 6:
当所有的task报告完成了他们的state checkpoint后,那么Job Master就会完成这个版本的checkpont。那么这个checkpoint就可以用于故障恢复了。值得一提的是,Apache Flink并不依赖于kafka的offsets来从潜在的系统故障中恢复。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。