python flink kafka_Flink with Kafka

作者：在线问答5 | 2024-07-05 05:02:12

踩

pyflink kafka offset

How Apache Flink manages Kafka consumer offsets

Step 1：

例子：一个kafka topic，有两个partition，每个含有"A,B,C,D,E"信息。offset从0开始。

Step 1

Step 2:

第二步，kafka consumer开始从partition 0开始读取信息，"A"正在处理，第一个consumer的offset变成了1。

Step 2

Step 3:

第三步，“A”到达了Flink Map Task。每个consumer继续读取他们下一个记录(partition 0读取“B”，partition 1读取“A”)。各自更新offset，同时Job Master开始触发checkpoint。

Step 3

Step 4:

接下来，kafka consumer已经创建他们的状态快照(“offset = 2, 1”)，存在了Job Master。Source从partition 0和1分别发出“B”和“A”后面发出了checkpoint barrier。在operator task中对barriers进行align操作，保证了一致性。消息A到达Flink Map Task，而上面的consumer继续读取下一个记录(消息“C”)。

Step 4

Step 5:

当 Flink Map Task 从sources接收到了全部的checkpoint barriers(同一版本的barrier)，那么就会checkpoint他的state到Job Master里面。同时，consumers继续读取记录。

Step 5

Step 6:

当所有的task报告完成了他们的state checkpoint后，那么Job Master就会完成这个版本的checkpont。那么这个checkpoint就可以用于故障恢复了。值得一提的是，Apache Flink并不依赖于kafka的offsets来从潜在的系统故障中恢复。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】