赞
踩
Kafka中为了解决消息的重复和丢失,引入了ACK机制。
ACK有三个值,分别为-1 0 1.
当ACK= -1 时,表示producer发送完数据后,必须接受到leader和ISR队列中所有follower的同步完成确认后才会发送下一条数据。
当ACK=0时,表示producer发送完数据后不等待leader和follower的确认,直接发送下一条数据。
当ACK=1时,代表producer发送完数据后只等待leader确认接收。
在ACK=1时存在数据重复问题:当producer发送完数据后,leader接受数据,发送ACK给producer后,ISR中follower没有备份完成,这时leader挂断,会从ISR中选取leader,由于之前没有备份完全leader的数据。就会导致数据丢失
问题提出:
假设leader接受了producer传来的数据为20条,ISR中三台follower(f1,f2,f3)开始同步数据,由于网络传输,三台follower同步数据的速率不同。当f1同步了15条数据,f2同步了10条数据,f3同步了13条数据,此时,leader突然挂掉,从ISR中选取了f2作为主节点,此时leader-f2同步了10条,f1同步15,f3同步13,就会造成leader和follower之间数据不一致问题。
解决办法:
HW (High Watermark)俗称高水位,它标识了一个特定的消息偏移量(offset),消费者只能拉取到这个offset之前的消息。
LEO(Log End Offset),标识当前日志文件中下一条待写入的消息的offset。LEO 的大小相当于当前日志分区中最后一条消息的offset值加1.分区 ISR 集合中的每个副本都会维护自身的 LEO ,而 ISR 集合中最小的 LEO 即为分区的 HW,对消费者而言只能消费 HW 之前的消息(就是途中黄色块)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。