赞
踩
生产者写入消息到topic,kafka将依据不同的策略将数据分配到不同的分区中
1.轮询分区策略
2.随机分区策略
3.按key分区分配策略
4.自定义分区策略
默认的策略,也是使用最多的策略,可以最大限度的保证所有消息平均分配到分区里面
如果在生产消息时,key为null,则使用轮询算法均衡地分配分区
基本废弃,可能会造成数据倾斜
按key分配策略,key.hash()%分区的数量,然后shuffle到对应的分区,有可能会出现数据倾斜,例如:某个key包含了大量的数据,因为key值一样,所有的数据都将分配到一个分区中,造成该分区的消息数量远大于其他的分区
使用轮询策略和随机策略,单个分区是有序,但是整个topic的分区数据消费者组中的消费者读起来,就是乱序的了。按key分区策略,只能保证局部有序。
kafka中的消息是全局乱序的,局部partition是有序的,如果我们要实现消息总是有序的,可以将连续的消息放到一个partition。但kafka就失去了分布式的意义。
自己通过自定义方法去实现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。