赞
踩
此博客总结学习以及借鉴其他博文;参考资料:译文:点击打开链接
Kafka的Producer、Broker和Consumer之间采用的是一套自行设计的基于TCP层的协议。Kafka的这套协议完全是为了Kafka自身的业务需求而定制的,而非要实现一套类似于Protocol Buffer的通用协议
卡夫卡协议是相当简单的,只有六个核心的客户端请求的API:
上述的API都将在下面详细说明。此外,从0.9版本开始,Kafka支持为消费者和Kafka连接进行分组管理。客户端API包括五个请求:
最后,有几个管理API,可用于监控/管理的卡夫卡集群(KIP-4完成时,这个列表将增长):
Kafka中两个角色之间通讯的基本单位是Request/Response,Request和Response的基本结构如下:
RequestOrResponse => MessageSize (RequestMessage | ResponseMessage)
其中各字段的含义为:
名称 | 类型 | 描述 |
---|---|---|
MessageSize | int32 | 表示RequestMessage或者ResponseMessage的长度 |
RequestMessage/ResponseMessage | - | 表示Request或者Response的内容,在下面将会介绍其具体格式。 |
这个结构定义了通讯双方交换数据的基本结构。通讯的过程可以简单地表示为:客户端打开与服务器端的Socket,然后往Socket写入一个int32的数字表示这次发送的Request有多少字节,然后继续往Socket中写入对应字节数的数据。服务器端先读出一个int32的整数从而获取这次Request的大小,然后读取对应字节数的数据从而得到Request的具体内容。服务器端处理了请求后,也用同样的方式来发送响应。
RequestMessage的结构如下:
RequestMessage => ApiKey ApiVersion CorrelationId ClientId Request
名称 | 类型 | 描述 |
---|---|---|
ApiKey | int16 | 表示这次请求的API编号 |
ApiVersion | int16 | 表示请求的API的版本,有了版本后就可以做到后向兼容 |
CorrelationId | int32 | 由客户端指定的一个数字唯一标示这次请求的id,服务器端在处理完请求后也会把同样的CorrelationId写到Response中,这样客户端就能把某个请求和响应对应起来了。 |
ClientId | string | 客户端指定的用来描述客户端的字符串,会被用来记录日志和监控,它唯一标示一个客户端。 |
Request | - | Request的具体内容。 |
ResponseMessage的结构如下:
ResponseMessage => CorrelationId Response
名称 | 类型 | 描述 |
---|---|---|
CorrelationId | int32 | 对应Request的CorrelationId。 |
Response | - | 对应Request的Response,不同的Request的Response的字段是不一样的。 |
Kafka是一个分布式消息系统,Producer生产消息并推送(Push)给Broker,然后Consumer再从Broker那里取走(Pull)消息。Producer生产的消息就是由Message来表示的,对用户来讲,它就是键-值对,来看看它的结构。
Message => Crc MagicByte Attributes Key Value
名称 | 类型 | 描述 |
---|---|---|
CRC | int32 | 表示这条消息(不包括CRC字段本身)的校验码 |
MagicByte | int8 | 表示消息格式的版本,用来做后向兼容,目前值为0 |
Attributes | int8 | 表示这条消息的元数据,目前最低两位用来表示压缩格式 |
Key | bytes | 表示这条消息的Key,可以为null |
Value | bytes | 表示这条消息的Value。Kafka支持消息嵌套,也就是把一条消息作为Value放到另外一条消息里面。 |
MessageSet用来组合多条Message,它在每条Message的基础上加上了Offset和MessageSize,其结构是:
MessageSet => [Offset MessageSize Message]
它的含义是MessageSet是个数组,数组的每个元素由三部分组成,分别是Offset,MessageSize和Message,它们的含义分别是:
名称 | 类型 | 描述 |
---|---|---|
Offset | int64 | 它用来作为log中的序列号,Producer在生产消息的时候还不知道具体的值是什么,可以随便填个数字进去 |
MessageSize | int32 | 表示这条Message的大小 |
Message | - | 表示这条Message的具体内容,其格式见上一小节。 |
Kafka支持下面几种压缩方式,
压缩方式 | 编码 |
---|---|
不压缩 | 0 |
Gzip | 1 |
Snappy | 2 |
LZ4 | 3 |
其中编码就是Message的Attribute的最低两位的值。
因为单条消息中重复内容可能不多,所以通常把多条消息放在一起组成MessageSet,然后再把MessageSet放到一条Message里面去,从而提高压缩比率。
Kafka使用基于TCP的二进制协议。该协议定义了所有API的请求及响应消息。所有消息都是有长度限制的,并且由后面描述的基本类型组成。
客户端启动的socket连接,并且写入请求的消息序列和读回相应的响应消息。连接和断开时均不需要握手消息。如果保持你保持长连接,那么TCP协议本身将会节省很多TCP握手时间,但如果真的重新建立连接,那么代价也相当小。
客户可能需要维持到多个broker的连接,因为数据是被分区的,而客户端需要和存储这些分区的broker服务器进行通讯。当然,一般而言,不需要为单个服务端和单个客户端间维护多个连接(即连接池技术)。
服务器的保证单一的TCP连接中,请求将被顺序处理,响应也将按该顺序返回。为保证broker的处理请求的顺序,单个连接同时也只会处理一个请求指令。请注意,客户端可以(也应该)使用非阻塞IO实现请求流水线,从而实现更高的吞吐量。也就是说,客户可以在等待上次请求应答的同时发送下个请求,因为待完成的请求将会在底层操作系统套接字缓冲区进行缓冲。除非特别说明,所有的请求是由客户端启动,并从服务器获取到相应的响应消息。
服务器能够配置请求大小的最大限制,超过这个限制将导致socket连接被断开。
Kafka是一个分区系统,所以不是所有的服务器都具有完整的数据集。主题(Topic)被分为P(预先定义的分区数量)个分区,每个分区被复制N(复制因子)份,Topic Partition根据顺序在“提交日志”中编号为0,1,…,P。
所有具有这种特性的系统都有一个如何制定某个特定数据应该被分配给哪个特定的分区的问题。Kafka中它由客户端直接控制分配策略,broker则没有特别的语义来决定消息发布到哪个分区。相反,生产者直接将消息发送到一个特定的分区,提取消息时,消费者也直接从某个特定的分区获取。如果两个生产者要使用相同的分区方案,那么他们必须用同样的方法来计算Key到分区映射关系。
这些发布或获取数据的请求必须发送到指定分区中作为leader的broker。此条件同时也会由broker保证,发送到不正确的broker的请求将会返回NotLeaderForPartition错误代码(后文所描述的)。
那么客户端如何找出哪些主题存在,他们有什么分区,以及这些分区被哪些broker存取,以便它可以直接将请求发送到所在的主机?这个信息是动态的,因此你不能只是提供每个客户端一些静态映射文件。所有的Kafka broker都可以回答这个描述集群的当前状态的数据请求:有哪些主题,这些主题都有多少分区,哪个broker是这些分区的Leader,以及这些broker主机的地址和端口信息。
换句话说,客户端只需要找到一个broker,broker将会告知客户端所有其他存在的broker,以及这些broker上面的所有分区。这个broker本身也可能会掉线,因此客户端实现的最佳做法是保存两个或三个broker地址,从而来引导列表。用户可以选择使用负载均衡器或只是静态地配置两个或三个客户的Kafka主机。
客户并不需要轮询地查看集群是否已经改变;它可以等到它接收到所用的元数据是过时的错误信息时一次性更新元数据。这中错误有两种形式:(1)一个套接字错误指示客户端不能与特定的broker进行通信,(2)请求响应表明该broker不再是其请求数据分区的Leader的错误。
上面提到消息的分区分配是由生产者客户端控制,那么,为什么要把这个功能被暴露给最终用户?
在Kafka中,这样分区有两个目的:
对于给定的使用场景下,你可能只关心其中的一个或两个。
为了实现简单的负载均衡,一个简单的策略是客户端发布消息是对所有broker进行轮询请求(round robin requests)。另一种选择,在那些生产者比消费者多的场景下,给每个客户机随机选择并发布消息到该分区。后一种的策略能够使用少得多的TCP连接。
语义分区是指使用关键字(key)来决定消息分配的分区。例如,如果你正在处理一个点击消息流时,可能需要通过用户ID来划分流,使得特定用户的所有数据会被单个消费者消费。要做到这一点,客户端可以采取与消息相关联的关键字,并使用关键字的某个Hash值来选择的传送的分区。
我们的API鼓励将小的请求批量处理以提高效率。我们发现这能非常显著地提升性能。我们两个用来发送消息和获取消息的API,总是以一连串的消息工作,而不是单一的消息,从而鼓励批处理操作。聪明的客户端可以利用这一点,并支持“异步”操作模式,以此进行批处理哪些单独发送的消息,并把它们以较大的块进行发送。我们再进一步允许跨多个主题和分区的批处理,所以生产请求可能包含追加到许多分区的数据,一个读取请求可以一次性从多个分区提取数据的。
当然,如果他们喜欢,客户端实现者可以选择忽略这一点,所有消息一次都发送一个。
该协议的目的要达到在向后兼容的基础上渐进演化。我们的版本是基于每个API基础之上,每个版本包括一个请求和响应对。每个请求包含API Key,里面包含了被调用的API标识,以及表示这些请求和响应格式的版本号。
这样做的目的是允许客户端执行相应特定版本的请求。目标主要是为了在不允许停机的环境下进行更新,这种环境下,客户端和服务器不能一次性都切换所使用的API。
服务器将拒绝它不支持的版本的请求,并始终返回它期望收到的能够完成请求响应的版本的协议格式。预期的升级路径方式是,新功能将首先部署到服务器(老客户端无法完全利用他们的新功能),然后随着新的客户端的部署,这些新功能将逐步被利用。
目前,所有版本基线为0,当我们演进这些API时,我们将分别显示每个版本的格式。
The protocol is built out of the following primitive types.
该协议是建立在下列基本类型之上。
后面的BNF确切地以上下文无关的语法展示了请求和响应的二进制格式。每个API都会一起给出请求和响应,以及所有的子定义(sub-definitions)。BNF使用没有经过缩写的便于阅读的名称(比如我使用一个符号化了得名称来定义了一个生产者错误码,即便它只是int16整数)。一般在BNF中,一个序列表示一个连接,所以下面给出的MetadataRequest将是一个含有VersionId,然后clientId,然后TopicNames的阵列(每一个都有其自身的定义)。自定义类型一般使用驼峰法拼写,基本类型使用全小写方式乒协。当存在多中可能的自定义类型时,使用’|’符号分割,并且用括号表示分组。顶级定义不缩进,后续的子部分会被缩进
等等,其他要点案例请看译文:http://www.360doc.com/content/16/1118/21/37466175_607641263.shtmlCopyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。