赞
踩
生产者和消费者是Kafka的核心概念之一,它们在客户端被创建和使用,并且包含了许多与Kafka性能和机制相关的配置。虽然Kafka提供的命令行工具能够执行许多基本操作,但它无法实现所有可能的性能优化。相比之下,使用Java API可以充分利用编程语言的灵活性,对生产者和消费者进行更精细的性能调优。对于大多数中间件,熟悉服务器的命令行操作可能足以帮助学习其API的使用。然而,Kafka则不同,要全面掌握Kafka的所有特性,必须系统地学习和理解其Java API。
在javaApi中可以通过创建一个Kafka生产者和消费者的配置对象,在new生产者或消费者的类时将配置对象传入,然后生产者实例通过调用send方法发送数据,消费者通过poll方法消费数据,数据需要通过ProducerRecords类封装key和value,并在生产者和消费者配置中为key和value指定序列化和反序列化类(key可以传null,key是在日志回收策略中发挥作用)。经过这样一套操作,消息就可以成功从生产者发往消费者。
- package com.kafak.testkafka;
-
- import org.apache.kafka.clients.consumer.ConsumerConfig;
- import org.apache.kafka.clients.consumer.ConsumerRecord;
- import org.apache.kafka.clients.consumer.ConsumerRecords;
- import org.apache.kafka.clients.consumer.KafkaConsumer;
- import org.apache.kafka.clients.producer.KafkaProducer;
- import org.apache.kafka.clients.producer.ProducerConfig;
- import org.apache.kafka.clients.producer.ProducerRecord;
- import org.junit.jupiter.api.Test;
- import org.springframework.boot.test.context.SpringBootTest;
-
- import java.time.Duration;
- import java.util.Properties;
-
- @SpringBootTest
- class TestKafkaApplicationTests {
-
- //预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
- KafkaProducer<String, String> kafkaProducer;
-
- //创建生产者
- public KafkaProducer<String, String> getKafkaProducer() {
-
- //创建生产者配置
- Properties props = new Properties();
- //配置Kafka集群地址
- props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置序列化
- props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- //返回生产者
- return new KafkaProducer<String, String>(props);
- }
-
- //创建消费者
- public KafkaConsumer<String, String> getKafkaConsumer() {
- //创建消费者配置
- Properties props = new Properties();
- //配置Kafka集群地址
- props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置消费者组id
- props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
- //配置反序列化
- props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- //返回消费者
- return new KafkaConsumer<>(props);
- }
-
- //通过生产者生产一百条数据
- @Test
- void kafkaProducerTest() {
- //获取生产者
- kafkaProducer = getKafkaProducer();
- //发送消息
- for (int i = 0; i < 100; i++) {
- kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i));
- }
- }
-
- //通过消费者消费消息
- @Test
- void kafkaConsumerTest() {
- //创建消费者,由于消费者是线程不安全,所以使用一次实例化一次,可以方式出现线程安全问题
- KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer();
- //接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
- ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
- // 处理消息
- for (ConsumerRecord<String, String> record : records) {
- System.out.printf("Consumed message with key %s, value %s, from partition %d with offset %d%n",
- record.key(), record.value(), record.partition(), record.offset());
- }
- }
-
- }
消息确认的原理性知识可以通过下面这篇文章学习,这里主要讲实操。
生产者端的消息确认策略由acks配置项控制,其由三种配置方式,其中我在下面这篇文章中详细讲述了相关知识。我们可以通过javaApi配置acks来控制确认策略。
生产者端的消息确认有同步和异步两种方式。
retries
属性),生产者会自动重试指定的次数。如果在所有重试尝试后仍然失败,最终会抛出异常,通知调用方消息发送失败。消费者消费成功在客户端的体现是成功获取到了数据,这本没有什么好说的,不过消费者不仅需要响应客户端数据,还要讲偏移量发送给Kafka,在这一过程中,消费者提供了手动提交和自动提交两种方式。启动自动提交是默认开启的,而手动提交则需要配置enable.auto.commit为false,然后通过创建分区和偏移量的映射关系,通过消费者的commit方法提交偏移量。
下面代码中,我创建了四个测试单元,其中前两个测试单元,分别是生产者同步提交和异步提交,而后两个测试单元分别时消费者的自动提交和手动提交。
- package com.kafak.testkafka;
-
- import org.apache.kafka.clients.consumer.*;
- import org.apache.kafka.clients.producer.KafkaProducer;
- import org.apache.kafka.clients.producer.ProducerConfig;
- import org.apache.kafka.clients.producer.ProducerRecord;
- import org.apache.kafka.clients.producer.RecordMetadata;
- import org.apache.kafka.common.TopicPartition;
- import org.junit.jupiter.api.Test;
- import org.springframework.boot.test.context.SpringBootTest;
-
- import java.time.Duration;
- import java.util.HashMap;
- import java.util.Map;
- import java.util.Properties;
-
- @SpringBootTest
- class TestKafkaApplicationTests {
- //预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
- KafkaProducer<String, String> kafkaProducer;
-
- //创建生产者
- public KafkaProducer<String, String> getKafkaProducer() {
- //创建生产者配置
- Properties props = new Properties();
-
- //配置消息确认策略
- props.put(ProducerConfig.ACKS_CONFIG, "all");
-
- //配置重试次数
- props.put(ProducerConfig.RETRIES_CONFIG,3);
-
- //配置Kafka集群地址
- props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置序列化
- props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- //返回生产者
- return new KafkaProducer<String, String>(props);
- }
-
- //创建消费者
- public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {
- //创建消费者配置
- Properties props = new Properties();
- //配置Kafka集群地址
- props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置消费者组id
- props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
- //配置反序列化
- props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- //判断当前消费者是否开启自动提交
- if (!isAutoCommit) {
- //关闭自动提交
- props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
- }else{
- //设置自动提交间隔时间1s
- props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");
- }
- //返回消费者
- return new KafkaConsumer<>(props);
- }
-
- //生产者同步确认
- @Test
- void kafkaProducerGetTest() {
- if(kafkaProducer == null) {
- kafkaProducer = getKafkaProducer();
- }
- //同步确认消息是否发送成功
- for (int i = 0; i < 100; i++) {
- try{
- RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();
- }catch (Exception e) {
- e.printStackTrace();
- }
- }
- kafkaProducer.close();
- }
-
- //生产者异步确认
- @Test
- void kafkaProduceSyncTest() {
- if(kafkaProducer == null) {
- kafkaProducer = getKafkaProducer();
- }
- //异步确认是否发送成功
- for (int i = 0; i < 100; i++) {
- kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i), (metadata, exception) -> {
- if (exception == null) {
- System.out.printf("发送消息成功, metadata=%s%n", metadata);
- } else {
- System.err.printf("发送消息失败, exception=%s%n", exception.getMessage());
- }
- });
- }
- kafkaProducer.close();
- }
-
- //消费者自动提交
- @Test
- void kafkaAutoCommitConsumerTest() {
- //创建消费者开启自动提交
- KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(true);
- //消费数据流程中无需负责偏移量提交
- while (true) {
- //接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
- ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
- //处理消息
- for (ConsumerRecord<String, String> record : records) {
- System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",
- record.key(), record.value(), record.partition(), record.offset());
- }
- }
- }
-
- //消费者手动提交
- @Test
- void kafkaSyncCommitConsumerTest() {
- //创建消费者关闭自动提交
- KafkaConsumer<String, String> kafkaConsumer = getKafkaConsumer(false);
- //消费数据流程中需要在消费数据后,提交偏移量
- while (true) {
- //接受消费者信息,传入100毫秒,消费者会一百毫秒拉去一次消息
- ConsumerRecords<String, String> records = kafkaConsumer.poll(Duration.ofMillis(100));
- // 处理消息
- for (ConsumerRecord<String, String> record : records) {
- System.out.printf("消息消费成功, key=%s, value=%s, partition=%d, offset=%d%n",
- record.key(), record.value(), record.partition(), record.offset());
- //创建分区和偏移量的映射类
- Map<TopicPartition, OffsetAndMetadata> offsets = new HashMap<>();
- //讲分区和偏移量的数据存入映射类
- offsets.put(new TopicPartition(record.topic(), record.partition()),
- new OffsetAndMetadata(record.offset() + 1));
- //偏移量提交
- kafkaConsumer.commitSync(offsets);
- }
- }
- }
-
- }
批处理在生产者端,和消费者端也有不同的实现。我在Kakfa基本概念一文中清楚的讲解了批处理的概念,文章如下
Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm=1001.2014.3001.5501
在生产者端,生产者实例的send方法会发送消息到缓冲区中,而缓冲区消息何时发送给Kafka集群,则是通过配置batch.size和linger.ms配置,来实现当缓冲区存入多少消息,和距离上一次发送消息多久后,来发送这一轮缓冲区的消息到Kafka集群,代码实现如下
- //创建生产者
- public KafkaProducer<String, String> getKafkaProducer() {
- //创建生产者配置
- Properties props = new Properties();
-
- //配置生产者批处理
- //缓冲区大小最大为16384比特
- props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
- //距离上次发送消息时间隔3s
- props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
-
- //配置消息确认策略
- props.put(ProducerConfig.ACKS_CONFIG, "all");
- //配置重试次数
- props.put(ProducerConfig.RETRIES_CONFIG,3);
- //配置Kafka集群地址
- props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置序列化
- props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- //返回生产者
- return new KafkaProducer<String, String>(props);
- }
消费者端批处理,消费者在拉去消息时,会在fetch.max.bytes,max.partition.fetch.bytes和max.poll.records三个配置项,以及传入poll方法的超时时间参数的限制下,尽可能多的拉取更多消息。
代码实现如下
- //创建消费者
- public KafkaConsumer<String, String> getKafkaConsumer(Boolean isAutoCommit) {
- //创建消费者配置
- Properties props = new Properties();
-
- //消费者批处理相关配置
- //消费缓冲区大小,也就是一次消费最多能消费多少比特消息
- props.put(ConsumerConfig.FETCH_MAX_BYTES_CONFIG,16384);
- //一次消费一个分区最多能消费多少比特
- props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG,8192);
- //一次消费最多能消费多少条数据
- props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG,1000);
-
- //配置Kafka集群地址
- props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置消费者组id
- props.put(ConsumerConfig.GROUP_ID_CONFIG, "test-group");
- //配置反序列化
- props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
- //判断当前消费者是否开启自动提交
- if (!isAutoCommit) {
- //关闭自动提交
- props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
- }else{
- //设置自动提交间隔时间1s
- props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, "1000");
- }
- //返回消费者
- return new KafkaConsumer<>(props);
- }
Kafka驱动支持事务操作,允许许生产者在多个主题和分区上以原子方式写入消息。这意味着你可以确保一组消息要么全部成功写入Kafka,要么全部失败。
事务操作首先通过生产者实例调用生产者实例的initTransactions方法,向kafka集群申请一个映射当前生产者的事务Id,然后就可以通过调用生产者实例的beginTransaction方法,开启一个事务,进行消息发送,最终通过调用commitTransaction方法完成事务的提交,如果中途发生异常则通过abortTransaction对当前事务进行回滚,代码实例如下
- package com.kafak.testkafka;
-
- import org.apache.kafka.clients.consumer.*;
- import org.apache.kafka.clients.producer.KafkaProducer;
- import org.apache.kafka.clients.producer.ProducerConfig;
- import org.apache.kafka.clients.producer.ProducerRecord;
- import org.apache.kafka.clients.producer.RecordMetadata;
- import org.apache.kafka.common.TopicPartition;
- import org.junit.jupiter.api.Test;
- import org.springframework.boot.test.context.SpringBootTest;
-
- import java.time.Duration;
- import java.util.HashMap;
- import java.util.Map;
- import java.util.Properties;
-
- @SpringBootTest
- class TestKafkaApplicationTests {
- //预定义Kafka对象实例,因为Kafka对象时线程安全,所以可以定义外面节省资源防止重复创建
- KafkaProducer<String, String> kafkaProducer;
-
- //创建生产者
- public KafkaProducer<String, String> getKafkaProducer() {
- //创建生产者配置
- Properties props = new Properties();
- //配置生产者批处理
- //缓冲区大小最大为16384比特
- props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
- //距离上次发送消息时间隔3s
- props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
- //配置消息确认策略
- props.put(ProducerConfig.ACKS_CONFIG, "all");
- //配置重试次数
- props.put(ProducerConfig.RETRIES_CONFIG,3);
- //配置Kafka集群地址
- props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置序列化
- props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- //返回生产者
- return new KafkaProducer<String, String>(props);
- }
-
-
-
- //测试事务
- @Test
- void kafkaProducerTransactionTest() {
- if(kafkaProducer == null) {
- kafkaProducer = getKafkaProducer();
- }
- kafkaProducer.initTransactions();
- try{
- kafkaProducer.beginTransaction();
- //消息发送相关操作
- for (int i = 0; i < 100; i++) {
- try{
- RecordMetadata topicJava = kafkaProducer.send(new ProducerRecord<String, String>("topicJava", "testKey" + i, "testValue" + i)).get();
- }catch (Exception e) {
- e.printStackTrace();
- }
- }
- kafkaProducer.commitTransaction();
- }catch (Exception e) {
- e.printStackTrace();
- kafkaProducer.abortTransaction();
- }
- kafkaProducer.close();
- }
-
-
-
- }
Kafka允许用户自定义分区器,实现特定的分区策略。可以通过实现Partitioner接口来创建自定义分区器。实现Partitioner接口需要实现三个方法,分别是partition,configure,close。
partition方法是实现分区逻辑其的主要方法,其接受六个参数,分别是
partition方法的返回值则是发送分区的编号,通过这个机制可以实现不同逻辑的分区器。
configuer方法在自定义分区类初始化时调用,当设计一些复杂操作,比如在发送消息前要和数据库交互时,可以在configure中完成数据库的连接。
close在分区逻辑执行完后调用,和configure一样,在复杂操作时,用于关闭分区逻辑中创建的连接,或一些内存资源等
假设我有一个三主机集群,其中30主机性能最好,31其次,32最差,我要通过自定义分区,将消息发送到三个分区的比例为3:2:1,通过Partitioner接口,可以简单的通过如下方式实现
- package com.kafak.testkafka;
-
- import org.apache.kafka.clients.producer.Partitioner;
- import org.apache.kafka.common.Cluster;
- import org.apache.kafka.common.Node;
- import org.apache.kafka.common.PartitionInfo;
-
- import java.util.List;
- import java.util.Map;
-
- public class CustomPartitioner implements Partitioner {
-
- @Override
- public int partition(String s, Object o, byte[] bytes, Object o1, byte[] bytes1, Cluster cluster) {
- //获取分区元数据
- List<PartitionInfo> partitionInfos = cluster.partitionsForTopic(s);
- //创建一个0-100的随机数
- double num = Math.random() * 100;
- //默认传递分区号
- Integer finalPartition = 0;
- for (PartitionInfo partitionInfo : partitionInfos) {
- //获取分区的leader
- Node leader = partitionInfo.leader();
- //获取分区leader的ip和端口
- String leaderAddress = leader.host() + ":" + leader.port(); // 生成 "host:port" 格式的字符串
- //如果随机数在0-50之间,发送消息至192.168.142.30:9092
- if (num < 50 && leaderAddress.equals("192.168.142.30:9092")) {
- finalPartition = partitionInfo.partition();
- break;
- //如果随机数在50-82之间,发送消息至192.168.142.31:9092
- } else if (num < 82 && num >= 50 && leaderAddress.equals("192.168.142.31:9092")) {
- finalPartition = partitionInfo.partition();
- break;
- //如果随机数在82-100之间,发送消息至192.168.142.32:9092
- } else if (num < 100 && num >= 82 && leaderAddress.equals("192.168.142.32:9092")) {
- finalPartition = partitionInfo.partition();
- break;
- }
- }
- //返回最终分区号
- return finalPartition;
- }
-
-
- @Override
- public void close() {
-
- }
-
- @Override
- public void configure(Map<String, ?> map) {
-
- }
- }
在生产者配置中通过partitioner_class配置自定义分区器,代码如下
- public KafkaProducer<String, String> getKafkaProducer() {
- //创建生产者配置
- Properties props = new Properties();
-
- //启用自定义分区器
- props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG,"com.kafak.testkafka.CustomPartitioner");
-
- //配置生产者批处理
- //缓冲区大小最大为16384比特
- props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
- //距离上次发送消息时间隔3s
- props.put(ProducerConfig.LINGER_MS_CONFIG,"3000");
- //配置消息确认策略
- props.put(ProducerConfig.ACKS_CONFIG, "all");
- //配置重试次数
- props.put(ProducerConfig.RETRIES_CONFIG,3);
- //配置Kafka集群地址
- props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.142.30:9092,192.168.142.31:9092,192.168.142.32:9092");
- //配置序列化
- props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
- //返回生产者
- return new KafkaProducer<String, String>(props);
- }
如此,便可以实现一个自定义分区策略。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。