当前位置:   article > 正文

flink读取kafka_flink 读取kafka

flink 读取kafka

flink1.11.读取kafka数据

Watermark的核心本质可以理解成一个延迟触发机制。
在 Flink 的窗口处理过程中,如果确定全部数据到达,就可以对 Window 的所有数据做 窗口计算操作(如汇总、分组等),如果数据没有全部到达,则继续等待该窗口中的数据全 部到达才开始处理。这种情况下就需要用到水位线(WaterMarks)机制,它能够衡量数据处 理进度(表达数据到达的完整性),保证事件数据(全部)到达 Flink 系统,或者在乱序及 延迟到达时,也能够像预期一样计算出正确并且连续的结果。当任何 Event 进入到 Flink 系统时,会根据当前最大事件时间产生 Watermarks 时间戳。

那么 Flink 是怎么计算 Watermak 的值呢?

Watermark =进入Flink 的最大的事件时间(mxtEventTime)-指定的延迟时间(t)

那么有 Watermark 的 Window 是怎么触发窗口函数的呢?
如果有窗口的停止时间等于或者小于 maxEventTime - t(当时的warkmark),那么这个窗口被触发执行。

 

二、Watermark的三种使用情况

1、本来有序的Stream中的 Watermark

如果数据元素的事件时间是有序的,Watermark 时间戳会随着数据元素的事件时间按顺 序生成,此时水位线的变化和事件时间保持一直(因为既然是有序的时间,就不需要设置延迟了,那么t就是 0。所以 watermark=maxtime-0 = maxtime),也就是理想状态下的水位 线。当 Watermark 时间大于 Windows 结束时间就会触发对 Windows 的数据计算,以此类推, 下一个 Window 也是一样。这种情况其实是乱序数据的一种特殊情况。

2、乱序事件中的Watermark

现实情况下数据元素往往并不是按照其产生顺序接入到 Flink 系统中进行处理,而频繁 出现乱序或迟到的情况,这种情况就需要使用 Watermarks 来应对。比如下图,设置延迟时间t为2。

3、并行数据流中的Watermark

在多并行度的情况下,Watermark 会有一个对齐机制,这个对齐机制会取所有 Channel 中最小的 Watermark。

三、设置Watermark的核心代码

1、首先,正确设置事件处理的时间语义,一般都是采用Event Time。

sEnv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);	
  • 1

2、其次,指定生成Watermark的机制,包括:延时处理的时间和EventTime对应的字段。如下:

注意:不管是数据是否有序,都可以使用上面的代码。有序的数据只是无序数据的一种特殊情况。

四、Watermark编程案例

测试数据:基站的手机通话数据,如下:

 下面给出代码demo

  1. package com.hery.flink.java.constant;
  2. /**
  3. * @description: 属性常量类
  4. * @author: Baron_ND
  5. * @create: 2020-11-03 09:09
  6. */
  7. public class PropertiesConstants {
  8. public static final String KAFKA_BROKERS = "kafka.brokers";
  9. public static final String DEFAULT_KAFKA_BROKERS = "192.168.10.1:9092";
  10. public static final String KAFKA_ZOOKEEPER_CONNECT = "kafka.zookeeper.connect";
  11. public static final String DEFAULT_KAFKA_ZOOKEEPER_CONNECT = "192.168.10.9:2181";
  12. public static final String KAFKA_GROUP_ID = "kafka.group.id";
  13. public static final String DEFAULT_KAFKA_GROUP_ID = "testDemo";
  14. }

 创建kafka的配置信息类

  1. package com.hery.flink.java.utils;
  2. import com.hery.flink.java.constant.PropertiesConstants;
  3. import org.apache.flink.api.java.utils.ParameterTool;
  4. import java.util.Properties;
  5. /**
  6. * @description: kafka的基础配置信息
  7. * @author: Baron_ND
  8. * @create: 2020-11-03 15:31
  9. */
  10. public class KafkaConfigUtil {
  11. /**
  12. * 设置基础的 Kafka 配置
  13. *
  14. * @return
  15. */
  16. public static Properties buildKafkaProps() {
  17. return buildKafkaProps(ParameterTool.fromSystemProperties());
  18. }
  19. /**
  20. * 设置 kafka 配置
  21. *
  22. * @param parameterTool
  23. * @return
  24. */
  25. public static Properties buildKafkaProps(ParameterTool parameterTool) {
  26. Properties props = parameterTool.getProperties();
  27. props.put("bootstrap.servers", parameterTool.get(PropertiesConstants.KAFKA_BROKERS, PropertiesConstants.DEFAULT_KAFKA_BROKERS));
  28. props.put("group.id", parameterTool.get(PropertiesConstants.KAFKA_GROUP_ID, PropertiesConstants.DEFAULT_KAFKA_GROUP_ID));
  29. // props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
  30. // props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
  31. return props;
  32. }
  33. }

 实现主类

  1. package com.hery.flink.java.connector.kafka.read;
  2. import com.hery.flink.java.utils.ExecutionEnvUtil;
  3. import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
  4. import org.apache.flink.api.common.eventtime.WatermarkStrategy;
  5. import org.apache.flink.api.common.functions.FilterFunction;
  6. import org.apache.flink.api.common.functions.FlatMapFunction;
  7. import org.apache.flink.api.common.serialization.SimpleStringSchema;
  8. import org.apache.flink.streaming.api.windowing.time.Time;
  9. import org.apache.flink.api.java.functions.KeySelector;
  10. import org.apache.flink.api.java.utils.ParameterTool;
  11. import org.apache.flink.streaming.api.datastream.DataStreamSource;
  12. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  13. import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;
  14. import org.apache.flink.util.Collector;
  15. import java.time.Duration;
  16. import java.util.Arrays;
  17. import java.util.List;
  18. import java.util.Properties;
  19. import static com.hery.flink.java.utils.KafkaConfigUtil.buildKafkaProps;
  20. /**
  21. * @description: 消费kafka数据,第二种方式加上watermark,
  22. * 测试一个demo,统计窗口内通话时间最长的输出,结果例如:
  23. * 5> 窗口大小:0 - 3000
  24. * 会话ID:yss010,时间:90,发起:美国,接收:韩国,会话的持续时间:1
  25. * @author: Baron_ND
  26. * @create: 2020-11-10 09:04
  27. */
  28. public class ConsumerKafkaV2 {
  29. public static void main(String[] args) throws Exception {
  30. final ParameterTool parameterTool =ParameterTool.fromArgs(args);
  31. StreamExecutionEnvironment env = ExecutionEnvUtil.prepare(param
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/781513
推荐阅读
相关标签
  

闽ICP备14008679号