当前位置:   article > 正文

Flink的简单学习二

Flink的简单学习二

一 Flink的核心组件

1.1 client

1.将数据流程图DataFlow发送给JobManager。

1.2 JobManager

1.收集client的DataFlow图,将图分解成一个个的task任务,并返回状态更新数据给client

2.JobManager负责作业调度,收集TaskManager的Heartbeat和统计信息。

1.3 TaskManager

1.将每一个task任务放到一个TaskSlot槽中

2.TaskManager 之间以流的形式进行数据的传输。

二 Flink的集群搭建

2.1 独立集群

2.1.1 上传解压配置环境变量

1.解压 tar -zxvf flink-1.15.2-bin-scala_2.12.tgz -C ../

2.配置环境变量

  1. # 配置环境变量
  2. vim /etc/profile
  3. export FLINK_HOME=/usr/local/soft/flink-1.15.2
  4. export PATH=$PATH:$FLINK_HOME/bin
  5. source /etc/profile

2.1.2 修改配置文件

1.修改flink-conf.yaml

  1. jobmanager.rpc.address: master
  2. jobmanager.bind-host: 0.0.0.0
  3. taskmanager.bind-host: 0.0.0.0
  4. taskmanager.host: localhost # noe1和node2需要单独修改
  5. taskmanager.numberOfTaskSlots: 4
  6. rest.address: master
  7. rest.bind-address: 0.0.0.0

2.修改masters

master:8081

3.修改workers

  1. node1
  2. node2

2.1.3 同步到所有节点

1.同步

  1. scp -r flink-1.15.2 node1:`pwd`
  2. scp -r flink-1.15.2 node2:`pwd`

2.修改子节点的flink-conf.yaml文件中的taskmanager.host

  1. taskmanager.host: node1
  2. taskmanager.host: node2

2.1.4 启动与关闭集群

1.启动

start-cluster.sh

2.看是否成功,打开web ui界面

http://master:8081

3.关闭集群

stop-cluster.sh

2.1.5 提交任务

1.将代码打包到服务器中提交

1.启动命令

flink run -c com.shujia.flink.core.Demo1StreamWordCount flink-1.0.jar

com.shujia.flink.core.Demo1StreamWordCount:主类名

flink-1.0.jar:jar包名

2.查看web界面

3.查看结果

4.关闭任务

 2.web界面提交任务

1.提交

2.相关配置

2.2 Flink on Yarn

2.2.1 整合

1.在环境变量中配置HADOOP_CLASSSPATH

  1. vim /etc/profile
  2. export HADOOP_CLASSPATH=`hadoop classpath`
  3. source /etc/profile

 2.2.2 Application Mode

1、将任务提交到yarn上运行,yarn会为每一个flink地任务启动一个jobmanager和一个或者多个taskmanasger

2、代码main函数不再本地运行,dataFlow不再本地构建,如果代码报错在本地看不到详细地错误日志

 1.启动命令

flink run-application -t yarn-application -c com.shujia.flink.core.Demo1StreamWordCount flink-1.0.jar

flink run-application -t yarn-application -c:任务命令名

com.shujia.flink.core.Demo1StreamWordCount:主类名

flink-1.0.jar:jar包名

2.查看界面

点击这个,直接跳转到Flink的web界面

2.2.3 Per-Job Cluster Mode

1、将任务提交到yarn上运行,yarn会为每一个flink地任务启动一个jobmanager和一个或者多个taskmanasger

2、代码地main函数在本地启动,在本地构建dataflow,再将dataflow提交给jobmanager,如果代码报错再本地可以烂到部分错误日志

1.启动命令

flink run -t yarn-per-job -c com.shujia.flink.core.Demo1StreamWordCount flink-1.0.jar

flink run -t yarn-per-job -c:命令名

com.shujia.flink.core.Demo1StreamWordCount:主类名

flink-1.0.jar:jar包名

2.界面跟Application Mode一样

2.3.4 Session Mode

1、先再yarn中启动一个jobmanager, 不启动taskmanager

2、提交任务地时候再动态申请taskmanager

3、所有使用session模式提交的任务共享同一个jobmanager

4、类似独立集群,只是集群在yarn中启动了,可以动态申请资源

5、一般用于测试

1.先启动会话集群

yarn-session.sh -d

启动过后出现这个,一个是任务编码application_1717379968853_0003

另一个是web界面,复制可以打开

2.提交任务

命令提交

flink run -t yarn-session -Dyarn.application.id=application_1717379968853_0003 -c com.shujia.flink.core.Demo1StreamWordCount flink-1.0.jar

Dyarn.application.id=application_1717379968853_0003:这个是启动会话集群给的

com.shujia.flink.core.Demo1StreamWordCount:主类名

flink-1.0.jar:jar包名

web界面提交:跟Application Mode的web提交一模一样

三 并行度

3.1 设置并行度

3.1.1 代码中设置

1.代码中不设置,默认的并行度数量是配置文件里面的

2.代码中配置

env.setParallelism(2)

3.1.2 提交任务中设置

1.加一个参数 -p 并行度数量

例如:

flink run -t yarn-session -p 3 -Dyarn.application.id=application_1717379968853_0003 -c com.shujia.flink.core.Demo1StreamWordCount flink-1.0.jar

2.或者在ui界面中设置

3.1.3 配置文件中设置

1.这个一般不用

在flink-conf.yaml修改配置

3.1.4 每一个算子单独设置

在代码中使用算子时候后面可以设置并行度,但是这种不用

3.1.4 优先级

代码>提交任务中配置>配置文件

3.2 共享资源

 1、flink需要资源的数量和task数量无关

 2、一个并行度对应一个资源(slot)

 3、上游task的下游task共享同一个资源

3.3 并行度设置原则

1.实时计算的任务并行度取决于数据的吞吐量

 2、聚合计算(有shuffle)的代码一个并行度大概一秒可以处理10000条数据左右

 3、非聚合计算是,一个并行度大概一秒可以处理10万条左右

四 事件时间

4.1 event time

数据产生的时间,数据中有一个时间字段,使用数据的时间字段触发计算,代替真实的时间,可以反应数据真实发生的顺序,计算更有意义

4.1.1 数据时间无乱序

1.解析数据,分析哪个数据是数据时间

2.指定时间字段

forMonotonousTimestamps():单调递增。数据时间只能是往上增的

  1. tsDS.assignTimestampsAndWatermarks(WatermarkStrategy
  2. //指定水位线生产策略,水位线等于最新一条数据的时间戳,如果数据乱序可能会丢失数据
  3. .<Tuple2<String, Long>>forMonotonousTimestamps()
  4. //指定时间字段
  5. .withTimestampAssigner((event, ts) -> event.f1));

2.完整代码如下 

  1. package com.shujia.flink.core;
  2. import org.apache.flink.api.common.eventtime.WatermarkStrategy;
  3. import org.apache.flink.api.common.typeinfo.Types;
  4. import org.apache.flink.api.java.tuple.Tuple2;
  5. import org.apache.flink.streaming.api.datastream.DataStream;
  6. import org.apache.flink.streaming.api.datastream.KeyedStream;
  7. import org.apache.flink.streaming.api.datastream.WindowedStream;
  8. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  9. import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
  10. import org.apache.flink.streaming.api.windowing.time.Time;
  11. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  12. import java.time.Duration;
  13. public class Demo5EventTime {
  14. public static void main(String[] args)throws Exception {
  15. /*
  16. * 事件时间:数据中有一个时间字段,使用数据的时间字段触发计算,代替真实的时间,可以反应数据真实发生的顺序,计算更有意义
  17. */
  18. /*
  19. java,1717395300000
  20. java,1717395301000
  21. java,1717395302000
  22. java,1717395303000
  23. java,1717395304000
  24. java,1717395305000
  25. */
  26. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  27. env.setParallelism(1);
  28. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  29. //解析数据
  30. DataStream<Tuple2<String, Long>> tsDS = linesDS.map(line -> {
  31. String[] split = line.split(",");
  32. String word = split[0];
  33. long ts = Long.parseLong(split[1]);
  34. return Tuple2.of(word, ts);
  35. }, Types.TUPLE(Types.STRING, Types.LONG));
  36. /*
  37. * 指定时间字段和水位线生成策略
  38. */
  39. DataStream<Tuple2<String, Long>> assDS = tsDS
  40. .assignTimestampsAndWatermarks(
  41. WatermarkStrategy
  42. //指定水位线生产策略,水位线等于最新一条数据的时间戳,如果数据乱序可能会丢失数据
  43. .<Tuple2<String, Long>>forMonotonousTimestamps()
  44. //指定时间字段
  45. .withTimestampAssigner((event, ts) -> event.f1)
  46. );
  47. /*
  48. *每隔5秒统计单词的数量
  49. */
  50. DataStream<Tuple2<String, Integer>> kvDS = assDS
  51. .map(kv -> Tuple2.of(kv.f0, 1), Types.TUPLE(Types.STRING, Types.INT));
  52. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS
  53. .keyBy(kv -> kv.f0);
  54. //TumblingEventTimeWindows:滚动的事件时间窗口
  55. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowDS = keyByDS
  56. .window(TumblingEventTimeWindows.of(Time.seconds(5)));
  57. windowDS.sum(1).print();
  58. env.execute();
  59. }
  60. }

3.结果分析

上面代码是以5秒作为一个滚动的事件时间窗口。不包括第五秒,左闭右开。

窗口的触发条件:水位线大于等于窗口的结束时间;窗口内有数据

水位线:等于最新一条数据的时间戳

比如说0-5-10-15-20.0-5是一个窗口,5-10是一个窗口,且窗口里面有数据才能被计算,如果这个窗口里面出现了不存在这个时间的事件,则不会被处理

输入的事件时间是乱序的,他丢失第四次输出的。

 4.1.2 数据时间乱序

1.水位线前移,使用forBoundedOutOfOrderness里面传入前移的时间

  1. tsDS.assignTimestampsAndWatermarks(WatermarkStrategy
  2. //水位线前移时间(数据最大乱序时间)
  3. .<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(5))
  4. //指定时间字段
  5. .withTimestampAssigner((event, ts) -> event.f1));

2.完整代码

  1. package com.shujia.flink.core;
  2. import org.apache.flink.api.common.eventtime.WatermarkStrategy;
  3. import org.apache.flink.api.common.typeinfo.Types;
  4. import org.apache.flink.api.java.tuple.Tuple2;
  5. import org.apache.flink.streaming.api.datastream.DataStream;
  6. import org.apache.flink.streaming.api.datastream.KeyedStream;
  7. import org.apache.flink.streaming.api.datastream.WindowedStream;
  8. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  9. import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
  10. import org.apache.flink.streaming.api.windowing.time.Time;
  11. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  12. import java.time.Duration;
  13. public class Demo5EventTime {
  14. public static void main(String[] args)throws Exception {
  15. /*
  16. * 事件时间:数据中有一个时间字段,使用数据的时间字段触发计算,代替真实的时间,可以反应数据真实发生的顺序,计算更有意义
  17. */
  18. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  19. /*
  20. java,1717395301000
  21. java,1717395302000
  22. java,1717395303000
  23. java,1717395304000
  24. java,1717395305000
  25. java,1717395307000
  26. java,1717395308000
  27. java,1717395311000
  28. java,1717395313000
  29. java,1717395315000
  30. */
  31. env.setParallelism(1);
  32. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  33. //解析数据
  34. DataStream<Tuple2<String, Long>> tsDS = linesDS.map(line -> {
  35. String[] split = line.split(",");
  36. String word = split[0];
  37. long ts = Long.parseLong(split[1]);
  38. return Tuple2.of(word, ts);
  39. }, Types.TUPLE(Types.STRING, Types.LONG));
  40. /*
  41. * 指定时间字段和水位线生成策略
  42. */
  43. DataStream<Tuple2<String, Long>> assDS = tsDS
  44. .assignTimestampsAndWatermarks(
  45. WatermarkStrategy
  46. //指定水位线生产策略,水位线等于最新一条数据的时间戳,如果数据乱序可能会丢失数据
  47. // .<Tuple2<String, Long>>forMonotonousTimestamps()
  48. //水位线前移时间(数据最大乱序时间)
  49. .<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(5))
  50. //指定时间字段
  51. .withTimestampAssigner((event, ts) -> event.f1)
  52. );
  53. /*
  54. *每隔5秒统计单词的数量
  55. */
  56. DataStream<Tuple2<String, Integer>> kvDS = assDS
  57. .map(kv -> Tuple2.of(kv.f0, 1), Types.TUPLE(Types.STRING, Types.INT));
  58. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS
  59. .keyBy(kv -> kv.f0);
  60. //TumblingEventTimeWindows:滚动的事件时间窗口
  61. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowDS = keyByDS
  62. .window(TumblingEventTimeWindows.of(Time.seconds(5)));
  63. windowDS.sum(1).print();
  64. env.execute();
  65. }
  66. }

3.结果分析

我输入的如图所示,我代码设置了水位线前移5秒中,所以触发时间是10秒才触发任务,0-10秒里有4个0-5里面的数据,所以输出了4.为什么14000没有输出,因为14-5=9,他还没有到下一阶段的水位线。我再输出了16秒的,他就有结果了。

4.1.3 水位线对齐

1.当上游有多个task时,下游task会取上游task水位线的最小值,如果数据量小。水位线就很难对齐,窗口就不会触发计算。故要设置并行度,提前把task设定好。

2.如果不设置并行度,可能要输出很多事件才能触发计算。

4.2 processing time

1.处理时间:真实时间

2.这个代码是设置了滚动的处理时间窗口吗,每现实时间5秒中处理一下数据

  1. package com.shujia.flink.core;
  2. import org.apache.flink.api.common.typeinfo.Types;
  3. import org.apache.flink.api.java.tuple.Tuple2;
  4. import org.apache.flink.streaming.api.datastream.DataStream;
  5. import org.apache.flink.streaming.api.datastream.KeyedStream;
  6. import org.apache.flink.streaming.api.datastream.WindowedStream;
  7. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  8. import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
  9. import org.apache.flink.streaming.api.windowing.time.Time;
  10. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  11. public class Demo4ProcTime {
  12. public static void main(String[] args) throws Exception {
  13. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  14. DataStream<String> wordsDS = env.socketTextStream("master", 8888);
  15. //转换成kv
  16. DataStream<Tuple2<String, Integer>> kvDS = wordsDS
  17. .map(word -> Tuple2.of(word, 1), Types.TUPLE(Types.STRING, Types.INT));
  18. //按照单词分组
  19. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS.keyBy(kv -> kv.f0);
  20. //划分窗口
  21. //TumblingProcessingTimeWindows:滚动的处理时间窗口
  22. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowDS = keyByDS
  23. .window(TumblingProcessingTimeWindows.of(Time.seconds(5)));
  24. //统计单词的数量
  25. DataStream<Tuple2<String, Integer>> countDS = windowDS.sum(1);
  26. countDS.print();
  27. env.execute();
  28. }
  29. }

五 窗口

5.1 time window

1.时间窗口有四种:

SlidingEventTimeWindows:滑动的事件时间窗口

SlidingProcessingTimeWindows: 滑动的处理时间窗口 

TumblingEventTimeWindows:滚动的事件时间窗口

TumblingProcessingTimeWindows:滚动的处理时间窗口

2.滑动事件需要设置2个时间,一个设置窗口的大小,另一个是滚动的时间

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.eventtime.WatermarkStrategy;
  3. import org.apache.flink.api.common.typeinfo.Types;
  4. import org.apache.flink.api.java.tuple.Tuple2;
  5. import org.apache.flink.streaming.api.datastream.DataStream;
  6. import org.apache.flink.streaming.api.datastream.KeyedStream;
  7. import org.apache.flink.streaming.api.datastream.WindowedStream;
  8. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  9. import org.apache.flink.streaming.api.windowing.assigners.SlidingEventTimeWindows;
  10. import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
  11. import org.apache.flink.streaming.api.windowing.time.Time;
  12. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  13. import java.time.Duration;
  14. public class Demo1TimeWindow {
  15. public static void main(String[] args)throws Exception {
  16. /*
  17. * 事件时间:数据中有一个时间字段,使用数据的时间字段触发计算,代替真实的时间,可以反应数据真实发生的顺序,计算更有意义
  18. */
  19. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  20. /*
  21. java,1717395301000
  22. java,1717395302000
  23. java,1717395303000
  24. java,1717395304000
  25. java,1717395305000
  26. java,1717395307000
  27. java,1717395308000
  28. java,1717395311000
  29. java,1717395313000
  30. java,1717395315000
  31. */
  32. /*
  33. *水位线对齐
  34. * 1、当上游有多个task时,下游task会取上游task水位线的最小值,如果数据量小。水位线就很难对齐,窗口就不会触发计算
  35. */
  36. env.setParallelism(1);
  37. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  38. //解析数据
  39. DataStream<Tuple2<String, Long>> tsDS = linesDS.map(line -> {
  40. String[] split = line.split(",");
  41. String word = split[0];
  42. long ts = Long.parseLong(split[1]);
  43. return Tuple2.of(word, ts);
  44. }, Types.TUPLE(Types.STRING, Types.LONG));
  45. /*
  46. * 指定时间字段和水位线生成策略
  47. */
  48. DataStream<Tuple2<String, Long>> assDS = tsDS
  49. .assignTimestampsAndWatermarks(
  50. WatermarkStrategy
  51. //指定水位线生产策略,水位线等于最新一条数据的时间戳,如果数据乱序可能会丢失数据
  52. // .<Tuple2<String, Long>>forMonotonousTimestamps()
  53. //水位线前移时间(数据最大乱序时间)
  54. .<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(5))
  55. //指定时间字段
  56. .withTimestampAssigner((event, ts) -> event.f1)
  57. );
  58. /*
  59. *每隔5秒统计单词的数量
  60. */
  61. DataStream<Tuple2<String, Integer>> kvDS = assDS
  62. .map(kv -> Tuple2.of(kv.f0, 1), Types.TUPLE(Types.STRING, Types.INT));
  63. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS
  64. .keyBy(kv -> kv.f0);
  65. /*
  66. * SlidingEventTimeWindows:滑动的事件时间窗口
  67. * SlidingProcessingTimeWindows: 滑动的处理时间窗口
  68. * TumblingEventTimeWindows:滚动的事件时间窗口
  69. * TumblingProcessingTimeWindows:滚动的处理时间窗口
  70. * 滑动的时间窗口需要设置两个时间,第一个是窗口的大小,第二个是记录的时间,
  71. * 比如说(15,5),这是每5秒计算最近15秒内的数据
  72. */
  73. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowDS = keyByDS
  74. .window(SlidingEventTimeWindows.of(Time.seconds(15),Time.seconds(5)));
  75. windowDS.sum(1).print();
  76. env.execute();
  77. }
  78. }

这个代码用的是滑动的事件时间窗口,我设置了每5秒钟计算最近15秒内的数据

5.2 count time

1.滚动的统计窗口:每个key隔多少数据计算一次

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.typeinfo.Types;
  3. import org.apache.flink.api.java.tuple.Tuple2;
  4. import org.apache.flink.streaming.api.datastream.*;
  5. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  6. import org.apache.flink.streaming.api.windowing.windows.GlobalWindow;
  7. public class Demo2CountWindow {
  8. public static void main(String[] args) throws Exception {
  9. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  10. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  11. DataStream<Tuple2<String, Integer>> kvDS = linesDS
  12. .map(word -> Tuple2.of(word, 1), Types.TUPLE(Types.STRING, Types.INT));
  13. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS.keyBy(kv -> kv.f0);
  14. /*
  15. * 统计窗口
  16. * countWindow(10):滚动的统计窗口, 每个key每隔10条数据计算一次
  17. * countWindow(10, 2): 滑动的统计窗口,每隔两条数据计算最近10条数据
  18. */
  19. WindowedStream<Tuple2<String, Integer>, String, GlobalWindow> countWindowDS = keyByDS
  20. .countWindow(10, 2);
  21. countWindowDS.sum(1).print();
  22. env.execute();
  23. }
  24. }

 2.滑动的统计窗口:每隔多少数据计算最近的多少条数据

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.typeinfo.Types;
  3. import org.apache.flink.api.java.tuple.Tuple2;
  4. import org.apache.flink.streaming.api.datastream.*;
  5. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  6. import org.apache.flink.streaming.api.windowing.windows.GlobalWindow;
  7. public class Demo2CountWindow {
  8. public static void main(String[] args) throws Exception{
  9. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  10. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  11. DataStream<Tuple2<String, Integer>> mapDS = linesDS.map(word -> Tuple2.of(word, 1), Types.TUPLE(Types.STRING, Types.INT));
  12. KeyedStream<Tuple2<String, Integer>, String> keyBy = mapDS.keyBy(kv -> kv.f0);
  13. WindowedStream<Tuple2<String, Integer>, String, GlobalWindow> countWindow = keyBy.countWindow(10,2);
  14. countWindow.sum(1).print();
  15. env.execute();
  16. }
  17. }

5.3 session time

1.处理时间的会话窗口ProcessingTimeSessionWindows:对一个key,10秒内没有下一步数据开始计算。比如说我输入了 a*7次,然后等10秒输出结果是(a,7)。我再输入a*6次加一个aa,那么输出结果是(aa,1)与(a,6).

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.typeinfo.Types;
  3. import org.apache.flink.api.java.tuple.Tuple2;
  4. import org.apache.flink.streaming.api.datastream.DataStream;
  5. import org.apache.flink.streaming.api.datastream.KeyedStream;
  6. import org.apache.flink.streaming.api.datastream.WindowedStream;
  7. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  8. import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
  9. import org.apache.flink.streaming.api.windowing.time.Time;
  10. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  11. public class Demo3SessionWindow {
  12. public static void main(String[] args) throws Exception{
  13. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  14. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  15. DataStream<Tuple2<String, Integer>> mapDS = linesDS.map(word -> Tuple2.of(word, 1), Types.TUPLE(Types.STRING, Types.INT));
  16. KeyedStream<Tuple2<String, Integer>, String> keyBy = mapDS.keyBy(kv -> kv.f0);
  17. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> window = keyBy.window(ProcessingTimeSessionWindows.withGap(Time.seconds(10)));
  18. window.sum(1).print();
  19. env.execute();
  20. }
  21. }

2.事件时间的会话窗口EventTimeSessionWindows:根据数据的时间,对应同一个key,10秒内没有下一步数据开始计算

这个不常用

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.eventtime.WatermarkStrategy;
  3. import org.apache.flink.api.common.typeinfo.Types;
  4. import org.apache.flink.api.java.tuple.Tuple2;
  5. import org.apache.flink.streaming.api.datastream.DataStream;
  6. import org.apache.flink.streaming.api.datastream.KeyedStream;
  7. import org.apache.flink.streaming.api.datastream.WindowedStream;
  8. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  9. import org.apache.flink.streaming.api.windowing.assigners.EventTimeSessionWindows;
  10. import org.apache.flink.streaming.api.windowing.time.Time;
  11. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  12. import java.time.Duration;
  13. public class Demo4EventTimeSessionWindow {
  14. public static void main(String[] args) throws Exception{
  15. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  16. /*
  17. java,1685433130000
  18. java,1685433131000
  19. java,1685433132000
  20. java,1685433134000
  21. java,1685433135000
  22. java,1685433137000
  23. java,1685433139000
  24. java,1685433149000
  25. java,1685433155000
  26. java,1685433170000
  27. */
  28. env.setParallelism(1);
  29. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  30. //解析数据
  31. DataStream<Tuple2<String, Long>> tsDS = linesDS.map(line -> {
  32. String[] split = line.split(",");
  33. String word = split[0];
  34. long ts = Long.parseLong(split[1]);
  35. return Tuple2.of(word, ts);
  36. }, Types.TUPLE(Types.STRING, Types.LONG));
  37. /*
  38. * 指定时间字段和水位线生成策略
  39. */
  40. DataStream<Tuple2<String, Long>> assDS = tsDS
  41. .assignTimestampsAndWatermarks(
  42. WatermarkStrategy
  43. //水位线前移时间(数据最大乱序时间)
  44. .<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(5))
  45. //指定时间字段
  46. .withTimestampAssigner((event, ts) -> event.f1)
  47. );
  48. /*
  49. *每隔5秒统计单词的数量
  50. */
  51. DataStream<Tuple2<String, Integer>> kvDS = assDS
  52. .map(kv -> Tuple2.of(kv.f0, 1), Types.TUPLE(Types.STRING, Types.INT));
  53. KeyedStream<Tuple2<String, Integer>, String> keyByDS = kvDS
  54. .keyBy(kv -> kv.f0);
  55. /*
  56. * EventTimeSessionWindows:事件时间的会话窗口
  57. */
  58. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowDS = keyByDS
  59. .window(EventTimeSessionWindows.withGap(Time.seconds(10)));
  60. windowDS.sum(1).print();
  61. env.execute();
  62. }
  63. }

5.4 process与窗口结合

1.设置了窗口过后的DS后面用process算子,他里面传入的是实现ProcessWindowFunction中的抽象方法process的对象,这个抽象类里面传的是4个参数(IN, OUT, KEY, W),输入的类型,输出的类型,key的类型,以及窗口类型。窗口类型是三大窗口的其中之一。

2.process方法里面,第一个参数是key,第二个参数是flink的环境连接对象。第三个参数是kv的键值对,第四个参数是发送的对象

代码如下

  1. package com.shujia.flink.window;
  2. import org.apache.flink.api.common.typeinfo.Types;
  3. import org.apache.flink.api.java.tuple.Tuple2;
  4. import org.apache.flink.streaming.api.datastream.*;
  5. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  6. import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
  7. import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
  8. import org.apache.flink.streaming.api.windowing.time.Time;
  9. import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
  10. import org.apache.flink.util.Collector;
  11. public class Demo5WindowProcess {
  12. public static void main(String[] args) throws Exception{
  13. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  14. DataStream<String> linesDS = env.socketTextStream("master", 8888);
  15. SingleOutputStreamOperator<Tuple2<String, Integer>> kvDS = linesDS.map(line -> {
  16. String[] lines = line.split(",");
  17. String clazz = lines[4];
  18. int age = Integer.parseInt(lines[2]);
  19. return Tuple2.of(clazz, age);
  20. }, Types.TUPLE(Types.STRING, Types.INT));
  21. KeyedStream<Tuple2<String, Integer>, String> keyBy = kvDS.keyBy(kv -> kv.f0);
  22. WindowedStream<Tuple2<String, Integer>, String, TimeWindow> window = keyBy.window(TumblingProcessingTimeWindows.of(Time.seconds(5)));
  23. DataStream<Tuple2<String, Double>> process = window.process(new ProcessWindowFunction<Tuple2<String, Integer>, Tuple2<String, Double>, String, TimeWindow>() {
  24. @Override
  25. public void process(String clazz,
  26. ProcessWindowFunction<Tuple2<String, Integer>, Tuple2<String, Double>, String, TimeWindow>.Context context,
  27. Iterable<Tuple2<String, Integer>> elements,
  28. Collector<Tuple2<String, Double>> out) throws Exception {
  29. double sum_age = 0;
  30. int num = 0;
  31. for (Tuple2<String, Integer> element : elements) {
  32. sum_age += element.f1;
  33. num++;
  34. }
  35. double avg_age = sum_age / num;
  36. out.collect(Tuple2.of(clazz, avg_age));
  37. }
  38. });
  39. process.print();
  40. env.execute();
  41. }
  42. }

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/696350
推荐阅读
相关标签
  

闽ICP备14008679号