当前位置:   article > 正文

Flink中的分流合流操作_flink 分流操作

flink 分流操作

分流

所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于DataStream,得到完全平等的多个子 DataStream,一般来说,我们会定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。

1、基于filter()方法进行筛选

  1. public class SplitStreamByFilter {
  2. public static void main(String[] args) throws Exception {
  3. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  4. env.setParallelism(1);
  5. SingleOutputStreamOperator<Event> stream = env.addSource(new ClickSource());
  6. // 筛选 Mary 的浏览行为放入 MaryStream 流中
  7. DataStream<Event> MaryStream = stream.filter(new FilterFunction<Event>() {
  8. @Override
  9. public boolean filter(Event value) throws Exception {
  10. return value.user.equals("Mary");
  11. }
  12. });
  13. // 筛选 Bob 的购买行为放入 BobStream 流中
  14. DataStream<Event> BobStream = stream.filter(new FilterFunction<Event>() {
  15. @Override
  16. public boolean filter(Event value) throws Exception {
  17. return value.user.equals("Bob");
  18. }
  19. });
  20. // 筛选其他人的浏览行为放入 elseStream 流中
  21. DataStream<Event> elseStream = stream.filter(new FilterFunction<Event>() {
  22. @Override
  23. public boolean filter(Event value) throws Exception {
  24. return !value.user.equals("Mary") && !value.user.equals("Bob");
  25. }
  26. });
  27. MaryStream.print("Mary pv");
  28. BobStream.print("Bob pv");
  29. elseStream.print("else pv");
  30. env.execute();
  31. }
  32. }

这种实现非常简单,但代码显得有些冗余——我们的处理逻辑对拆分出的三条流其实是一样的,却重复写了三次。而且这段代码背后的含义,是将原始数据流 stream 复制三份,然后对每一份分别做筛选;这明显是不够高效的。

2、基于侧输出流输出

  1. public class SplitStreamByOutputTag {
  2. // 定义输出标签,侧输出流的数据类型为三元组(user, url, timestamp)
  3. private static OutputTag<Tuple3<String, String, Long>> MaryTag = new OutputTag<Tuple3<String, String, Long>>("Mary-pv") {};
  4. private static OutputTag<Tuple3<String, String, Long>> BobTag = new OutputTag<Tuple3<String, String, Long>>("Bob-pv") {};
  5. public static void main(String[] args) throws Exception {
  6. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  7. env.setParallelism(1);
  8. SingleOutputStreamOperator<Event> stream = env.addSource(new ClickSource());
  9. SingleOutputStreamOperator<Event> processedStream = stream.process(new ProcessFunction<Event, Event>() {
  10. @Override
  11. public void processElement(Event value, Context ctx, Collector<Event> out) throws Exception {
  12. if (value.user.equals("Mary")) {
  13. ctx.output(MaryTag, new Tuple3<>(value.user, value.url, value.timestamp));
  14. } else if (value.user.equals("Bob")) {
  15. ctx.output(BobTag, new Tuple3<>(value.user, value.url, value.timestamp));
  16. } else {
  17. out.collect(value);
  18. }
  19. }
  20. });
  21. processedStream.getSideOutput(MaryTag).print("Mary pv");
  22. processedStream.getSideOutput(BobTag).print("Bob pv");
  23. processedStream.print("else");
  24. env.execute();
  25. }
  26. }

这里我们定义了两个侧输出流,分别拣选 Mary 的浏览事件和 Bob 的浏览事件;由于类型已经确定,我们可以只保留(用户 id, url, 时间戳)这样一个三元组。而剩余的事件则直接输出到主流,类型依然保留 Event,就相当于之前的 elseStream。这样的实现方式显然更简洁,也更加灵活。
 

合流

联合(Union

最简单的合流操作,就是直接将多条流合在一起,叫作流的“联合”(union),联合操作要求必须流中的数据类型必须相同,合并之后的新流会包括所有流中的元素,数据类型不变。这种合流方式非常简单粗暴,就像公路上多个车道汇在一起一样。

stream1.union(stream2, stream3, ...)

注意:对于合流之后的水位线,也是要以最小的那个为准,这样才可以保证所有流都不会再传来之前的数据

连接(Connect)

连接得到的并不是 DataStream,而是一个“连接流”(ConnectedStreams)。连接流可以看成是两条流形式上的“统一”,被放在了一个同一个流中;事实上内部仍保持各自的数据形式不变,彼此之间是相互独立的。要想得到新的 DataStream,还需要进一步定义一个“同处理”(co-process)转换操作,用来说明对于不同来源、不同类型的数据,怎样分别进行处理转换、得到统一的输出类型。所以整体上来,两条流的连接就像是“一国两制”,两条流可以保持各自的数据类型、处理方式也可以不同,不过最终还是会统一到同一个 DataStream 中。

  1. public class CoMapExample {
  2. public static void main(String[] args) throws Exception {
  3. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  4. env.setParallelism(1);
  5. DataStream<Integer> stream1 = env.fromElements(1, 2, 3);
  6. DataStream<Long> stream2 = env.fromElements(1L, 2L, 3L);
  7. ConnectedStreams<Integer, Long> connectedStreams = stream1.connect(stream2);
  8. SingleOutputStreamOperator<String> result = connectedStreams.map(new CoMapFunction<Integer, Long, String>() {
  9. @Override
  10. public String map1(Integer value) {
  11. return "Integer: " + value;
  12. }
  13. @Override
  14. public String map2(Long value) {
  15. return "Long: " + value;
  16. }
  17. });
  18. result.print();
  19. env.execute();
  20. }
  21. }

注意:ConnectedStreams 也可以直接调用.keyBy()进行按键分区的操作,得到的还是一个 ConnectedStreams,可用理解为一个join的操作。

connectedStreams.keyBy(keySelector1, keySelector2);

CoProcessFunction()方法

对于连接流 ConnectedStreams 的处理操作,需要分别定义对两条流的处理转换,因此接口中就会有两个相同的方法需要实现,用数字“1”“2”区分,在两条流中的数据到来时分别调用。我们把这种接口叫作“协同处理函数”(co-process function)。与 CoMapFunction 类似,如果是调用.flatMap()就需要传入一个 CoFlatMapFunction,需要实现 flatMap1()、flatMap2()两个方法;而调用.process()时,传入的则是一个 CoProcessFunction。

广播连接流(BroadcastConnectedStream)

关于两条流的连接,还有一种比较特殊的用法:DataStream 调用.connect()方法时,传入的参数也可以不是一个 DataStream,而是一个“广播流”(BroadcastStream),这时合并两条流得到的就变成了一个“广播连接流”(BroadcastConnectedStream),要用普通数据流connect广播流
 

基于时间的合流——双流联结(Join)

Window Join

1、Tumbling Window Join

  1. DataStream<Integer> orangeStream = ...
  2. DataStream<Integer> greenStream = ...
  3. orangeStream.join(greenStream)
  4. .where(<KeySelector>)
  5. .equalTo(<KeySelector>)
  6. .window(TumblingEventTimeWindows.of(Time.milliseconds(2)))
  7. .apply(new JoinFunction<Integer, Integer, String> (){
  8. @Override
  9. public String join(Integer first, Integer second) {
  10. return first + "," + second;
  11. }
  12. });

缺点:可能存在数据丢失的问题

2、Sliding Window Join

  1. DataStream<Integer> orangeStream = ...
  2. DataStream<Integer> greenStream = ...
  3. orangeStream.join(greenStream)
  4. .where(<KeySelector>)
  5. .equalTo(<KeySelector>)
  6. .window(SlidingEventTimeWindows.of(Time.milliseconds(2) /* size */, Time.milliseconds(1) /* slide */))
  7. .apply(new JoinFunction<Integer, Integer, String> (){
  8. @Override
  9. public String join(Integer first, Integer second) {
  10. return first + "," + second;
  11. }
  12. });

缺点:可能存在数据重复的问题

3、Session Window Join

  1. DataStream<Integer> orangeStream = ...
  2. DataStream<Integer> greenStream = ...
  3. orangeStream.join(greenStream)
  4. .where(<KeySelector>)
  5. .equalTo(<KeySelector>)
  6. .window(EventTimeSessionWindows.withGap(Time.milliseconds(1)))
  7. .apply(new JoinFunction<Integer, Integer, String> (){
  8. @Override
  9. public String join(Integer first, Integer second) {
  10. return first + "," + second;
  11. }
  12. });

缺点:如果数据一直传入,session不断开,导致长时间的没输出,失去了实时的功能。

Interval Join

右流相对左流偏移的时间区间进行关联,即:

right.timestamp ∈ [left.timestamp + lowerBound; left.timestamp + upperBound]

  1. DataStream<Integer> orangeStream = ...
  2. DataStream<Integer> greenStream = ...
  3. orangeStream
  4. .keyBy(<KeySelector>)
  5. .intervalJoin(greenStream.keyBy(<KeySelector>))
  6. .between(Time.milliseconds(-2), Time.milliseconds(1))
  7. .process(new ProcessJoinFunction<Integer, Integer, String(){
  8. @Override
  9. public void processElement(Integer left, Integer right, Context ctx, Collector<String> out) {
  10. out.collect(first + "," + second);
  11. }
  12. });

注意:

  1. 目前 interval join 只支持 Event time,所以要在流中定义事件事件。
  2.  以上几种join方式都是inner join

窗口同组联结(Window CoGroup)

        除窗口联结和间隔联结之外,Flink 还提供了一个“窗口同组联结”(window coGroup)操
作。它的用法跟 window join 非常类似,也是将两条流合并之后开窗处理匹配的元素,调用时
只需要将.join()换为.coGroup()就可以。
  1. stream1.coGroup(stream2)
  2. .where(<KeySelector>)
  3. .equalTo(<KeySelector>)
  4. .window(TumblingEventTimeWindows.of(Time.hours(1)))
  5. .apply(<CoGroupFunction>)
与 window join 的区别在于,调用.apply()方法定义具体操作时,传入的是一个CoGroupFunction。这也是一个函数类接口,源码中定义如下:
  1. public interface CoGroupFunction<IN1, IN2, O> extends Function, Serializable {
  2. void coGroup(Iterable<IN1> first, Iterable<IN2> second, Collector<O> out)
  3. throws Exception;
  4. }

可以理解为传入为俩个自定义的收集器,输出为一个自定义的收集器

connect操作join操作的区别

onnect操作比join操作更通用。Connect确保两个流( key控的或未锁定的)在同一个位置(在coxxx函数中的同一个并行实例)相遇。

一个流可以是操纵应用于另一个流的行为的控制流。例如,您可以输入新的机器学习模型或其他业务规则。或者,可以使用 key控并在同一位置汇合的两个流的属性进行 join。Flink提供了一些预定义的 join运算符。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/734630
推荐阅读
相关标签
  

闽ICP备14008679号