当前位置:   article > 正文

Flink的广播变量_withbroadcastset

withbroadcastset

广播变量*

设置广播变量
在某个需要用到该广播变量的算子后调用withBroadcastSet(var1, var2)进行设置,var1为需要广播变量
的变量名,var2是自定义变量名,为String类型。注意,被广播的变量只能为DataSet类型,不能为
List、Int、String等类型。
获取广播变量
创建该算子对应的富函数类,例如map函数的富函数类是RichMapFunction,该类有两个构造参数,第
一个参数为算子输入数据类型,第二个参数为算子输出数据类型。首先创建一个Traversable[]接口用于
接收广播变量并初始化为空,接收类型与算子输入数据类型相对应;然后重写open函数,通过
getRuntimeContext.getBroadcastVariable获取到广播变量,var即为设置广播变量时的自定义变量
名,类型为String,open函数在算子生命周期的初始化阶段便会调用;最后在map方法中对获取到的广
播变量进行访问及其它操作。
注意:只有在某个Operator中使用到不属于该Operator的DataSet时才需要广播变量,在iterate内部可
以将某个DataSet直接作为起始节点,不需要使用广播变量
再次我写了两个例子
下面附上Scala代码

object DataSetBroadcastApp {
 //TODO 广播变量 
 	def main(args: Array[String]): Unit = { 
 		val env = ExecutionEnvironment.getExecutionEnvironment 
		 broadcast(env) 
	}
	def broadcast(env:ExecutionEnvironment): Unit ={
	 //TODO 创建两个元素 
		val ds1 = env.fromElements("1", "2", "3", "4", "5")
	    val ds2 = env.fromElements("a", "b", "c", "d", "e") 
	    //TODO 广播数据集 
	    ds1.map(new RichMapFunction[String,(String,String)] { 
	       //TODO 定义一个私有的另一个数据集 
	   	   private var ds2 : Traversable[String] = null
	       //TODO 因为是Java的集合所以要用隐式转换 
	       import scala.collection.JavaConverters._ 
	    //TODO 参见官网https://ci.apache.org/projects/flink/flink-docs-release- 1.10/dev/batch/#broadcast-variables 
	    override def open(parameters: Configuration): Unit = {
	     ds2 = getRuntimeContext.getBroadcastVariable[String]("broadcast").asScala 
	 }
	  override def map(value: String): (String, String) = {
	   //TODO 定义一个结果 
	   var result = " " 
	   for(broadVariable <- ds2){ 
	   		result = result + broadVariable + " "
	   	 }
	        (value,result) 
	     } 
	  }).withBroadcastSet(ds2,"broadcast").print() 
	}
 }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

Java代码

public class JavaDataSetBroadcastApp { 
//TODO Java实现广播变量 
	public static void main(String[] args) throws Exception{
	 	final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
	 	broadcast(env);
 }
 	public static void broadcast(ExecutionEnvironment env) throws Exception { 
 	    DataSet<Integer> toBroadcast = env.fromElements(1, 2, 3); 
 	    DataSet<String> data = env.fromElements("a", "b");
 	    MapOperator<String, String> broadcastSet = data.map( new MyMapperFunction() ).withBroadcastSet( toBroadcast, "huan" );
 	    broadcastSet.printToErr(); 
	}
 }
 class MyMapperFunction extends RichMapFunction<String, String> {
 //TODO 定义一个私有集合 
 	private List list= new ArrayList();
 	@Override 
 	public void open(Configuration parameters) throws Exception { 
 	//TODO 作为集合访问广播数据集.所以要定义集合,用集合添加广播变量,因为返回值是集 合,所以要用集合去添加广播变量 
 		Collection<Integer> broadcastSet = getRuntimeContext().getBroadcastVariable( "huan" ); 
 		list.add( broadcastSet ); 
 	}
 	@Override 
 	public String map(String value) throws Exception { 
 	//TODO value的值就是data list的值就是toBroadcast 
 		return value+ " : " +list; 
 	} 
 }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/696201
推荐阅读
相关标签
  

闽ICP备14008679号