val pairRDD = lines.flatMap(line => line.split(" ")).map(word => (word, 1))scal..._pairrdd1.reducebykey(_+_).map(_._2).reduce(_+_)的值是___________________">
当前位置:   article > 正文

Spark基础(3)PairRDD-reduceByKey、groupByKey、sortByKey、sortBy、mapValue和join_pairrdd1.reducebykey(_+_).map(_._2).reduce(_+_)的值是

pairrdd1.reducebykey(_+_).map(_._2).reduce(_+_)的值是______________________
  • PairRDD的创建

可以采用多种方式创建Pair RDD,其中一种主要的方式是使用map()函数来实现。

  1. scala> val lines = sc.textFile("pathToFile")
  2. scala> val pairRDD = lines.flatMap(line => line.split(" ")).map(word => (word, 1))
  3. scala> pairRDD.foreach(println)

第二种创建方式:通过并行集合(数组)创建RDD

  1. scala> val list = List("Hadoop","Spark","Hive")
  2. scala> val rdd = sc.parallelize(list)
  3. scala> pairRDD = rdd.map(word => (word,1))
  4. scala> pairRDD.foreach(println)

常用的PairRDD转换操作

  • reduceByKey(func) 使用func函数合并具有相同键的值
scala> pairRDD.reduceByKey((a,b)=>a+b).foreach(println)
  • groupByKey(func), 对具有相同Key的Value进行分组,Key相同对Value生成一个列表

比如四个键值对:

scala> val map = Map("spark"->1, "spark"->2, "ha
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/466744?site
推荐阅读
相关标签
  

闽ICP备14008679号