SparkRDD算子--partitionBy算子_rdd的partitionby函数

作者：花生_TL007 | 2024-04-22 04:19:22

踩

rdd的partitionby函数

语法

val newRdd = oldRdd1.partitionBy(new org.apache.spark.HashPartitioner(partitions))

partitions 表示分区数

源码

def partitionBy(partitioner : org.apache.spark.Partitioner) : org.apache.spark.rdd.RDD[scala.Tuple2[K, V]] = { /* compiled code */ }
1

作用

对K-V类型的RDD重新分配分区。

例子

package com.day1

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object oper {
    def main(args: Array[String]): Unit = {
        val config:SparkConf = new SparkConf().setMaster("local[*]").setAppName("wordCount")

        // 创建上下文对象
        val sc = new SparkContext(config)

        // partitionBy算子
        val arrayRdd = sc.makeRDD(Array((1,"张三"),(2,"李四"),(3,"王五"),(4,"刘六")),4)

        val partitionByRdd = arrayRdd.partitionBy(new org.apache.spark.HashPartitioner(2))
        println(partitionByRdd.getNumPartitions)
    }
}



输入
(1,"张三"),(2,"李四"),(3,"王五"),(4,"刘六")
输出
2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

示意图

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/466797