当前位置:   article > 正文

spark常用命令_spark命令

spark命令

常见命令

函数名功能实例
parallelize
makeRDD
range
rdd创建sc.parallelize(Array(1,2,3,4))
sc.parallelize(1 to 100)
sc.makeRDD(List(1,2,3,4,5))
sc.makeRDD(1 to 100)
sc.range(1,100,3)
getNumPartitions检查rdd分区数rdd.getNumPartitions
rdd.partitions.length
textFile文件系统加载数据sc.textFile(“file:///root/data/bigdata.dat”)
map(func)对数据集中地每个元素都使用func->RDD
filter(dunc)对每个元素使用func->func为true的蒜素构成的RDD
flatMap(func)与map类似,每个输入元素被映射为0、多个输出元素rdd.flatMap(_.split("\s+"))
mapPartitions(func)func作用在分区的所有元素调用分区数rdd.mapPartitions{iter=>Iterator(s"${iter.toList}")}
mapPartitionsWithIndex根据分区索引生成rdd.mapPartitionsWithIndex{(idx,iter)=>Iterator(s" i d x : idx: idx:{iter.toArray.mkString("-")}")}
groupBy(func)按照传入函数的返回值进行分组
glom()将一个分区形成一个数组,形成新的RDD类型RDD[Array[T]]
sample(withReplacement,fraction,seed)采样算子,seed->随机抽烟出数量为fraction的数据,withReplacement表示抽出的数据从是否放回
distinct([numTasks])对RDD去重
coalesce(numPartitions)缩减分区数,无shuffle
repartitions(numPartitions)增加、减少分区有shuffle
sortBy(func,[ascending],[numTasks])使用func处理后的结果排序
sortWith制定规则进行升降序排序reduce1RDD.map{case ((provice, adid), count) => (provice, (adid, count))}.groupByKey().mapValues(buf => buf.toList.sortWith(_._2 > _.2).take(N).map(._1).mkString("
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/757114
推荐阅读
相关标签