赞
踩
函数名 | 功能 | 实例 |
---|---|---|
parallelize makeRDD range | rdd创建 | sc.parallelize(Array(1,2,3,4)) sc.parallelize(1 to 100) sc.makeRDD(List(1,2,3,4,5)) sc.makeRDD(1 to 100) sc.range(1,100,3) |
getNumPartitions | 检查rdd分区数 | rdd.getNumPartitions rdd.partitions.length |
textFile | 文件系统加载数据 | sc.textFile(“file:///root/data/bigdata.dat”) |
map(func) | 对数据集中地每个元素都使用func->RDD | |
filter(dunc) | 对每个元素使用func->func为true的蒜素构成的RDD | |
flatMap(func) | 与map类似,每个输入元素被映射为0、多个输出元素 | rdd.flatMap(_.split("\s+")) |
mapPartitions(func) | func作用在分区的所有元素调用分区数 | rdd.mapPartitions{iter=>Iterator(s"${iter.toList}")} |
mapPartitionsWithIndex | 根据分区索引生成 | rdd.mapPartitionsWithIndex{(idx,iter)=>Iterator(s" i d x : idx: idx:{iter.toArray.mkString("-")}")} |
groupBy(func) | 按照传入函数的返回值进行分组 | |
glom() | 将一个分区形成一个数组,形成新的RDD类型RDD[Array[T]] | |
sample(withReplacement,fraction,seed) | 采样算子,seed->随机抽烟出数量为fraction的数据,withReplacement表示抽出的数据从是否放回 | |
distinct([numTasks]) | 对RDD去重 | |
coalesce(numPartitions) | 缩减分区数,无shuffle | |
repartitions(numPartitions) | 增加、减少分区有shuffle | |
sortBy(func,[ascending],[numTasks]) | 使用func处理后的结果排序 | |
sortWith | 制定规则进行升降序排序 | reduce1RDD.map{case ((provice, adid), count) => (provice, (adid, count))}.groupByKey().mapValues(buf => buf.toList.sortWith(_._2 > _.2).take(N).map(._1).mkString(" 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/757114 推荐阅读 相关标签 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。 |