赞
踩
请列举7个 Spark RDD 的action算子,并简述功能。
答:
reduce(f):通过指定的聚合方法对 RDD 中的元素进行聚合操作。
collect():返回一个包含 RDD 所有元素的列表。
count():统计 RDD 中元素的个数。
take(n):获取 RDD 中前 n 个元素的值,返回的结果为列表类型。
first():返回 RDD 中的第一个元素,返回的数据类型为元素类型。
top(n):返回 RDD 中最大的前 n 个元素,返回的结果为列表类型。
saveAsTextFile():将 RDD 中的元素以字符串的格式存储于文件系统中。
foreach(f):遍历 RDD 中的每个元素,同时通过传递自定义的处理函数 f,对 RDD 中的每个元素进行处理。
foreachPartition(f):遍历 RDD 的 每个分区,同时通过传递的 f 对每个分区进行操作。
列举7个Spark RDD 的transformation 算子,并简述功能。
答:
map:对RDD中的数据逐条进行映射,可以是类型转换,也可是值转换。
flatMap:先对RDD中的所有元素进行map操作,然后将结果平坦化。
filter:按照指定条件对RDD中的元素进行过滤。
union:将两个RDD求并集,并返回一个新的RDD。
intersection:将两个RDD求交集,并返回一个新的RDD,其输出不包含任何重复元素。
sortBy:通过指定key对RDD中的元素进行排序。
mapPartitions:对RDD的每个分区进行map运算。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。