当前位置:   article > 正文

spark groupBy算子解析_简述groupby算子的功能

简述groupby算子的功能

对于groupBy算子,传入的参数是可变的,虽然都是在做分组,groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组,使得该算子更加的灵活,特殊的,如果使用k 进行分组,相对于groupByKey,有什么区别???

1、在效率上,groupByKey 效率更高,在进行shuffle的过程中,传输的数据量小,那么使得该算子的运行效率更高。

2、groupBy的返回是一个带有k和k-v的结构,数据重复冗余。

综上:在使用分组算子groupBy和groupByKey中选择的时候,根据K分组的时候,使用groupByKey ,使用V分组的时候,用groupBy,并且传入的参数使用_2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/887108
推荐阅读
相关标签
  

闽ICP备14008679号