赞
踩
对于groupBy算子,传入的参数是可变的,虽然都是在做分组,groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组,使得该算子更加的灵活,特殊的,如果使用k 进行分组,相对于groupByKey,有什么区别???
1、在效率上,groupByKey 效率更高,在进行shuffle的过程中,传输的数据量小,那么使得该算子的运行效率更高。
2、groupBy的返回是一个带有k和k-v的结构,数据重复冗余。
综上:在使用分组算子groupBy和groupByKey中选择的时候,根据K分组的时候,使用groupByKey ,使用V分组的时候,用groupBy,并且传入的参数使用_2
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。