当前位置:   article > 正文

spark的分区器hashpartitioner、RangePartitioner,分布式排序原理_spark 简述不同算子中的分区器和分区器的实现原理

spark 简述不同算子中的分区器和分区器的实现原理

spark大多数算子使用的都是默认分区器HashPartitioner,HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中,这样能较为平衡的分配数据到partition。
RangePartitioner:
它是在排序算子中会用到的分区器,比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的range里的key分布均匀。
sortBykey作为spark中常用的分布式排序算子,使用的就是RangePartitioner,通过切分range,各partitioner之间是有序的,各个partition内部再进行排序,从而达到了整体数据的有序性。
如下图:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/727525
推荐阅读
相关标签
  

闽ICP备14008679号