hive亿级别的数据比较 distinct、 group by、 row_number() 去重效率_rownumber和group by效率

作者：小小林熬夜学编程 | 2024-04-25 17:18:30

踩

rownumber和group by效率

前言

随着互联网的发展，产生的数据量越来越大，重复的数据也会越来越多，选择合适的去重方式是我们所需要的；这里对比了1亿1千万的数据来进行测试，重复数量为1千万条，重复比约等于1比10；

select distinct t.id from datas.ceshi1yi t;

select t.id from datas.ceshi1yi t group by t.id;

select t.id,t.rn from (select t.id,row_number() over(partition by t.id ) rn from datas.ceshi1yi t) t where t.rn=1;

从数据可见 row_number()比group by 快一点点，相差不大，distinct 最差，业务上 row_number() 应用场景更加丰富些，后期增加不同比例重复量的对比结果；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/486409