当前位置:   article > 正文

hive亿级别的数据比较 distinct、 group by、 row_number() 去重效率_rownumber和group by效率

rownumber和group by效率

前言

        随着互联网的发展,产生的数据量越来越大,重复的数据也会越来越多,选择合适的去重方式是我们所需要的;这里对比了1亿1千万的数据来进行测试,重复数量为1千万条,重复比约等于1比10;

 

一、distinct去重

 select distinct t.id from datas.ceshi1yi t;

二、group by

 select t.id from datas.ceshi1yi t group by t.id;

三、row_number()

select t.id,t.rn from  (select t.id,row_number() over(partition by t.id ) rn  from datas.ceshi1yi t) t where t.rn=1;


 

总结

从数据可见 row_number()比group by 快一点点,相差不大,distinct 最差,业务上 row_number() 应用场景更加丰富些,后期增加不同比例重复量的对比结果;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/486409
推荐阅读
相关标签
  

闽ICP备14008679号