赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
#博学谷IT学习技术支持#
HIVE数据倾斜是HIVE必备、必问知识点。了解什么是数据倾斜、倾斜的原因以及如何解决倾斜,非常有必要。以下是个人总结。
HIVE处理的数据分布不均匀,导致某一个或几个节点处理的数据量巨大,就会造成数据倾斜。
具体表现是,整个任务进度长时间处于99%附近,在yarn的任务详情页面发现大部分reduce都运行完成,只有一个或者几个reduce任务在长时间执行,是由于该reduce任务处理的数据量远远大于其他任务。
在实际项目中,主要三种情况会遇到数据倾斜,分别是join操作、group by 操作和count distinct 操作。
select count(distinct id) from table;
改写为:
select count(t1.id) from (select id from table group by id) t1;
以上就是个人对HIVE数据倾斜的简单的介绍及解决办法的探讨,请批评指正,谢谢!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。