当前位置:   article > 正文

Hive优化 -- 常用参数设置_hive提高reduce并发度参数

hive提高reduce并发度参数

Hive调优:

1、内存大小调整

2、增加并发

3、分区                  分区设置不合理,分区过多

4、数据倾斜           任务集中在某个reduce -- 开启在map端聚合(1000条记录以下/小于20M)

5、join优化

6、合理控制map和reduce个数      小文件合并 -- 减少map个数,使用distribute by -- 增加map个数,

                                                    设置reduce个数/大小,同时使用group by -- 增加reduce个数

7、小文件问题        输出端控制reduce个数,输入map端提前合并小文件

 

set mapreduce.output.fileoutputformat.compress=false;

set mapreduce.task.io.sort.mb=1024;

set mapreduce.input.fileinputformat.split.maxsize=134220228;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/977019
推荐阅读
相关标签
  

闽ICP备14008679号