赞
踩
Hive调优:
1、内存大小调整
2、增加并发
3、分区 分区设置不合理,分区过多
4、数据倾斜 任务集中在某个reduce -- 开启在map端聚合(1000条记录以下/小于20M)
5、join优化
6、合理控制map和reduce个数 小文件合并 -- 减少map个数,使用distribute by -- 增加map个数,
设置reduce个数/大小,同时使用group by -- 增加reduce个数
7、小文件问题 输出端控制reduce个数,输入map端提前合并小文件
set mapreduce.output.fileoutputformat.compress=false;
set mapreduce.task.io.sort.mb=1024;
set mapreduce.input.fileinputformat.split.maxsize=134220228;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。