当前位置:   article > 正文

Hive相关参数设置_set hive.engine

set hive.engine

1.设置执行引擎为Spark

set hive.execution.engine=spark;
  • 1

2.设置reduce 的个数

--reduce task的个数
set mapreduce.job.reduces=2;
  • 1
  • 2

3.设置map的个数

减少Map个数,需要增大 set mapred.min.split.size的值,减少set mapred.map.tasks的个数;
增大Map个数,需要减少 set mapred.min.split.size的值,增大set mapred.map.tasks的个数;
  • 1
  • 2

4.输出合并小文件

set hive.merge.mapfiles=true;
--默认false,在map-reduce任务结束时合并小文件
set hive.merge.maprefiles=true;
--默认256M 单位b;
set hive.merge.size.per.task=268435456
  • 1
  • 2
  • 3
  • 4
  • 5

5.开启数据倾斜负载均衡

set hive.groupby.skewindata=true
--处理过程:生成两个MRJob,先随机分发处理,再通过key group by 来分发处理
  • 1
  • 2

6.开启map端combiner

--前提是不影响最终业务逻辑
set hive.map.aggr=true;
  • 1
  • 2
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号