hive中常见参数优化总结_set hive，五年大数据开发开发者小米、阿里面经_set hive.mapjoin.smalltable.filesize

作者：正经夜光杯 | 2024-08-13 23:57:18

踩

set hive.mapjoin.smalltable.filesize

set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=50000000;
join时候产生了数据倾斜可以使用以下两个参数指定倾斜的字段名称，设定分桶数量，甚至可以指定倾斜的值
SET hive.skewedjoin.key = id;
SET hive.skewedjoin.num.buckets = 2;
set hive.skewedjoin.value=xxx;
例：
SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

3.开启向量化查询优化，默认不开启，开启后可以批量读取数据，默认大小是1024条，也可以调整为更大
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

4.设定任务优先级
SET mapreduce.job.priority=VERY_HIGH;

5.hive自动优化参数设置，
set hive.stats.autogather=false;
set hive.stats.column.autogather=false;
参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。统计信息可以帮助Hive的优化器更好地制定查询计划。
false意味着Hive不会自动收集统计信息。你需要手动运行ANALYZE TABLE命令来收集统计信息。
set hive.cbo.enable=false;
当 hive.cbo.enable 设置为 false 时，意味着Hive将不会使用

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/977014