赞
踩
目录 前言一、计算资源配置(资源没给够)1. Yarn资源配置(整个集群)2. MapReduce资源配置 二、Explain查看执行计划(重点)1. 测试用表2. Explain执行计划概述3. 查看执行计划基本语法4. 案例实操演示 三、HQL语法优化1. 分组聚合优化(map-site聚合)2. Join优化概述(是什么)2.1. Common Join2.2. Map Join(大表join小表)2.3. Bucket Map Join(大表join大表)2.4. Sort Merge Bucket Map Join(对内存没有要求) 3. Map join详解3.1. 自动触发3.2. 优化案例(优化前-->优化后) 4. Bucket Map Join详解5. Sort Merge Bucket Map Join详解6. 数据倾斜(reduce端)6.1. 数据倾斜概述6.2. 分组聚合导致的数据倾斜6.3. Join导致的数据倾斜 7. 任务并行度7.1. Map端并行度7.2. reduce端并行度(关注) 8. 小文件合并8.1. Map端输入文件合并8.2. Reduce输出文件合并 四、其他优化1. CBO优化(多个计划选最优)2. 谓词下推(早点用where过滤)3. 矢量化查询(向量加法)4. Fetch抓取(简单任务不开MR)5. 本地模式(单干,很少用,学习用)6. Stage并行执行7. 严格模式 总结
hive调优,面试、工作中常用,非常重要。 重在理解优化思路、参数,主要分为两大块:计算资源调优和执行计划调优
本教程的计算环境为Hive on MR,yarn上提交任务。计算资源的调整主要包括Yarn和MR
Hive on MR
Yarn
MR