当前位置:   article > 正文

hive的执行流程

连接hive server 获取执行过程

1. 执行流程概述

hive的执行流程
查看hive语句的执行流程:explain select ….from t_table …;

  • 查看hive语句的执行流程:explain select ….from t_table …;
  • 操作符是hive的最小执行单元
  • Hive通过execmapper和execreducer执行MapReduce程序,执行模式有本地模式和分布式模式
  • 每个操作符代表一个 HDFS 操作或者 MapReduce 作业
    hive的操作符
    hive的执行流程
    Hive编译器的工作职责
  • Parser:将Hql语句转换成抽像的语法书(Abstract Syntax Tree)
  • Semantic Analyzer:将抽象语法树转换成查询块
  • Logic Plan Generator:将查询树,转换成逻辑查询计划
  • Logic Optimizer:重写逻辑查询计划,优化逻辑执行计划
  • Physical Plan Gernerator:将逻辑执行计划转化为物理计划
  • Physical Optimizer:选择最佳的join策略,优化物理执行计划

2. hive的具体执行过程分析

(1)Join(reduce join)

例:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid;
hive的执行流程
map 端:以 JOIN ON 条件中的列作为 Key,以page_view表中的需要字段,表标识作为value,最终通过key进行排序,也就是join字段进行排序。
shuffle端:根据 Key 的值进行 Hash,并将 Key/Value 对按照 Hash 值推 至不同对 Reduce 中
reduce 端:根据key进行分组,根据不同的表的标识,拿出不同的数据,进行拼接。

(2)group by

例:SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;
hive的执行流程
map 端
key:以pageid, age作为key,并且在map输出端有combiner。
value :1次
reduce 端:对value进行求和

(3)distinct

例:select distinct age from log;
map端
key:age
value:null
reduce端
一组只要一个输出context.write(key,null)。

(4)distinct+count

例:select count(distinct userid) from weibo_temp;
即使设置了reduce个数为3个,最终也只会执行一个,因为,count()是全局,只能开启一个reducetask。
map端
key:userid
value: null
reduce端
一组只要一个,定义一个全局变量用于计数,在cleanup(Context context) 中输出context.write(key,count)
当然distinct+count是一个容易产生数据倾斜的做法,应该尽量避免,如果无法避免,那么就使用这种方法:
select count(1) from (select distinct userid from weibo_temp); 这样可以并行多个reduce task任务,从而解决单节点的压力过大。

转载于:https://blog.51cto.com/14048416/2342658

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/396352
推荐阅读
相关标签
  

闽ICP备14008679号