当前位置:   article > 正文

spark on hive & hive on spark的区别_spark on hive hive on spark 区别

spark on hive hive on spark 区别

1、Spark on Hive

数据源是:hive,Spark 获取hive中的数据,然后进行SparkSQL的操作  (hive只是作为一个spark的数据源)。

spark on hive 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.
*(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
* (2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
* (3)接下来就可以通过spark sql来操作hive表中的数据

2、Hive on Spark

(数据源是hive本身)   Hive 将自己的MapReduce计算引擎替换为Spark,当我们执行HiveSQL(HQL)时底层以经不是将HQL转换为MapReduce任务,而是跑的Spark任务(即:将HQL转换为Spark任务)。

hive on spark是hive 等的执行引擎变成spark , 不再是mapreduce. 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/884565
推荐阅读
相关标签
  

闽ICP备14008679号