spark on hive & hive on spark的区别_spark on hive hive on spark 区别

作者：空白诗007 | 2024-07-26 09:19:19

踩

spark on hive hive on spark 区别

1、Spark on Hive

数据源是：hive，Spark 获取hive中的数据，然后进行SparkSQL的操作（hive只是作为一个spark的数据源）。

spark on hive 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.
*（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息
* （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
* （3）接下来就可以通过spark sql来操作hive表中的数据

2、Hive on Spark

（数据源是hive本身） Hive 将自己的MapReduce计算引擎替换为Spark，当我们执行HiveSQL(HQL)时底层以经不是将HQL转换为MapReduce任务，而是跑的Spark任务（即：将HQL转换为Spark任务）。

hive on spark是hive 等的执行引擎变成spark , 不再是mapreduce.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/884565