当前位置:   article > 正文

Spark与Hive整合_spark整合hive

spark整合hive

原理

Spark连接上Hive的MetaStore

实现上述步骤包含两点:1.MetaStore需要存在并开机。2.Spark知道MetaStore的IP和端口号。

实现步骤

一、将hive-site.xml拷贝到spark安装路径conf目录

打开虚拟机登录节点,执行以下命令来拷贝hive-site.xml到所有的spark安装服务器上面去

  1. #注意切换至自己的hive目录
  2. cd /export/server/hive/conf
  3. cp hive-site.xml /export/server/spark/conf/
  4. scp hive-site.xml root@node2:/export/server/spark/conf/
  5. scp hive-site.xml root@node3:/export/server/spark/conf/
二、将mysql的连接驱动包拷贝到spark的jars目录下

执行以下命令将连接驱动包拷贝到spark的jars目录下,若是完全分布式安装,则三台机器都要进行拷贝

  1. cd /export/server/hive/lib
  2. cp mysql-connector-java-5.1.32.jar /export/server/spark/jars/
  3. scp mysql-connector-java-5.1.32.jar root@node2:/export/server/spark/jars/
  4. scp mysql-connector-java-5.1.32.jar root@node3:/export/server/spark/jars/
三、Hive开启MetaStore服务

P.s.若安装Hive时启动过该服务则略过。

3.1 修改 hive/conf/hive-site.xml新增如下配置,远程模式部署metastore服务地址
  1. <?xml version="1.0"?>
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  3. <configuration>
  4. <property>
  5. <name>hive.metastore.uris</name>
  6. #注意修改主机名
  7. <value>thrift://master:9083</value>
  8. </property>
  9. </configuration>
3.2 后台启动Hive MetaStore服务
nohup /export/server/hive/bin/hive --service metastore 2>&1 >> /var/log.log &

四、测试SparkSQL整合Hive是否成功(2种方式)

4.1 Spark-SQL

  1. #注意切换目录
  2. cd /export/server/spark
  3. bin/spark-sql --master local[2] --executor-memory 512m --total-executor-cores 1

 成功进入后,输入show databases; 查看数据库。

4.2 PySpark-Shell

bin/spark-shell --master local[3]或bin/pyspark --master local[2]

成功进入后,输入 spark.sql("show databases").show() 查看数据库。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/987968?site
推荐阅读
相关标签
  

闽ICP备14008679号