当前位置:   article > 正文

Spark On Hive

spark on hive

Spark On Hive

配置

1.将部署好的hive的路径下的conf/hive-site.xml复制到spark安装路径下的conf/

2.将部署好的hive的路径下的lib/mysql驱动包,我的是(mysql-connector-java-8.0.15.jar)拷贝到spark安装路径下的jars/

3.启动Hive的metastore服务

hive --service metastore
  • 1

4.启动ZooKeeper集群,启动HDFS集群

5.启动spark-shell

bin/spark-shell --master spark://hadoop2:7077 --executor-cores 1 --executor-memory 1g --total-executor-cores 1
  • 1

正常打开后:

scala> spark.sql("show tables").show
  • 1
databasetableNameisTemporary
defaultyour_table1false
defaultyour_table2false
defaultyour_table3false

直接可以使用spark.sql("")获取数据

IDEA 操作集群上的spark on hive

配置

1.将hive安装路径下的conf/hive-site.xml 拷贝至idea scala项目下 (为避免报错 可在target/classes下也放一份)

在这里插入图片描述

2.在pom.xml中添加依赖
    <!-- SparkSQL  ON  Hive-->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
    <!--mysql依赖的jar包-->
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.47</version>
    </dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
3.在创建session代码中添加hive支持 enableHiveSupport()
4.配置master(spark集群中的master)

测试代码:

package com.bjsxt.scala.spark.sparksql.dataframe

import org.apache.spark.sql.SparkSession

object CreateDFFromHive {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().enableHiveSupport().appName("spark-hive").master("spark://hadoop2:7077").getOrCreate()
    spark.sql("show tables").show()
  }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

adoop2:7077").getOrCreate()
spark.sql(“show tables”).show()
}
}


  • 1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/884573
推荐阅读
相关标签
  

闽ICP备14008679号