当前位置:   article > 正文

SparkSQL(5)——Spark SQL编程方式执行查询_利用spark sql,对person.txt进行查询操作

利用spark sql,对person.txt进行查询操作

编写Spark SQL程序实现RDD转换成DataFrame

Spark官网提供了两种方法来实现从RDD转换得到DataFrame,第一种方法是利用反射机制,推导包含某种类型的RDD,通过反射将其转换为指定类型的DataFrame,适用于提前知道RDD的schema。第二种方法通过编程接口与RDD进行交互获取schema,并动态创建DataFrame,在运行时决定列及其类型。
一、添加maven依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.1.3</version>
</dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
通过反射推断Schema

Scala支持使用case class类型导入RDD转换为DataFrame,通过case class创建schema,case class的参数名称会被利用反射机制作为列名。这种RDD可以高效的转换为DataFrame并注册为表。
package com.fgm.sparksql

import org.apache.spark.sql.SparkSession

//利用反射,将rdd转换成dataFrame
case class Person(val id:Int,val name:String,val age:Int)


object SchemaDemo {
  def main(args: Array[String]): Unit = {

    //创建SparkSession对象
    val sparkSession = SparkSession.builder().appName("Schema").master("local[2]").getOrCreate()
    //创建SparkContext对象
    val sc = sparkSession.sparkContext
    sc.setLogLevel("WARN")
    //读取数据文件
    val rdd1 = sc.textFile("D:\\tmp\\person.txt").map(_.split(" "))
    //将rdd与样例类关联
    val personRDD = rdd1.map(x=>Person(x(0).toInt,x(1),x(2).toInt))
    //将personRDD转换成DataFrame,需导入隐式转换
    import sparkSession.implicits._
    val personDF = personRDD.toDF()
    //dataFrame操作
    //DSL风格
    personDF.printSchema()
    personDF.show()
    personDF.select("name","age").show()
    personDF.select($"age">30).show()

    //sql风格语法
    personDF.createTempView("person")
    sparkSession.sql("select * from person").show()
    sparkSession.sql("select * from person where age>30").show()
    sparkSession.sql("select * from person where id=3").show()


    sparkSession.stop()
  }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
通过StructType直接指定Schema

当case class不能提前定义好时,可以通过以下三步创建DataFrame
(1)将RDD转为包含Row对象的RDD
(2)基于StructType类型创建schema,与第一步创建的RDD相匹配
(3)通过sparkSession的createDataFrame方法对第一步的RDD应用schema创建DataFrame

package com.fgm.sparksql

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SparkSession}

/**
  *通过StructType指定schema,将rdd转换成dataFrame
  * @Auther: fgm
  */
object StructTypeSchema {
  def main(args: Array[String]): Unit = {
    //创建SparkSession对象
    val spark = SparkSession.builder().appName("StructTypSchema").master("local[2]").getOrCreate()
    //创建SparkContext
    val sc = spark.sparkContext
    sc.setLogLevel("WARN")
    //读取数据
    val rdd1 = sc.textFile("D:\\tmp\\person.txt").map(_.split(" "))
    //将rdd与rowd对象关联
    val rowRDD = rdd1.map(x=>Row(x(0).toInt,x(1),x(2).toInt))

    //指定schema
    val schema=(new StructType).add(StructField("id",IntegerType,true))
      .add(StructField("name",StringType,false))
      .add(StructField("age",IntegerType,true))

    val dataFrame = spark.createDataFrame(rowRDD,schema)
    dataFrame.printSchema()
    dataFrame.show()

    dataFrame.createTempView("person")
    spark.sql("select * from person").show()

    spark.stop()
  }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36

编写程序操作HiveContext

HiveContext是对应spark-hive这个项目,与hive有部分耦合, 支持hql,是SqlContext的子类,在Spark2.0之后,HiveContext和SqlContext在SparkSession进行了统一,可以通过操作SparkSession来操作HiveContext和SqlContext。

添加依赖
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.1.3</version>
</dependency>
  • 1
  • 2
  • 3
  • 4
  • 5
实现
package com.fgm.sparksql

import org.apache.spark.sql.SparkSession

/**
  *SparkSql操作
  *
  * @Auther: fgm
  */
object HiveSparkSql {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("HiveSparkSql").master("local[2]").enableHiveSupport().getOrCreate()
    spark.sql("create table user(id int,name string,age int) row format delimited fields terminated by ','")
    spark.sql("load data local inpath './data/user.txt' into table user")
    spark.sql("select * from user").show()

    spark.stop()
  }

}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

注意:这里首先在项目根目录下创建data目录(和src同级),然后在data中穿件user.txt文件,并写入相关数据(1,zhangsan,22)。不然会报错。另外需要开启HiveSupport服务:enableHiveSupport()
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/593299
推荐阅读
相关标签
  

闽ICP备14008679号