赞
踩
1、SparkSQL的数据源
SparkSQL的数据源可以是JSON类型的字符串,JDBC,Parquent,Hive,HDFS等。
- {"name":"zhangsan","age":20}
- {"name":"lisi"}
- {"name":"wangwu","age":18}
- {"name":"wangwu","age":18}
2、依赖jar包(2.4.4版本有2.11和2.12两种,注意使用的core是哪种)
- <dependency>
- <groupId>org.apache.spark</groupId>
- <artifactId>spark-sql_2.11</artifactId>
- <version>2.4.4</version>
- </dependency>
3、scala代码
- def main(args: Array[String]): Unit = {
-
- val spark: SparkSession = SparkSession.builder().appName("SQLTest").master("local").getOrCreate()
-
- val df: DataFrame = spark.read.format("json").load("e:\\json")
- //打印图表,相当于desc查看表结构
- // df.printSchema()
- //相当于查询表
- // df.show()
- //取出表中的值生成RDD
- val rdd: RDD[Row] = df.rdd
- rdd.foreach(row=>{
- val name: Long = row.getAs[Long]("age")
- val age: String = row.getAs[String]("name")
- println(s"name = $name,age = $age")
- })
df.printSchema()打印结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。