赞
踩
引言:
Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,此功能应该更受欢迎。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python,因为它不需要用户提供ClassTag。(请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spark SQL运行查询)。
操作Mysql表数据
首先启动spark-shell,命令如下:
./spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.38.jar
读操作方式一:
spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/hiveDB").option("dbtable", "hiveDB.TBLS").option("user", "root").option("password", "123456").load()
运行之后会产生下面这种错误:
java.sql.SQLException: No suitable driver
原因就是没有加载mysql的驱动Driver类,解决方法就是加上,新的命令如下:
spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/hiveDB").option("dbtable", "hiveDB.TBLS").option("user", "root").option("password", "123456").option("driver","com.mysql.jdbc.Driver").load()
结果显示:
由于直接返回DataFrame类型的数据,可以通过printSchema和show方法进行查看操作,结果如下:
读操作方式二:
通过java中的Properties配置文件的形式进行读取:
import java.util.Properties
val connectionProperties = new Properties()
connectionProperties.put("user", "root")
connectionProperties.put("password", "123456")
connectionProperties.put("driver", "com.mysql.jdbc.Driver")
val jdbcDF3 = spark.read.jdbc("jdbc:mysql://localhost:3306", "hiveDB.TBLS", connectionProperties)
结果显示:
写操作方式一(通过spark-shell命令行):
// Saving data to a JDBC source
jdbcDF.write
.format("jdbc")
.option("url", "jdbc:mysql://localhost:3306")
.option("dbtable", "schema.tablename") //创建新的表
.option("user", "username")
.option("password", "password")
.save()
结果显示:
写操作方式二(通过spark-sql命令行):
启动spark-sql:
./spark-sql --master local[2] --jars ~/software/mysql-connector-java-5.1.38.jar
操作:
CREATE TEMPORARY VIEW jdbcTable
USING org.apache.spark.sql.jdbc
OPTIONS (
url 'jdbc:mysql://localhost:3306',
dbtable "hiveDB.TBLS",
user 'root',
password '123456',
driver 'com.mysql.jdbc.Driver' //一定要加驱动
);
结果显示:
至此就完成了SparkSQL的外部数据源对mysql数据表的操作.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。