赞
踩
python3.6
jdk1.8
spark-2.3.1-bin-hadoop2.7.tar
hadoop2.7.3-on-windows_X64-master.zip
这里需要注意一下版本对应:spark2.3.1 对应 python3.6可用,python3.8报错(也是为什么上图安装了两个python版本)
python
java -version
下载Spark2.3.1,注意与操作系统版本一致
下载地址为:http://spark.apache.org/downloads.html
只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
新建系统变量SPARK_HOME,值为Spark安装路径
配置系统变量PATH,添加%SPARK_HOME%\bin及%SPARK_HOME%\sbin
针对PATH环境变量进行配置
选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties
将log4j.properties中,“INFO, console"改为"WARN, console”
只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
新建系统变量HADOOP_HOME,值为Hadoop安装路径
配置系统变量PATH,添加%HADOOP_HOME%\bin
开启CMD输入下列命令:
spark-shell #查看Spark版本信息
pyspark #查看Pyspark版本
出现上述界面说明安装成功!!!
# 从spark.sql模块中导入SparkSession
from pyspark.sql import SparkSession
# 实例化一个Sparksession,用子连接Spark集群
#app名中不要带空格,否剩会出错
#此处以本地模式加载集群
spark = SparkSession.builder.master("local") \
.appName("CreditCard") \
.getOrCreate()
sc = spark.sparkContext
print(sc)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。