当前位置:   article > 正文

【pyspark专题】在win10环境中安装配置pyspark环境(重点环境配置)第一讲_window10搭建pyspark

window10搭建pyspark

windows下pyspark安装环境配置:

安装目录展示

在这里插入图片描述

需要的软件:

python3.6
jdk1.8
spark-2.3.1-bin-hadoop2.7.tar
hadoop2.7.3-on-windows_X64-master.zip

这里需要注意一下版本对应:spark2.3.1 对应 python3.6可用,python3.8报错(也是为什么上图安装了两个python版本)

安装过程检测是否安装成功

一、安装python是否成功

python
  • 1

在这里插入图片描述

二、安装JDK是否成功

java -version
  • 1

在这里插入图片描述

三、安装spark-2.3.1-bin-hadoop2.7.tar

3.1 下载软件包

下载Spark2.3.1,注意与操作系统版本一致
下载地址为:http://spark.apache.org/downloads.html
在这里插入图片描述

3.2 解压安装

只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格

3.3 配置环境变量

新建系统变量SPARK_HOME,值为Spark安装路径
配置系统变量PATH,添加%SPARK_HOME%\bin及%SPARK_HOME%\sbin
在这里插入图片描述
针对PATH环境变量进行配置
在这里插入图片描述

3.4 配置日志显示级别

选择…\spark\conf\目录下log4j.properties.template,复制为log4j.properties
将log4j.properties中,“INFO, console"改为"WARN, console”
在这里插入图片描述
在这里插入图片描述

四、配置Hadoop支持模块

4.1 下载安装包(仅仅2.3M大小)

下载Hadoop支持模块

4.2 安装

只需解压程序包,并拷贝至存放路径,注意安装路径中的文件夹名称不要存在空格
在这里插入图片描述

4.3 配置环境变量

新建系统变量HADOOP_HOME,值为Hadoop安装路径
配置系统变量PATH,添加%HADOOP_HOME%\bin
在这里插入图片描述

检测Spark环境是否在win系统下有效可用

开启CMD输入下列命令:

spark-shell  #查看Spark版本信息
pyspark      #查看Pyspark版本
  • 1
  • 2

在这里插入图片描述
在这里插入图片描述
出现上述界面说明安装成功!!!

python脚本进行验证

# 从spark.sql模块中导入SparkSession
from pyspark.sql import SparkSession

# 实例化一个Sparksession,用子连接Spark集群
#app名中不要带空格,否剩会出错
#此处以本地模式加载集群

spark = SparkSession.builder.master("local") \
   .appName("CreditCard") \
   .getOrCreate()

sc = spark.sparkContext
print(sc)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/467933
推荐阅读
相关标签
  

闽ICP备14008679号