当前位置:   article > 正文

python 安装pyspark_Python学习—PySpark环境搭建_python安装pyspark hadoop

python安装pyspark hadoop


PySpark是Python整合Spark的一个扩展包,可以使用Python进行Spark开发。而PySpark需要依赖Spark环境,Spark需要依赖Hadoop环境,而且,本地环境需要安装JDK和Scala。

一、基础环境准备

1、Scala环境搭建

1.1 下载

本文环境为2.11.8
Scala下载地址:https://www.scala-lang.org/download/all.html

1.2 安装

(1)若是下载了.msi格式的scala:
直接执行安装即可,后续环境变量可不配置,安装程序会自动配置好,直接1.4测试即可。
(2)若是下载了.zip格式的scala:
将下载好的包解压到本地环境中,比如D:\scala
还需执行1.3环境配置步骤,再执行1.4测试。

1.3 添加环境变量

新增系统变量:SCALA_HOME,值为本地scala安装路径,比如SCALA_HOME=D:\scala。
在这里插入图片描述

增加Path系统变量的值,为%SCALA_HOME%\bin
在这里插入图片描述

1.4 测试环境

打开命令行窗口,输入scala,出现如下界面表示安装成功。
在这里插入图片描述

2、JDK环境搭建

2.1 下载

本文环境为jdk1.8
jdk下载地址:http://www.oracle.com/technetwork/java/javase/downloads

2.2 安装

将下载好的包解压到本地环境中,比如D:\java

2.3 配置环境变量

新增系统变量:JAVA_HOME,值为本地scala安装路径,比如JAVA_HOME=D:\java\jdk1.8.0_352
在这里插入图片描述

增加Path系统变量的值,为%JAVA_HOME%\bin
在这里插入图片描述

2.4 测试环境

打开命令行窗口,输入java -version,出现如下界面表示安装成功。
在这里插入图片描述

3、Python环境准备

本文环境为Anaconda,版本为python 3.7。

4、Windows环境

本文的所有环境均搭建在本地,本地系统为windows10。

二、Hadoop环境准备

1、下载

本文为hadoop-2.8.5
Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/

2、安装

将下载好的包解压到本地环境中,比如D:/Hadoop/hadoop-2.8.5

3、添加环境变量

新增系统变量:HADOOP_HOME,值为本地hadoop安装路径,比如HADOOP_HOME=D:\Hadoop\hadoop-2.8.5。
在这里插入图片描述
增加Path系统变量的值,为%HADOOP_HOME%\bin
在这里插入图片描述

4、测试环境

命令行中输入hadoop version出现版本信息,
在这里插入图片描述
表示搭建成功。

5、本地bin目录替换

因为hadoop是搭建在linux集群上的,搭建本地环境(windows)需要windows环境支持包,这里我们直接替换本地hadoop的bin文件夹。
下载地址:https://codeload.github.com/cdarlint/winutils/zip/refs/heads/master
下载对应版本替换本地/bin目录。

三、spark环境准备

1、下载

本文为spark-2.2.0-bin-hadoop2.7
spark下载地址:https://spark.apache.org/downloads.html

2、安装

解压到本地环境中,比如D:\Spark\spark-2.2.0-bin-hadoop2.7

3、添加环境变量

新增SPARK_HOME系统变量,值为本地spark安装路径。比如SPARK_HOME=D:\Spark\spark-2.2.0-bin-hadoop2.7。
在这里插入图片描述
增加Path系统变量的值,为%SPARK_HOME%\bin
在这里插入图片描述

4、测试环境

命令行中输入spark-shell,出现
在这里插入图片描述
即表示搭建成功。

四、安装pyspark

1、复制

复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包,
粘贴包并解压至Anaconda安装目录\Lib\site-package下,如果没有使用Anaconda,把Anaconda安装目录替换成Python安装目录。

2、本地测试

在cmd命令行输入python进入python环境,输入import pyspark as ps不报错即表示成功。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/635058
推荐阅读
相关标签
  

闽ICP备14008679号