python 安装pyspark_Python学习—PySpark环境搭建_python安装pyspark hadoop

作者：我家小花儿 | 2024-05-28 01:34:48

踩

python安装pyspark hadoop

PySpark是Python整合Spark的一个扩展包，可以使用Python进行Spark开发。而PySpark需要依赖Spark环境，Spark需要依赖Hadoop环境，而且，本地环境需要安装JDK和Scala。

一、基础环境准备

1、Scala环境搭建

1.1 下载

本文环境为2.11.8
Scala下载地址：https://www.scala-lang.org/download/all.html

1.2 安装

（1）若是下载了.msi格式的scala：
直接执行安装即可，后续环境变量可不配置，安装程序会自动配置好，直接1.4测试即可。
（2）若是下载了.zip格式的scala：
将下载好的包解压到本地环境中，比如D:\scala
还需执行1.3环境配置步骤，再执行1.4测试。

1.3 添加环境变量

新增系统变量：SCALA_HOME，值为本地scala安装路径，比如SCALA_HOME=D:\scala。
在这里插入图片描述

增加Path系统变量的值，为%SCALA_HOME%\bin
在这里插入图片描述

1.4 测试环境

打开命令行窗口，输入scala，出现如下界面表示安装成功。
在这里插入图片描述

2、JDK环境搭建

2.1 下载

本文环境为jdk1.8
jdk下载地址：http://www.oracle.com/technetwork/java/javase/downloads

2.2 安装

将下载好的包解压到本地环境中，比如D:\java

2.3 配置环境变量

新增系统变量：JAVA_HOME，值为本地scala安装路径，比如JAVA_HOME=D:\java\jdk1.8.0_352
在这里插入图片描述

增加Path系统变量的值，为%JAVA_HOME%\bin
在这里插入图片描述

2.4 测试环境

打开命令行窗口，输入java -version，出现如下界面表示安装成功。
在这里插入图片描述

3、Python环境准备

本文环境为Anaconda，版本为python 3.7。

4、Windows环境

本文的所有环境均搭建在本地，本地系统为windows10。

二、Hadoop环境准备

1、下载

本文为hadoop-2.8.5
Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/

2、安装

将下载好的包解压到本地环境中，比如D:/Hadoop/hadoop-2.8.5

3、添加环境变量

新增系统变量：HADOOP_HOME，值为本地hadoop安装路径，比如HADOOP_HOME=D:\Hadoop\hadoop-2.8.5。
在这里插入图片描述
增加Path系统变量的值，为%HADOOP_HOME%\bin

4、测试环境

命令行中输入hadoop version出现版本信息，
在这里插入图片描述
表示搭建成功。

5、本地bin目录替换

因为hadoop是搭建在linux集群上的，搭建本地环境(windows)需要windows环境支持包，这里我们直接替换本地hadoop的bin文件夹。
下载地址：https://codeload.github.com/cdarlint/winutils/zip/refs/heads/master
下载对应版本替换本地/bin目录。