赞
踩
最近重新装了系统,需要对spark与pyspark重新配置下。于是写了这篇文章,希望对从事这个行业的人员能有所帮助:
01_windows10配置spark与pyspark
02_jupyterLab_windows设置pyspark
03_jupyternotebook_windows设置pyspark
准备以下版本的安装包,不同的版本号之间会发生兼容性问题,如果采用版本以下不一致,建议看完本文再动手,有些本人已经踩过坑,会在下文提示。
1.Anaconda3-2021.11-Windows-x86_64
2.jdk-8u40-windows-x64
3.hadoop-3.2.2.tar.gz
4.scala-2.12.15
5.spark-3.1.3-bin-hadoop3.2.tgz
6.winutils来源于hadoop-3.2.2或者hadoop-3.2.1
整理安装包放在文章《windows10配置spark与pyspark》安装包01 与 文章《windows10配置spark与pyspark》安装包02
这里选择为所有用户安装
不要放在C盘,接下来几个文件的安装需要一定的空间,多数人的电脑C盘不够大
我安装在H盘,建立一个文件架子
这里两个地方都打√,上边是添加环境变量,这样就省去了添加环境变量的麻烦;下边是让anaconda设置为Python3。勾选完,我们点install安装吧。
安装我完,我们测试一下安装结果,找到运行,输入cmd.
a.安装内容选择 开发者具
b.推荐修改java 安装路径,点击下图中的更爱…选择自定义的安装路径,若无需修改,next即可。
我的安装路径如下:
计算机→系统属性→相关设置→⾼级系统设置→⾼级→环境变量,在系统变量中配置。
找到上面环境变量路径后添加JAVA_HOME路径
添加path路径
cmd 命令行窗口输入 java
cmd 命令行窗口输入 java -version
cmd 命令行窗口输入 javac
选择第一个,安装路径建议修改:
我的安装路径如下:
参考java环境变量配置:
SCALA_HOME配置
path配置
对hadoop-3.2.2.tar.gz进行两次解压缩,第一次解压后有文件hadoop-3.2.2.tar,再次解压缩后如下图:
对spark-3.1.3-bin-hadoop3.2.tgz进行解压缩,再次解压缩后如下图:
1.安装pyspark
cmd 命令行输入以下:
pip install pyspark - i https://pypi.tuna.tsinghua.edu.cn/simple
2.替换pyspark
将spark-3.1.3-bin-hadoop3.2\python下的pyspark拷贝到
Anaconda3\Lib\site-packages,替换Anaconda3\Lib\site-packages的pyspark
本人先将Anaconda3\Lib\site-packages的pyspark重名为pyspark01,然后拷贝spark-3.1.3-bin-hadoop3.2\python下的pysparkpyspark
将winutils.exe 拷贝到 hadoop-3.2.2\bin目录下:
cmd 命令行窗口 输入pyspark
cmd 命令行窗口输入spark-shell
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。