当前位置:   article > 正文

Linux:Spark(Python版)安装和环境变量配置_linux配置pyspark

linux配置pyspark

前置配置:

1.保证虚拟机网络畅通:ping www.baidu.com 

2. 在root模式下创建一个hadoop(名字随便取【本人取的zmc666】)用户

  1. useradd hadoop(自己取一个名字)
  2. passwd hadoop

 会让你设置密码:两次输入一致的密码即可(不用管提示密码长度)

 3.配置完密码接着输入:

vim /etc/sudoers

4. 在图示金色框位置加上一行:再强调一下这里(zmc666)是上面自己创建的用户(hadoop是比喻)

zmc666  ALL=(ALL)      NOPASSWD: ALL

按Esc 输入(:wq!)保存退出

reboot重启虚拟机切换到(你刚创建)的用户 进入下一阶段配置


第一步:下载本次安装所需要的软件包

创建目录:进入opt目录创建 module 和software 两个文件夹

cd /opt
  1. mkdir module
  2. mkdir software

 software:下载的文件压缩包存放位置

 module : 解压后文件所在位置

下载python:

  1. cd software
  2. wget https://www.python.org/ftp/python/3.10.4/Python-3.10.4.tgz

下载hadoop:

wget https://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz

下载spark:

wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.2/spark-3.2.2-bin-without-hadoop.tgz

下载java-jdk:(需要登陆才可下载)

点击此处跳转Java官网

https://www.oracle.com/java/technologies/downloads/#java8

因为官网要登陆才可以下载,所以推荐几个镜像网址:

https://repo.huaweicloud.com/java/jdk/

https://www.injdk.cn/

 下载方法 wget +jdk文件路径

 或者进入百度网盘直接下载四个压缩包:(如果直接点击打不开,可以试试复制在微信中打开随便发给一个好友[例如:微信传输助手打开]), 再打不开就没办法了(老老实实自己下吧)

链接:https://pan.baidu.com/s/1s2Saq7VJm2l-qyK3KS3EgQ?pwd=9zxk 
提取码:9zxk


第二步:解压下载的文件至module文件夹

  1. tar -zxvf java压缩包名 -C /opt/module
  2. tar -zxvf spark压缩包名 -C /opt/module
  3. tar -zxvf hadoop 压缩包名 -C /opt/module

例如: 

tar -zxvf python压缩包名 -C /usr/local/src

 如果提示没有权限之类的:可以试试 

  1. cd /opt
  2. sudo chmod 777 module
  3. sudo chmod 777 software
  4. sudo chmod 777 /usr/local/src

第三步:配置环境变量

Java环境变量配置

1.卸载原linux系统Java环境

  1. #su 进入root模式
  2. su root
  3. rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

 reboot 重启虚拟机


2.新建一个sh文件:

sudo vim /etc/profile.d/my_env.sh

 

 3.将以下内容粘贴进去

  1. #JAVA_HOME
  2. export JAVA_HOME=/opt/module/jdk1.8.0_212 #java解压在什么路径就怎么写,不要硬套
  3. export PATH=$PATH:$JAVA_HOME/bin

 

 4.source 一下/etc/profile

source /etc/profile

5.查看Java是否安装正确


 hadoop环境变量配置

1.编辑刚刚新建的my_env.sh

sudo vim /etc/profile.d/my_env.sh

2. 加入以下内容

  1. #HADOOP_HOME
  2. export HADOOP_HOME=/opt/module/hadoop-3.2.4 #同理,这里是解压后hadoop文件所在位置
  3. export PATH=$PATH:$HADOOP_HOME/bin
  4. export PATH=$PATH:$HADOOP_HOME/sbin

 

3.source 一下/etc/profile

source /etc/profile

4.输入hadoop查看是否有反应:出现如下图就说明没问题


 配置python环境变量:要麻烦一些

  1. cd /usr/local/src
  2. ls

 

会显示我们刚刚解压到这里的python文件 cd 进去

cd Python-3.10.4

1.安装python所需要的依赖包

sudo yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc make

2.配置python的安装路径:/usr/local/python3

  1. sudo yum install libffi-devel -y #如果没有这一步python没问题,但后面spark用起来有问题
  2. ./configure --prefix=/usr/local/python3 #这里我选择将python安装到/usr/local/python3
make && make install  #如果提示没有权限 可以输入: sudo chmod 777 local

3.继续编辑之前创建的my_env.sh

sudo vim /etc/profile.d/my_env.sh

加上

  1. #PYTHON_HOME
  2. export PYTHON_HOME=/usr/local/python3 #刚刚“安装”python3的路径:
  3. #注意不是解压的位置,和java不同
  4. export PATH=$PATH:$PYTHON_HOME/bin

 


 spark环境变量配置

1.修改Spark的配置文件spark-env.sh

  1. cd /opt/module
  2. ln -s spark -3.2.2-bin-without-hadoop/ /opt/module/spark #创建软连接,文件名太长不方便
  3. cd /opt/module/spark
  4. cp ./conf/spark-env.sh.template ./conf/spark-env.sh #这里很重要,没有这一步spark启动不了

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

  1. export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-3.2.4/bin/hadoop classpath)
  2. #这里的(/opt/module/hadoop-3.2.4/)部分是Hadoop解压后的路径,至于后面的(/bin/hadoop classpath)不用改

 2.继续编辑之前创建的my_env.sh

sudo vim /etc/profile.d/my_env.sh

加上

  1. #SPARK_HOME
  2. export SPARK_HOME=/opt/module/spark
  3. export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH
  4. export PYSPARK_PYTHON=python3
  5. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

 这里的(export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH 红色字体部分视自己情况而定,可以输入以下命令查看

  1. cd /opt/module/spark/python/lib/
  2. ls

 

 3.source 一下/etc/profile

source /etc/profile

4.看/opt/module/spark/bin  下 ./pyspark 命令是否可用

  1. cd /opt/module/spark/bin
  2. ./pyspark

5.出现下图所示即表示配置完成


 完整版my_env.sh环境配置一览

 配置完成

exit()退出

运行一下如下代码

  1. cd /opt/module/spark
  2. bin/run-example SparkPi 2>&1 | grep "Pi is"

会出现:

 到这里配置环境变量就完成了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/750585
推荐阅读
相关标签
  

闽ICP备14008679号