当前位置:   article > 正文

大数据——spark安装部署和python环境配置_jupyterlab 同时配置pyspark和普通python环境

jupyterlab 同时配置pyspark和普通python环境

需要配置多台服务器,实验环境:master和data两台服务器,已安装好hadoop,可参考前文!!!

1.spark安装

  • master安装

(1)下载scala和spark

(2)解压并配置环境变量

  1. export SCALA_HOME=/usr/local/scala
  2. export PATH=$PATH:$SCALA_HOME/bin
  3. export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
  4. export PATH=$PATH:$SPARK_HOME/bin

(3)配置spark-env.sh文件

  1. export SPARK_MASTER_IP=IP
  2. export SPARK_MASTER_HOST=IP
  3. export SPARK_WORKER_MEMORY=512m
  4. export SPARK_WORKER_CORES=1
  5. export SPARK_WORKER_INSTANCES=4
  6. export SPARK_MASTER_PORT=7077

(4)配置slaves文件

data
  • data安装

(1)下载scala和spark

(2)解压并配置环境变量

  1. export SCALA_HOME=/usr/local/scala
  2. export PATH=$PATH:$SCALA_HOME/bin
  3. export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
  4. export PATH=$PATH:$SPARK_HOME/bin

(3)配置spark-env.sh文件

  1. export SPARK_MASTER_IP=IP
  2. export SPARK_MASTER_HOST=IP
  3. export SPARK_WORKER_MEMORY=512m
  4. export SPARK_WORKER_CORES=1
  5. export SPARK_WORKER_INSTANCES=4
  6. export SPARK_MASTER_PORT=7077

启动和测试:

进入到sbin目录启动:start-all.sh或者start-master.sh、start-slaves.sh,输入jps:

master显示: data显示:

然后启动pyspark:

pyspark 

可以访问成功,然后更换模式:

pyspark --master spark://master_ip:7077

2. 配置Anaconda和远程访问Jupyter

(1)安装Anaconda

安装:

配置环境变量:

(2)远程配置Jupyter

参考:https://blog.csdn.net/MuziZZ/article/details/101703604

(3)pyspark和python结合

  1. export PATH=$PATH:/root/anaconda3/bin
  2. export ANACONDA_PATH=/root/anaconda3
  3. export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/jupyter-notebook
  4. #PARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
  5. export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

访问界面:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/66440
推荐阅读
相关标签
  

闽ICP备14008679号