当前位置:   article > 正文

超详细Spark on yarn 集群搭建部署_spark yarn hadoop 集群搭建

spark yarn hadoop 集群搭建

本文主要提供spark集群搭建,采用一主多从的方式进行搭建

时隔五年2024-01-17再次来更新一下这个文档,让搭建集群更快一点。

一、首先准备软件包

下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

二、解压到对应目录后,修改配置文件

(前提Java已经安装过了)

解压的Linux命令:tar   -zxvf  spark-2.4.3-bin-hadoop2.7.tgz

三、配置基本信息

1.配置spark_home环境变量

在集群的每个节点上都添加spark的环境变量

  1. # 1.编辑/etc/profile
  2. # 2.增加如下内容
  3. export SPARK_HOME=/usr/local/soft/spark-2.4.3-bin-hadoop2.7
  4. export PATH=$SPARK_HOME/bin:$PATH
  5. # 3.刷新环境变量
  6. source /etc/profile

2.进入配置文件conf目录

进入spark的配置文件目录,并修改如下3个配置文件。以下配置文件中标红的内容是需要根据实际的安装情况来填写的,不能直接复制本文档的内容。

三个文件:1.spark-defaults.conf
                  2.spark-env.sh
                  3.slaves

cd /usr/local/soft/spark-2.4.3-bin-hadoop2.7/conf

3.复制配置文件模板

  1. cp spark-defaults.conf.template spark-defaults.conf
  2. cp spark-env.sh.template spark-env.sh
  3. cp slaves.template slaves

4.修改spark-defaults.conf,增加如下配置

  1. spark.dynamicAllocation.enabled=false
  2. spark.yarn.jars=/usr/local/soft/spark-2.4.3-bin-hadoop2.7/jars/*.jar
  3. spark.yarn.am.waitTime = 1000s
  4. ------------------------------------------------------------------------
  5. #如果写这个配置,这个jar包需要自己手动传上去
  6. spark.yarn.jars=hdfs://spark01:9000/spark_jars/*

5.修改spark-env.sh,增加如下配置

  1. export JAVA_HOME=/usr/local/java/jdk1.8.0_241
  2. #export SCALA_HOME=/usr/local/soft/scala-2.11.0
  3. export HADOOP_HOME=/usr/local/soft/hadoop-2.7.7
  4. export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.7/etc/hadoop
  5. export YARN_CONF_DIR=/usr/local/soft/hadoop-2.7.7/etc/hadoop
  6. export SPARK_MASTER_IP=hadoop02
  7. export SPARK_LOCAL_IP=192.168.128.0
  8. export SPARK_WORKER_MEMORY=6g
  9. export SPARK_HOME=/usr/local/soft/spark-2.4.3-bin-hadoop2.7
  10. export SPARK_LOCAL_DIRS=/usr/local/soft/spark_dir
  11. export SPARK_PID_DIR=/usr/local/soft/spark_pid

export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop   这句比较关键,on yarn 的核心 

6.修改slaves,配置如下

  1. hadoop01
  2. hadoop02

注意一下这个点: 记得加上这个配置,可避免集群环境停不下来的问题:

Spark集群无法停止的原因分析和解决(Hadoop集群也有这个问题)_使用stop-all.sh指令关闭spark时报错-CSDN博客

上传jar包

 在HDFS上,创建一个目录,用来存放spark的依赖jar包。此目录是spark-defaults.conf目录中配置的目录名称,命令如下:

hadoop fs -mkdir /spark_jars

进入spark安装目录的jars目录,执行:

hadoop fs -put ./* /spark_jars

7.copy子节点

  1. scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 hadoop02:/usr/local/soft/
  2. scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 hadoop03:/usr/local/soft/

至此,完成Spark-Yarn的配置。

8、spark on yarn验证

集群模式可以试试spark on yarn

  1. /usr/local/soft/spark-2.4.3-bin-hadoop2.7/bin/spark-submit \
  2. --class org.apache.spark.examples.SparkPi \
  3. --master yarn \
  4. --deploy-mode cluster \
  5. --executor-memory 1G \
  6. --total-executor-cores 2 \
  7. /usr/local/soft/spark-2.4.3-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.3.jar \
  8. 10

经过一顿子跑,若任务执行成功,则会出现如下的结果

 至此spark集群均已部署验证完成!

安装完成如需启动,可使用如下命令:

启动命令:
sbin/start-all.sh

spark on yarn可以不启动spark

关于spark on yarn 的那些事_spark on yarn高可用是谁负责-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/482738
推荐阅读
相关标签
  

闽ICP备14008679号