赞
踩
本文主要提供spark集群搭建,采用一主多从的方式进行搭建
时隔五年2024-01-17再次来更新一下这个文档,让搭建集群更快一点。
下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
(前提Java已经安装过了)
解压的Linux命令:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
在集群的每个节点上都添加spark的环境变量
- # 1.编辑/etc/profile
-
- # 2.增加如下内容
- export SPARK_HOME=/usr/local/soft/spark-2.4.3-bin-hadoop2.7
- export PATH=$SPARK_HOME/bin:$PATH
-
- # 3.刷新环境变量
- source /etc/profile
进入spark的配置文件目录,并修改如下3个配置文件。以下配置文件中标红的内容是需要根据实际的安装情况来填写的,不能直接复制本文档的内容。
三个文件:1.spark-defaults.conf
2.spark-env.sh
3.slaves
cd /usr/local/soft/spark-2.4.3-bin-hadoop2.7/conf
- cp spark-defaults.conf.template spark-defaults.conf
- cp spark-env.sh.template spark-env.sh
- cp slaves.template slaves
- spark.dynamicAllocation.enabled=false
- spark.yarn.jars=/usr/local/soft/spark-2.4.3-bin-hadoop2.7/jars/*.jar
- spark.yarn.am.waitTime = 1000s
-
-
- ------------------------------------------------------------------------
-
- #如果写这个配置,这个jar包需要自己手动传上去
- spark.yarn.jars=hdfs://spark01:9000/spark_jars/*
- export JAVA_HOME=/usr/local/java/jdk1.8.0_241
- #export SCALA_HOME=/usr/local/soft/scala-2.11.0
- export HADOOP_HOME=/usr/local/soft/hadoop-2.7.7
- export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.7/etc/hadoop
- export YARN_CONF_DIR=/usr/local/soft/hadoop-2.7.7/etc/hadoop
- export SPARK_MASTER_IP=hadoop02
- export SPARK_LOCAL_IP=192.168.128.0
- export SPARK_WORKER_MEMORY=6g
- export SPARK_HOME=/usr/local/soft/spark-2.4.3-bin-hadoop2.7
- export SPARK_LOCAL_DIRS=/usr/local/soft/spark_dir
- export SPARK_PID_DIR=/usr/local/soft/spark_pid
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop 这句比较关键,on yarn 的核心
- hadoop01
- hadoop02
注意一下这个点: 记得加上这个配置,可避免集群环境停不下来的问题:
Spark集群无法停止的原因分析和解决(Hadoop集群也有这个问题)_使用stop-all.sh指令关闭spark时报错-CSDN博客
上传jar包
在HDFS上,创建一个目录,用来存放spark的依赖jar包。此目录是spark-defaults.conf目录中配置的目录名称,命令如下:
hadoop fs -mkdir /spark_jars
进入spark安装目录的jars目录,执行:
hadoop fs -put ./* /spark_jars
- scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 hadoop02:/usr/local/soft/
- scp -r /usr/local/soft/spark-2.4.3-bin-hadoop2.7 hadoop03:/usr/local/soft/
至此,完成Spark-Yarn的配置。
集群模式可以试试spark on yarn
- /usr/local/soft/spark-2.4.3-bin-hadoop2.7/bin/spark-submit \
- --class org.apache.spark.examples.SparkPi \
- --master yarn \
- --deploy-mode cluster \
- --executor-memory 1G \
- --total-executor-cores 2 \
- /usr/local/soft/spark-2.4.3-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.3.jar \
- 10
经过一顿子跑,若任务执行成功,则会出现如下的结果
至此spark集群均已部署验证完成!
安装完成如需启动,可使用如下命令:
启动命令:
sbin/start-all.sh
spark on yarn可以不启动spark
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。