赞
踩
目录
今天我们讲解Spark的安装配置,spark的部署分为两种,一种是Standalone模式,另一种就是on yarn 模式,我们这一节着重讲解on yarn 模式,因为符合生产活动,但也会提到Standalone模式
Spark是一个快速、通用、可扩展的集群计算引擎,它基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高伸缩性。Spark允许用户将其部署在大量廉价的硬件之上,形成集群。Spark诞生于2009年,最初由美国加州大学伯克利分校的AMP实验室开发,是一个基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
Spark的特点主要体现在以下几个方面:
Spark的主要组件包括SparkCore,它将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。
总的来说,Spark作为一个强大而灵活的大数据处理工具,以处理各种类型的大数据任务和应用场景。
Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成的Spark集群,Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助其他的框架。是相对于Yarn和Mesos来说的。
解压:
tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/
修改名字:
mv spark-3.0.3-bin-hadoop3.2/ spark-standalone
配置集群节点:
- mv slaves.template slaves
- vim slaves
添加内容:
- bigdata1
- bigdata2
- bigdata3
修改spark-env.sh文件,添加bigdata1节点
- mv spark-env.sh.template spark-env.sh
- vim spark-env.sh
添加内容:
- SPARK_MASTER_HOST=bigdata1
- SPARK_MASTER_PORT=7077
向其他机器分发spark-standalone包
在其他机器创建spark-standalone目录。
- scp -r /opt/module/spark-standalone/ bigdata2:/opt/module/spark-standalone/
- scp -r /opt/module/spark-standalone/ bigdata3:/opt/module/spark-standalone/
启动spark集群官方求PI案例
- bin/spark-submit \
- > --class org.apache.spark.examples.SparkPi \
- > --master spark://bigdata1:7077 \
- > ./examples/jars/spark-examples_2.12-3.0.3.jar \
- > 10
结果:
Pi is roughly 3.1408591408591406
------------------------------ 命令 ---------------------------------------
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://bigdata1:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.0.3.jar \
10
saprk客户端连接Yarn,不需要额外构建集群。
解压:
tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/
配置环境变量:
- #SPARK_HOME
- export SPARK_HOME=/opt/module/spark-3.0.3-yarn
- export PATH=$PATH:$SPARK_HOME/bin
修改配置文件:
修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml,添加如下内容:
- <property>
- <name>yarn.nodemanager.pmem-check-enabled</name>
- <value>false</value>
- </property>
-
- <property>
- <name>yarn.nodemanager.vmem-check-enabled</name>
- <value>false</value>
- </property>
分发配置文件:
- scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/
-
- scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/
修改spark-env.sh
mv spark-env.sh.template spark-env.sh vim spark-env.sh内容:
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
重启Hadoop
- start-all.sh
- start-yarn.sh
求PI
spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.0.3.jar
结果:
Pi is roughly 3.142211142211142
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。