Spark安装-环境搭建_spark without hadoop

作者：繁依Fanyi0 | 2024-07-05 19:30:12

踩

spark without hadoop

Spark安装-环境搭建

ApacheSpark 是用于大规模数据处理的统一分析引擎。是一个基于内存分布式计算框架。由于Spark基于内存，相对于hadoop的MapReduce等计算框架大大提高了数据处理的实时性，同时Spark也i提供高容错性和可扩展性。

2009年诞生与加州大学

2012年，新版本包含了java的api

2016年，支持了kafka

1：速度块

与hadoop的MapReduce相比，基于内存的数据库使用Spark要比MapReduce快100个数量级别以上。速度提高了100倍。

2: 易用性

Spark程序支持开发者使用 java,Scala,Python,R 变成语言进行快色的开发。而且还提供了80多种高级api。

3：通用性

Spark提供一个强有力的一栈式通用的解决方案。SparkSql（交互式查询），SparkStreaming(实时流处理)，机器学习，图计算。

4：兼容性

Spark与其他的开源产品兼容性很好，例如 Spark可以兼容hadoop。

Spark可以在windows环境和linux环境上机型运行，Spark可以java8 ，R3.1,Python 2.7.

Scala需要2.11以上的版本。

Spark有四种运行模式：

1：local 单机模式，一般用于开发测试。

2：Yarn Spark客户端直接Yarn。

3：Standalone 构建一个有Master和Worker 构造Spark集群，在集群中运行。

4：Mesos ，Spark客户端直接连接Mesos,不需要额外的构建Spark集群

#将安装文件上传到 download目录下
rz
1
2

本次安装我们使用单机模式。

需要注意：先完成 linux系统，JDK 安装，hadoop安装之后才能安装 Spark

#解压文件
tar -zxvf spark-2.4.5-bin-without-hadoop.tgz  -C /usr/local/
#修改目录名称
mv spark-2.4.5-bin-without-hadoop/ spark
1
2
3
4

安装文件解压以后，还需要创建一个Spark的配置文件，我们直接复制一个由Spark提供配置文件模板，

#进入到spark的目录下
cd /usr/local/spark/
# 从模板中复制一个配置文件
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
1
2
3
4

复制出来配置文件之后，我们要进行修改，要将hadoop的安装目录添加到配置文件中去

#使用vim修改我们复制出来的配置文件
vim ./conf/spark-env.sh
# 在配置文件中添加一下信息
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
1
2
3
4

配置完成之后，我们运行Spark自带的案例，获取Pi的近似值（圆周率）

#输入命令获取pi的近似值
./bin/run-example SparkPi 2>&1 |grep "Pi is roughly"
1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/790810