Spark架构和原理_spark是一个开源计算框架,主要用于流计算业务场景。

作者：IT小白 | 2024-05-30 13:24:10

踩

spark是一个开源计算框架,主要用于流计算业务场景。

介绍

Spark是一个开源分布式计算框架，可以进行批处理和流处理计算。相对于其他分布式计算框架，它有几个特点：
1、快。Spark是基于内存进行计算的，官方宣称计算速度比MapReduce快100倍
2、易用。提供了Java、Python、Scala、R等多种语言支持，也支持SQL交互方式
3、全面。Spark包含了多种计算库，有Spark SQL、Spark Streaming、MLlib、GraphX
4、可移植。Spark可以运行在多种平台上，包括Hadoop、Apache Mesos、Kubernetes、Standalone、Cloud

Spark生态圈

Spark内部包含了多种计算库，用于支撑不同的数据计算。Spark生态圈包括：
1、Spark Core。Spark核心部分，包含基本功能（任务调度、内存管理、容错机制）和RDD相关操作API，其他Spark库都是构建在Spark Core和RDD之上的
2、Spark SQL。处理结构化数据的计算库，提供SQL语言级别的使用
3、Spark Streaming。准实时流式计算库
4、MLlib。机器学习库
5、GraphX。图计算库

以下是Spark生态圈官方图谱：
在这里插入图片描述

Spark RDD

RDD（Resilient Distributed Dataset）弹性式分布数据集，是Spark内部计算专用的数据结构。在Spark计算时候，先将外部数据源转化成RDD，然后基于RDD再进行转化或者分析计算。
RDD特点：
1、只读性。RDD具有只读性，不能进行更新等操作，RDD只能进行转换，由原来的RDD转换成另外一个新RDD
2、分区性。RDD具有分区特性

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/647142