当前位置:   article > 正文

Spark架构和原理_spark是一个开源计算框架,主要用于流计算业务场景。

spark是一个开源计算框架,主要用于流计算业务场景。

介绍

Spark是一个开源分布式计算框架,可以进行批处理和流处理计算。相对于其他分布式计算框架,它有几个特点:
1、快。Spark是基于内存进行计算的,官方宣称计算速度比MapReduce快100倍
2、易用。提供了Java、Python、Scala、R等多种语言支持,也支持SQL交互方式
3、全面。Spark包含了多种计算库,有Spark SQL、Spark Streaming、MLlib、GraphX
4、可移植。Spark可以运行在多种平台上,包括Hadoop、Apache Mesos、Kubernetes、Standalone、Cloud

Spark生态圈

Spark内部包含了多种计算库,用于支撑不同的数据计算。Spark生态圈包括:
1、Spark Core。Spark核心部分,包含基本功能(任务调度、内存管理、容错机制)和RDD相关操作API,其他Spark库都是构建在Spark Core和RDD之上的
2、Spark SQL。处理结构化数据的计算库,提供SQL语言级别的使用
3、Spark Streaming。准实时流式计算库
4、MLlib。机器学习库
5、GraphX。图计算库

以下是Spark生态圈官方图谱:
在这里插入图片描述

Spark RDD

RDD(Resilient Distributed Dataset)弹性式分布数据集,是Spark内部计算专用的数据结构。在Spark计算时候,先将外部数据源转化成RDD,然后基于RDD再进行转化或者分析计算。
RDD特点:
1、只读性。RDD具有只读性,不能进行更新等操作,RDD只能进行转换,由原来的RDD转换成另外一个新RDD
2、分区性。RDD具有分区特性

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/647142
推荐阅读
相关标签
  

闽ICP备14008679号