赞
踩
Spark是一个开源分布式计算框架,可以进行批处理和流处理计算。相对于其他分布式计算框架,它有几个特点:
1、快。Spark是基于内存进行计算的,官方宣称计算速度比MapReduce快100倍
2、易用。提供了Java、Python、Scala、R等多种语言支持,也支持SQL交互方式
3、全面。Spark包含了多种计算库,有Spark SQL、Spark Streaming、MLlib、GraphX
4、可移植。Spark可以运行在多种平台上,包括Hadoop、Apache Mesos、Kubernetes、Standalone、Cloud
Spark内部包含了多种计算库,用于支撑不同的数据计算。Spark生态圈包括:
1、Spark Core。Spark核心部分,包含基本功能(任务调度、内存管理、容错机制)和RDD相关操作API,其他Spark库都是构建在Spark Core和RDD之上的
2、Spark SQL。处理结构化数据的计算库,提供SQL语言级别的使用
3、Spark Streaming。准实时流式计算库
4、MLlib。机器学习库
5、GraphX。图计算库
以下是Spark生态圈官方图谱:
RDD(Resilient Distributed Dataset)弹性式分布数据集,是Spark内部计算专用的数据结构。在Spark计算时候,先将外部数据源转化成RDD,然后基于RDD再进行转化或者分析计算。
RDD特点:
1、只读性。RDD具有只读性,不能进行更新等操作,RDD只能进行转换,由原来的RDD转换成另外一个新RDD
2、分区性。RDD具有分区特性
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。