当前位置: article > 正文

Spark01：RDD概述

作者：小小林熬夜学编程 | 2024-05-19 14:24:45

踩

Spark01：RDD概述

Spark编程模型地核心是弹性分布式数据集(Resilient Distributed Dataset,RDD),是MapReduce模型的扩展、延申和改进，解决了MR的缺陷：在并行阶段高效的数据共享，并将MR的操作方式进行关键的优化。

MR等模型也能够将计算转换为一个有向无环图(DAG)的任务集合，这是故障和慢节点问题的关键解决办法，但这些模型除了文件系统外没有其他的存储方式，导致频繁的网络IO。

RDD提供一种基于粗粒度变换(如map\filter)的接口，该接口将相同的操作应用到多个数据集，可以记录创建数据集的"血统"(Lineage)，不需要存储真正的数据，从而达到高效的容错性。基于RDD机制实现了多类模型计算：

Spark中RDD的操作主要有创建操作、转换操作、控制操作和行为操作

创建操作：用于RDD的创建。RDD的创建有两种方法，一种是来自于内存集合和外部存储系统，另一种是通过转换操作生成的RDD。
转换操作(Transformation Operation):将RDD通过一定的操作变成新的RDD，比如HadoopRDD可以使用map操作变换为MapperdRDD，RDD的转换操作是惰性操作，它只是定义了一个新的RDDs，并没有立即执行。
控制操作(Control Operation):进行RDD持久化，可以让RDD按不同的存储策略保存在磁盘或者内存中，比如cache接口默认将RDD缓存在内存中。
行动操作(Action Operation):能够触发Spark运行的操作，例如，对RDD进行collect就是行动操作。Spark中行动操作分为两类，一类的操作结果变成Scala集合或者变量，另一类将RDD保存到外部文件系统或者数据库中。

数据挖掘与机器学习笔记

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】