赞
踩
Spark系列文章:
大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客
大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客
大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客
大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客
大数据 - Spark系列《五》- Spark常用算子-CSDN博客
大数据 - Spark系列《六》- RDD详解-CSDN博客
大数据 - Spark系列《七》- 分区器详解-CSDN博客
如果一个RDD是由多个RDD计算来的 ,且后续的使用多次
rdd1->rdd2->rdd3->rdd4 -->rdd4结果缓存 重复使用
- - - - -> rdd4.map
- - - - -> rdd4.flatmap
- - - - -> rdd4.groupBy
缓存不会破坏rdd之间的依赖关系,所以缓存的数据丢失后不会影响计算结果,通过血源关系重新追溯计算
- rdd2.persist(StorageLevel.MEMORY_AND_DISK) // 可以自己控制存储级别
-
- // NONE 相当于没有存储
- // DISK_ONLY 缓存到磁盘
- // DISK_ONLY_2 缓存到磁盘,2个副本
- // MEMORY_ONLY 缓存到内存
- // MEMORY_ONLY_2 缓存到内存,2个副本
- // MEMORY_ONLY_SER 缓存到内存,以序列化格式
- // MEMORY_ONLY_SER_2 缓存到内存,以序列化格式,2个副本
- // MEMORY_AND_DISK 缓存到内存和磁盘
- // MEMORY_AND_DISK_2 缓存到内存和磁盘,2个副本
- // MEMORY_AND_DISK_SER 缓存到内存和磁盘,以序列化格式
- // MEMORY_AND_DISK_SER_2 缓存到内存和磁盘,以序列化格式,2个副本
- // OFF_HEAP 缓存到堆外内存
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/151948
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。