当前位置:   article > 正文

大数据 - Spark系列《十》- rdd缓存详解

大数据 - Spark系列《十》- rdd缓存详解

 Spark系列文章:

大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客

大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客

大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客

大数据 - Spark系列《五》- Spark常用算子-CSDN博客

大数据 - Spark系列《六》- RDD详解-CSDN博客

大数据 - Spark系列《七》- 分区器详解-CSDN博客

大数据 - Spark系列《八》- 闭包引用-CSDN博客

大数据 - Spark系列《九》- 广播变量-CSDN博客 

  10.1 RDD缓存的概念理解  

如果一个RDD是由多个RDD计算来的 ,且后续的使用多次

rdd1->rdd2->rdd3->rdd4 -->rdd4结果缓存 重复使用

  • - - - - -> rdd4.map

  • - - - - -> rdd4.flatmap

  • - - - - -> rdd4.groupBy

缓存不会破坏rdd之间的依赖关系,所以缓存的数据丢失后不会影响计算结果,通过血源关系重新追溯计算

  

  10.2 RDD缓存API  

    1. persist  
  1. ​rdd2.persist(StorageLevel.MEMORY_AND_DISK)  // 可以自己控制存储级别
  2. // NONE 相当于没有存储
  3. // DISK_ONLY 缓存到磁盘
  4. // DISK_ONLY_2 缓存到磁盘,2个副本
  5. // MEMORY_ONLY   缓存到内存
  6. // MEMORY_ONLY_2   缓存到内存,2个副本
  7. // MEMORY_ONLY_SER   缓存到内存,以序列化格式
  8. // MEMORY_ONLY_SER_2   缓存到内存,以序列化格式,2个副本
  9. // MEMORY_AND_DISK   缓存到内存和磁盘
  10. // MEMORY_AND_DISK_2   缓存到内存和磁盘,2个副本
  11. // MEMORY_AND_DISK_SER   缓存到内存和磁盘,以序列化格式
  12. // MEMORY_AND_DISK_SER_2   缓存到内存和磁盘,以序列化格式,2个副本
  13. // OFF_HEAP   缓存到堆外内存

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/151948

推荐阅读
相关标签