当前位置:   article > 正文

spark cache操作_spark cache的使用

spark cache的使用

spark的rdd对应的是一个弹性的分布式的数据集,对应的数据是只读的数据。
在这种情况下,充分的使用缓存是能够很好的提高性能的。那么应该如何操作了?
spark会将代码对应的解析成为多个dag的有向无环图的操作的。下面是解析之后的一个简单的示意图的

从图中可以看到,对应的是存在如下的问题的。每一个DAG对应的都是从数据源读取数据的,这样的操作本身来说是存在问题的。数据本身其实只是需要读取一次就可以了,后续的数据都是需要基于当前的数据来执行操作的,这个读取的数据是可以缓存的。
1.所以,可以在第一步读取数据的数据设置缓存的。spark可以设置缓存级别的。
val wordDataset: Dataset[String] = spark.read.textFile(“spark-test/word.txt”).persist(StorageLevel.MEMORY_AND_DISK_SER_2) 可以使用带有副本的缓存来提高数据的安全性保证的。
2.spark的rdd本身是只读的,非常适合缓存的使用场景的。下面是一个设想的,我们可以充分的发挥出来对应的rdd的特性的,充分的使用缓存来加速相关的操作实现的。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/725065
推荐阅读
相关标签
  

闽ICP备14008679号