当前位置:   article > 正文

Spark(1)——spark基本原理与启动_spark原理及应用

spark原理及应用

spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。
在spark这个大框架下,spark-core和sparksql都是处理离线数据的,但是明显要比mapreduce要快得多。而sparkstreaming是一个准实时(不是立刻处理,而是有一个batch,间隔一段时间后再获取数据)的对数据流处理框架,仅仅比storm和flink这样来一条就立刻处理一条的框架慢一些。
RDD(弹性分布式数据集)
spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。
ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的RDD,而不会在原来的RDD上直接进行修改,这样在新的RDD丢失时,可以回退到上一个RDD重新进行数据处理。
在启动之前,一定要开启hdfs服务和yarn服务,启动Spark,先加入到环境变量中,随后输入pyspark即可启动:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/772390
推荐阅读
相关标签
  

闽ICP备14008679号