赞
踩
spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。
在spark这个大框架下,spark-core和sparksql都是处理离线数据的,但是明显要比mapreduce要快得多。而sparkstreaming是一个准实时(不是立刻处理,而是有一个batch,间隔一段时间后再获取数据)的对数据流处理框架,仅仅比storm和flink这样来一条就立刻处理一条的框架慢一些。
RDD(弹性分布式数据集)
spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。
ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的RDD,而不会在原来的RDD上直接进行修改,这样在新的RDD丢失时,可以回退到上一个RDD重新进行数据处理。
在启动之前,一定要开启hdfs服务和yarn服务,启动Spark,先加入到环境变量中,随后输入pyspark即可启动:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。