赞
踩
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Spark和Hadoop的关系。
首先从时间节点上来看:
然后我们再从功能上来看:
由上面的信息可以获知,Spark出现的时间相对较晚,并且主要功能主要是用于数据计算,所以其实Spark一直被认为是Hadoop 框架的升级版。
Hadoop的MR框架和Spark框架都是数据处理框架,那么我们在使用时如何选择呢?
经过上面的比较,我们可以看出在绝大多数的数据计算场景中,Spark确实会比MapReduce更有优势。但是Spark是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致Job执行失败,此时,MapReduce其实是一个更好的选择,所以Spark并不能完全替代MR。
Spark Core
Spark SQL
Spark Streaming
Spark MLlib
Spark GraphX
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。