赞
踩
我们知道,Storm已经不流行了,目前几乎没有公司用。
对于大数据开发,主流的就是Hadoop Spark和Flink,一般学习顺序也都是Hadoop——spark——Flink。
现在也有很多人说Spark已经不行了,更倾向于学习和使用Flink。那是因为一些大厂例如阿里主要是使用Flink,双十一这种大型的实时计算量都是用flink来做的
大数据起源于批处理,在批处理上,Spark有很深的积累。为了应对全球大量业务的实时需求,Spark也推出了流计算解决方案——SparkStreaming。
但Spark毕竟不是一款纯流式计算引擎,所以在时效性等问题上,始终无法提供极致的流批一体体验。
而后起新秀Flink的基本数据模型则是数据流,以及事件(Event)的序列。数据流作为数据的基本模型,可以是无边界的无限“流”,即一般意义上的流处理;也可以是有边界的有限“流”,也就同时兼顾了批处理。
Flink相比于Spark而言还有诸多明显优势:
阿里早在几年前就开始探索Flink的实战应用,随着双11阿里基于Flink实时计算场景的屡战屡胜,毋庸置疑,Flink将会加速成为大厂主流的数据处理框架,最终化身下一代大数据处理标准。
Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架,同时支持高度容错的状态管理,防止状态在计算过程中因系统异常丢失,Flink周期性的通过分布式快照技术Checkpoint实现状态的持久化维护,即使在系统异常情况下也能计算出正确的结果。
事件驱动型应用是一类具有状态的应用,它从一个或多个事件数据流中读取事件, 并根据到来的事件做出反应,包括触发计算、状态更新或其他外部动作等。
数据分析应用会从原始数据中提取信息,并得到富有洞见的观察。
但是为了找工作,建议还是都学,首先,我们需要通过Hadoop来建立对大数据的基本概念,当今的Hadoop已经成长为一个庞大的体系,只要有和海量数据相关的领域,都有Hadoop的身影。
现阶段,Hadoop仍然主导着大数据领域,我们可以学习先进的技术,但更是为了现阶段的就业,就目前阶段而言,学大数据必学Hadoop。
MapReduce中有许多经典的思想,值得我们学习,这对我们理解大数据十分有帮助。
而Spark要替换的是Hadoop中的MapReduce,而不是Hadoop,Hadoop是一个工具包,而Spark和MapReduce一样,只是一种工具而已。
所以Hadoop是必须学习的,Spark也要熟悉。
对于有志于在大数据等领域发展的同学,可以按照Java-Hadoop-Spark-Flink这样的路径。另外对于spark来说,学一点Scala则会更有帮助。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。