赞
踩
作者:禅与计算机程序设计艺术
2003年,美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS(Google File System)。由于该文件系统设计得足够简单,可以适应大规模数据集存储需求,在此基础上演化出多种应用,包括MapReduce、BigTable、PageRank等,并成为当时互联网公司的标配技术之一。
2004年,Google发布了第一版Hadoop项目,定位是一个“框架”,并提供了计算集群管理、存储、数据处理和分析功能。到了2010年,Hadoop已经成为最流行的大数据开源技术之一。它既有优秀的性能,又具有稳健、可靠的数据存储能力。
2011年,微软提出Spark,宣称将基于内存的快速计算框架作为主要特性,打造出一个更具弹性的分布式数据处理平台。而Facebook、百度等互联网巨头也纷纷推出自己的分布式存储和分析系统。
2014年,Twitter开源自己的分布式日志收集系统Flume,其后被大量应用于各种大数据场景中。此外,Facebook最新发布的基于Hadoop的通用计算框架Pegasus也取得了惊喜之举。
2015年至今,Hadoop已经成为大数据领域里最重要的组件,目前仍然处于蓬勃发展的阶段。
本文要介绍的Hadoop的发展过程主要围绕三个方面:基础设施建设、生态系统构建和技术革新。首先,我们将会对Hadoop项目起源的历史进行简要回顾,然后介绍HDFS(Hadoop Distributed File System)项目的全貌,同时展开介绍MapReduce和Flume等重要项目的一些相关技术。接着,我们详细地介绍了YARN(Yet Another Resource Negot
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。