赞
踩
没有考虑到海量数据的存储和管理问题
没有考虑到节点的故障问题,比如通过心跳机制确保集群的高可用
只有一个合并节点(engine2),如果合并的任务量非常大,则会造成单点工作负荷大。
在zebra项目中,有很多业务的处理思想可以提炼出来,提炼出计算框架。(如逻辑切块,位置追溯,key值的合并)。即没有用计算框架来处理业务,导致以后有新任务还会做重复繁琐的工作。
任务资源管理和调度。比如对每一个job任务进行cpu和内存的合理分配。比如yarn和mesos。
Doug Cutting 是Lucence Nutch 和hadoop的创始人。
Nutch是搜索引擎,是基于Lucence实现的。Nutch相当于lucence的web应用,可以抓取网页,爬取数据。
2004年,cutting研发出来nutch,nuctch负责抓取数据,数据是非结构化的数据,而且是海量数 据。数据存储的数据是利用二维表来存储的,即行和列。此时,nutch面临的问题就是海量数 据的存储和管理问题。如果这个问题解决不了,就谈不上后续的利用算法做网页排名以及优化 检索速度,提高用户的搜索体验。
正好此时Google发表了两篇论文《Google FileSystem》《Google Mapreduce》
《Google FileSystem》GFS是Google公司分布式文件系统,用于解决海量数据的存储问 题。
《Google Mapreduce》MapReduce是Google运行在GFS上的计算框架。这个计算框架的 目的是便于不懂分布式编程的人员也可以将任务运行在分布式环境下。
Cutting根据《GFS》设计了HDFS,hadoop distributed filesystem 。Hadoop诞生的目 的,最开始为了解决nutch抓取海量数据的存储问题。在nutch0.8版本以前,hadoop是 nutch的子项目。在0.8版本,独立出来,单独称为一个项目。后来,Cutting 根据《Google Mapreduce》设计了基于HDFS的MapReduce计算框架。
2006年,cutting带着这Hadoop来到Yahoo,后来Yahoo把Hadoop贡献给Apache。现在是Apache的 顶级项目。
Hadoop 1.0 HDFS +MapReduce
Hadoop 2.0 HDFS+ MapReduce +yarn(资源调度框架)。引入框架之后,不仅可以运行mapreduce一种框架,还可以运行其他流式框架Strom等。
Hadoop3.0在2016年9月12日发布 据说比当前spark快很多
Yarn mesos都是apache的产品
待完善
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。