赞
踩
HADOOP2.0
较
1.0
版本的进步
1.1
从
整体框架来说,
Hadoop1.0
即第一代
Hadoop
,由分布
式存储系统
和分布式计算框架
组成,
其中
HDFS
由一
个
NameNode
和多个
DateNode
组成,
MapReduce
由一个
JobTracker
和多个
TaskTracker
组成。
Hadoop2.0
即第二代
Hadoop
为克服
Hadoop1.0
中的不足:针对
Hadoop1.0
单
NameNode
制约
HDFS
的扩展
性问题,提出
HDFS Federation
,它让多个
NameNode
分管不同的目
录进而实现访问隔离和横向扩展,同时彻底解决了
NameNode
单点故
障问题,单点故障是通过主备
NameNode
切换实现的,这是一种古老
的解决服务单点故障的方案,主备
NameNode
之间通过一个共享存储
同步元数据信息,因此共享存储系统的选择称为关键而
Hadoop
则提
供了
NFS
、
QJM
和
Bookeeper
三种可选的共享存储系统,
HDFS
Federation
实现的,
它允许一个
HDFS
集群中存在多个
NameNode
,
每
个
NameNode
分管一部分目录,
而不同
NameNode
之间彼此独立,
共享
所有
DataNode
的存储资源,注意,
NameNode Federation
中的每个
NameNode
仍存在单点问题,需为每个
NameNode
提供一个
backup
以
解决单点故障问题;
针对
Hadoop1.0
中的
MapReduce
在扩展性和多框
架支持等方面的不足,它将
JobTracker
中的资源管理和作业控制分
开,分别由
ResourceManager
(负责所有应用程序的资源分配)和
ApplicationMaster
(负责管理一个应用程序)实现,即引入了资源
管理框架
Yarn
。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。