当前位置:   article > 正文

HDFS 组织架构

HDFS 组织架构

优质博文:IT-BLOG-CN

一、HDFS 概述

HDFS 产生背景: 随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。

HDFS 定义: HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的使用场景: 适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

二、HDFS 优缺点

优点:
【1】容错性: 数据自动保存多个副本。通过增加副本的形式,提高容错性。如下三个副本中其中一个副本挂掉了:
在这里插入图片描述

某一个副本丢失以后,它可以自动恢复
在这里插入图片描述

【2】适合处理大数据:数据规模:能够处理数据规模达到 GB、TB、甚至 PB级别的数据。文件规模:能够处理百万规模以上的文件数量,数量相当之大。
【3】可以构建在廉价机器上,通过多副本机制,提高可靠性。

缺点:
【1】不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。
【2】无法高效对大量小文件进行存储:存储大量小文件的话,它会占用 NameNode 大量的内存来存储文件目录和块信息。这样是不可取的,因为 NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
【3】不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。

三、HDFS 组成架构

HDFS(Hadoop Distributed File System)的架构概述,易懂版,如图所示。
在这里插入图片描述

HDFS 组成架构(官网)
点击并拖拽以移动​

【1】NameNode(nn): 就是Master,作为管理者:
(1)管理 HDFS 的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)的映射信息;
(4)处理客户端读写请求;

【2】DataNode: 就是 Slave。NameNode 下达命令,DataNode 执行实际操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作;

【3】Secondary NameNode: 非 NameNode 的热备。当 NameNode 挂掉时,它并不能马上替换 NameNode 并提供服务。
(1)辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;
(2)在紧急情况下,可辅助恢复 NameNode;

【4】Client: 客户端
(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;
(3)与 DataNode 交互,读取或者写入数据;
(4)Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;
(5)Client 可以通过一些命令来访问 HDFS,比如对 HDFS 的增删改查操作;

【5】副本的复制策略: 首先 HDFS副本复制策略基于的前提是机架感知,对此首先需要了解网络的带宽是如何计算:
(1)相同机架的不同节点之间的网络传输速度都是2;
(2)不同机架的不同节点之间的网络传输速度是4;

【策略如下】:
第一个副本:如果客户端在当前 DataNode节点上发送请求,第一个副本就保存在客户端所在的节点上(遵循就近原则) 如果客户端不在集群的任意节点上,则随机选择一个节点保存副本;
第二个副本:和第一个副本不同的机架上的随机节点上 (为了保证数据的安全) ;
第三个副本:和第二个副本在同机架的不同节点上(为了副本的复制速度) ;

四、HDFS 文件块大小

HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认在 Hadoop2.x版本中是 128M,老版本是 64M。
在这里插入图片描述

HDFS 块大小设置: 为什么块的大小不能设置太小,也不能设置太大
【1】HDFS 块设置太小,会增加寻址时间,程序一直在找块的位置;
【2】如果块设置的太大,从磁盘传输数据的时间会明显大于块定位的时间。导致程序在处理块数据时,会非常慢。

总结: HDFS 块的大小设置取决于磁盘传输速率

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/630842
推荐阅读
相关标签
  

闽ICP备14008679号