当前位置:   article > 正文

深入分析HDFS原理及读写流程_hdfs原理,hdfs读写流程

hdfs原理,hdfs读写流程

一、架构体系

1.1、什么是HDFS

HDFS即Hadoop Distributed File System的简称,采用Master/Slave主从结构模型来管理数据。在设计上采用了分而治之的思想,将单服务器无法承受的大量的数据分布在多台服务器上。HDFS主要由Client、NameNode、DataNode,SecondaryNameNode这四部分组成。

1.2、组成HDFS的各模块作用
1.2.1、Client

HDFS客户端是在DFSClient类的基础上实现的,提供了命令行接口、API接口、浏览器接口等面向用户的接口,使用户可以不考虑HDFS的实现细节,简化操作。

客户端在整个HDFS的作用可以进行如下总结:

  1. 上传文件时按照Block块大小进行文件的切分;
  2. 和NameNode交互,获取文件位置信息;
  3. 和DataNode交互,读取和写入数据;
  4. 管理和访问整个HDFS。
1.2.2、NameNode

NameNode在HDFS结构模型里充当Master的就角色,因此一个HDFS集群里只会有一个active的NameNode节点。在集群里主要用来处理客户端的读写请求,它主要负责管理命名空间(NameSpace)和文件Block映射信息。

nameSpace:

nameSpace维护着文件系统树(FileSystem Tree)和文件树上的所有文件及文件夹的元数据(metadata),并使用fsimage和editlog这两个文件来管理这些信息。fsimage(空间镜像文件),它是文件系统元数据的一个完整的永久检查点,内部维护的是最近一次检查点的文件系统树和整棵树内部的所有文件和目录的元数据,如修改时间,访问时间,访问权限,副本数据,块大小,文件的块列表信息等等。editlog(编辑日志文件),当HDFS系统发生打开、关闭、创建、删除、重命名等操作产生的信息除了在保存在内存中外,还会持久化到编辑日志文件。比如上传一个文件后,日志文件里记录的有这次事务的tx id,文件的inode id,数据块的副本数,数据块的id,数据块大小,访问时间,修改时间等。

文件Block映射信息&

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/276825
推荐阅读
相关标签
  

闽ICP备14008679号