当前位置: article > 正文

Hadoop核心-HDFS的架构_hdfs client

作者：小桥流水78 | 2024-08-02 07:31:40

踩

hdfs client

HDFS的架构

HDFS是一个主从（Master/Slave）体系结构
HDFS由四部分组成，HDFS Client、NameNode、DataNode和Secondary NameNode。
在这里插入图片描述
1、Client：就是客户端
文件切分：文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储。
与NameNode交互：获取文件的位置信息
与DataNode交互：读取或者写入数据
Client提供一些命令来访问和管理HDFS，比如启动或者关闭HDFS

2、NameNode：
就是Master，它是一个主管、管理者
管理HDFS的名称空间
管理数据块（Block）映射信息
配置副本策略
处理客户端读写请求

3、DataNode：
就是Slave，NameNode下达命令，DataNode执行实际操作
存储实际的数据块
执行数据块的实际操作

4、Secondary NameNode：
并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务
辅助NameNode，分担其工作量
定期合并fsimage和fsedits，并推送给NameNode
在紧急情况下，可辅助恢复NameNode

1、NameNode和DataNode

1.1、NameNode作用

NameNode在内存中保存着整个文件系统的名称空间和文件数据块的地址映射
整个HDFS可存储的文件数受限于NameNode的内存大小

（1）NameNode元数据信息
文件名，文件目录结构，文件属性（生成时间，副本数，权限）每个文件的块列表。以及列表中的块与块所在的DataNode之间的地址映射关系在内存中加载文件系统中的每个文件和每个数据块的引用关系（文件、block、datanode之间的映射信息）数据会定期保存到本地磁盘（fslmage文件和edits文件）

（2）NameNode文件操作
NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，数据流不经过NameNode，会询问它跟哪个DataNode联系。

（3）NameNode副本
文件数据块到底存放到哪些DataNode上，是由NameNode决定的， NN根据全局情况做出放置副本的决定。

（4）NameNode心跳机制
全权管理数据块的复制，周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接受到心跳信息，NameNode认为DataNode工作正常，如果在10分钟后还接受到不到DN的心跳，那么NameNode认为DataNode已经宕机 ,这时候NN准备要把DN上的数据块进行重新的复制。块的状态报告包含了一个DN上所有数据块的列表，blocks report每个1小时发送一次.

1.2、DataNode的作用

提供真实文件数据的存储服务
（1）DataNode以数据块的形式存储HDFS文件
（2）DataNode相应HDFS客户端的读写请求
（3）DataNode周期性的向NameNode汇报心跳信息
（4）DataNode周期性的向NameNode汇报数据块信息
（5）DataNode周期性的向NameNode汇报缓存数据块信息
在这里插入图片描述
备注：若经常被访问的数据，NameNode会将他放入到块缓存中，也就是内存中，提高访问速度
元数据：其实就是图中的a.txt的元数据信息下面的那些数据信息
因为文件的元数据都是存在namenode的内存中，所以一关机，元数据信息就会丢失，这时数据会定期保存到本地磁盘（就是fslmage文件和edits文件）

以上内容仅为个人学习记录，有错误请大家指出来，希望大家可以一起学习一起记录一起进步！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/917755