当前位置:   article > 正文

Hadoop核心-HDFS的架构_hdfs client

hdfs client

HDFS的架构

HDFS是一个主从(Master/Slave)体系结构
HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。
在这里插入图片描述
1、Client:就是客户端
文件切分:文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行存储。
与NameNode交互:获取文件的位置信息
与DataNode交互:读取或者写入数据
Client提供一些命令来访问和管理HDFS,比如启动或者关闭HDFS

2、NameNode:
就是Master,它是一个主管、管理者
管理HDFS的名称空间
管理数据块(Block)映射信息
配置副本策略
处理客户端读写请求

3、DataNode:
就是Slave,NameNode下达命令,DataNode执行实际操作
存储实际的数据块
执行数据块的实际操作

4、Secondary NameNode:
并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务
辅助NameNode,分担其工作量
定期合并fsimage和fsedits,并推送给NameNode
在紧急情况下,可辅助恢复NameNode

1、NameNode和DataNode

1.1、NameNode作用

NameNode在内存中保存着整个文件系统的名称空间和文件数据块的地址映射
整个HDFS可存储的文件数受限于NameNode的内存大小

(1)NameNode元数据信息
文件名,文件目录结构,文件属性(生成时间,副本数,权限)每个文件的块列表。以及列表中的块与块所在的DataNode之间的地址映射关系 在内存中加载文件系统中的每个文件和每个数据块的引用关系(文件、block、datanode之间的映射信息)数据会定期保存到本地磁盘(fslmage文件和edits文件)

(2)NameNode文件操作
NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,数据流不经过NameNode,会询问它跟哪个DataNode联系。

(3)NameNode副本
文件数据块到底存放到哪些DataNode上,是由NameNode决定的, NN根据全局情况做出放置副本的决定。

(4)NameNode心跳机制
全权管理数据块的复制,周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接受到心跳信息,NameNode认为DataNode工作正 常,如果在10分钟后还接受到不到DN的心跳,那么NameNode认为DataNode已经宕机 ,这时候NN准备要把DN上的数据块进行重新的复制。块的状态报告包含 了一个DN上所有数据块的列表,blocks report每个1小时发送一次.

1.2、DataNode的作用

提供真实文件数据的存储服务
(1)DataNode以数据块的形式存储HDFS文件
(2)DataNode相应HDFS客户端的读写请求
(3)DataNode周期性的向NameNode汇报心跳信息
(4)DataNode周期性的向NameNode汇报数据块信息
(5)DataNode周期性的向NameNode汇报缓存数据块信息
在这里插入图片描述
备注:若经常被访问的数据,NameNode会将他放入到块缓存中,也就是内存中,提高访问速度
元数据:其实就是图中的a.txt的元数据信息下面的那些数据信息
因为文件的元数据都是存在namenode的内存中,所以一关机,元数据信息就会丢失,这时数据会定期保存到本地磁盘(就是fslmage文件和edits文件)

以上内容仅为个人学习记录,有错误请大家指出来,希望大家可以一起学习一起记录一起进步!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/917755
推荐阅读
相关标签
  

闽ICP备14008679号