hadoop日记2.1：hdfs设计思想和基础概念_hadoop 把网络看作是一棵树,两个节点间的距离是它们到最近共同祖先的距离和

作者：我家自动化 | 2024-03-07 11:50:27

踩

hadoop 把网络看作是一棵树,两个节点间的距离是它们到最近共同祖先的距离和

已上传word
Hdfs
HDFS设计思想与基础概念
一、概念：
HDFS是分布式文件系统，HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集的应用程序。
应用场景是海量数据（视频、网页）的可靠性存储、数据归档（视频监控领域）。
二、 Hdfs设计目标：
1. 将硬件故障当作常态而不是异常
错误检测和快速、自动的恢复是HDFS最核心的架构目标。
2. 适用于顺序数据访问
应用通常从头到尾读取文件数据
文件数据通常用于批处理任务，而不是用户交互任务
基于高度聚合的数据带宽实现了高数据吞吐量
3. 支持大规模海量数据存储
从GB级支持到EB级
支持集群的线性水平可扩展性
4. 一次写入，多次读取模型
文件在创建、写入并关闭之后不会被更改
5. 支持可移植性
除了Hadoop之外，HDFS还可以作为其它系统的存储基础设施
三、 Hdfs的特征
1. 高容错性
2. 高吞吐量
3. 适用于大文件存储
4. 适用于流式文件数据访问
5. 故障检测和自动恢复
6. 低成本——基于普通硬件集群构建
Hdfs体系结构：

一、数据块：
1. 每个磁盘都是由大量的物理磁盘块组成，是读写文件的最小单位
2. 文件系统的块一般由多个物理磁盘块（512B）组成,
3. 系统使用fs和fsck来管理维护文件系统，直接针对文件系统块操作。
4. 在hdfs上文件被划成多个块，默认大小128M
二、 Namenode和Datanode
1. HDFS采用master/slave架构。
一个HDFS集群是由一个Namenode和一组Datanodes构成
2. Namenode是一个中心服务器，负责管理文件系统的命名空间(namespace)以及处理客户端对文件的访问请求，设置HDFS保存的文件的副本数目。
3. Datanode是数据节点，负责管理它所在节点上的数据存储，在Namenode的统一调度下进行数据块的创建、删除和复制。
三、 Hdfs经典物理拓扑

四、基于块block的文件存储
1. HDFS中，文件被切分成固定大小的数据块进行存储
2. 默认的数据块大小为128

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】