SecondaryNamenode不是NN的备份节点而是助手节点。通常，SecondaryNamenode 运行在一个单独的物理机上，因为合并操作需要占用大量的CPU时间以及和Namenode相当的内存。
触发SecondaryNameNode的CheckPoint的两个机制：定时时间到、edit log中数据写满；

图3-3 SecondaryNamenode工作流程

NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

4.HDFS2.0

包括高可用HA和HDFS Federation联邦。

4.1.HA架构

HDFS2.0采用了HA（High Availability，高可用）架构。在HA集群中，一般设置两个NN，其中一处于“活跃（Active）”状态，另一个处于“待命（Standby）”状态。

图4-1 HDFS高可用架构

Zookeeper负责保持系统的一致性，当活跃的NN故障，由Zookeeper进行工作的交接。

4.2.联邦架构

设计多个相互独立的NN，使得HDFS的命名服务能够水平扩展，这些NN分别进行各自命名空间和块的管理，不需要彼此协调。

每个DN要向集群中所有的NN注册，并周期性的发送心跳信息和块信息，报告自己的状态。

图4-2 HDFS联邦架构

• Block pool(块池)就是属于单个命名空间的一组block(块)

• 每个DN会为多个块池提供块的存储块池中的各个块实际上是存储在不同DN中

• DN是一个物理概念，而block pool是一个重新将block划分的逻辑概念

5.HDFS读写入数据流程

5.1.写入数据流程

图5-1 HDFS写入数据流程

5.2.读取数据流程

而读取文件的时候，NN尽量让client读取离它最近的DataNode上的副本，降低带宽消耗和读取时延。

图5-2 HDFS读取数据流程

5.3.HDFS的存储机制

5.3.1.HDFS数据副本放置策略

图5-3 当副本系数是3时的HDFS数据副本放置情况

数据块的第一个副本先放置在本地机架上的一个节点上，然后第二个副本放置在同一个机架的另一节点上，之后第三个副本放在另外的机架上的节点上。

5.3.2.HDFS的异构存储

Hadoop 从 2.4 后开始支持异构存储：

经常被计算或者读取的热数据为了保证性能需要存储在内存。
当一些数据变为冷数据后不经常会用到的数据会变为归档数据，可以使用大容量性能要差一些的存储设备来存储来减少存储成本。

①RAM_DISK内存：内存镜像文件系统(实时)

②SSD固态硬盘：SSD 盘(常读)

③DSIK磁盘：普通磁盘(平常)

④ARCHIVE高密度存储介质：归档(价值不大，但不能丢弃的数据。)

六个预配置的存储策略：

Lazy_persist：一个副本保存在内存RAM_DISK中，其余副本保存在磁盘DISK中；将副本写入RAM_DISK，然后缓慢的持久化到DISK。
ALL_SSD：所有副本都保存在SSD中。
Hot：存储和计算都热；所有副本保存在磁盘中，这也是默认的存储策略。
One_SSD：一个副本保存在SSD中，其余副本保存在磁盘DISK中。

Warm：半冷半热；一个副本保存在DISK磁盘上，其余副本保存在ARCHIVE归档存储上。

Cold：用于有限计算的存储；所有副本都保存在归档存储上。

图5-4 HDFS的LAZY_PERSIST内存存储

这样做的好处是，满足我们大部分情况是新数据更容易被读取使用。

注意：HDFS一次写入，多次读取；文件一旦写入不能修改，只能追加。

6.HDFS常用命令

配置好Hadoop集群之后，可以通过浏览器登录“http://[NameNodeIP]:50070”访问HDFS文件系统。

hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统。

hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统。

hadoop fs -ls <path>:显示<path>指定的文件的详细信息

hadoop fs -mkdir <path>:创建<path>指定的文件夹

hadoop fs -cat <path>:将<path>指定的文件的内容输出到标准输出（stdout）

hadoop fs -copyFromLocal <localsrc> <dst>:将本地源文件<localsrc>复制到路径<dst>指定的文件或文件夹中

7.补充：对象存储服务OBS

• 桶是OBS中存储对象的容器， 每个桶都有自己的存储类别、访问权限、所属区域等属性，用户在互联网上通过桶的访问域名来定位桶。

• 对象是OBS中数据存储的基本单位 ，一个对象实际是一个文件的数据与其相关属性信息的集合体，包括Key、Metadata、Data三部分。

OBS提供了数据湖的概念，即将各种类型的数据都存储在某一个桶中，存储的时候不关心将来需要怎么计算，而我们算的时候再根据各个接口提取出数据进行计算。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/408038