当前位置:   article > 正文

Hadoop 之文件写入 && 一致模型_hdfs的coherency model

hdfs的coherency model

Hadoop 之文件写入 && 一致模型

在这里插入图片描述

Hadoop 文件写入

具体步骤如下:

1.客户端通过对 DistributedFileSystem 对象调用 create() 来新建文件

2.DistributedFileSystem 对 namenode 创建一个 RPC 调用,在文件系统的命名空间中创建一个文件,尽管此时还没有相应的数据块
namenode 执行各种不同的检查以确保这个文件不存在以及客户端有新建该文件的权限
DistributedFileSystem 向客户端返回一个 FSDataOutputStream 对象(封装了 DFSOutputStream)

3.客户端写入数据,DFSOutputStream 将数据分割成一个个数据包,并写入内部队列,称为“数据队列(data queue)”。DataStreamer 处理数据队列,负责挑选出适合存储数据副本的一组 datanode,并据此来要求 namenode 分配新的数据块
这一组 datanode 构成一个管线(pipeline)

4.DataStreamer 将数据包流式传输到管线中的第 1 个 datanode,该 datanode 存储数据包并将它发送到管线中的第 2 个 datanode。同样,第 2 个 datanode 存储该数据包并发送给管线中的第 3 个

5.DFSOutputStream 维护一个内部数据包队列等待 datanode 的收到确认回执,称为“确认队列(ack queue)”。收到管线中所有 datanode 确认信息后,该数据包才会从确认队列删除

6.客户端完成数据的写入后,对数据流调用 close() 方法。该操作将剩余的所有数据包写入 datanode 管线

7.在连接 namenode 来发送文件已经完成的信号之前就等待确认(waits for acknowledgments before contacting the namenode to signal that the file is complete),namenode 知道文件由哪些块组成,所以它在返回成功前只需等待数据块进行最小量的复制

异常情况

在数据被写入的过程中,如果任何 datanode 损坏,将会有如下的一些动作,当然这对于客户端是透明的

1.首先管线被关闭,在确认队列(ack queue)中的数据包被添加到数据队列(data queue),以至于下游的 datanodes 不会丢失任何数据包
2.当前写入失败的数据包,在好的 datanodes 中添加一个标识,通知 namenode,以便于写入错误的 datanode 在稍后恢复时,其他的数据块能够被删除
3.失败的 datanode 从管线中被移除,新的管线从剩下的两个好的 datanodes 中构建
4.剩下的数据包被写入管线中好的数据块
5.namenode 注意到块副本不足,会在其他的节点上安排一个副本
6.后续的数据包接受正常的处理

副本安置策略(replica placement)

需要对可靠性、写入带宽和读取带宽进行权衡

hadoop 的默认布局策略是在运行客户端的节点上放置第一个副本(如果客户端运行在集群之外,就随机选择一个节点,系统会避免挑选哪些存储太慢或太忙的节点)。第二个副本放在与第一个不同且随机选择的机架中节点上(不同机架)。第三个副本与第二个副本放在同一个机架上,且随机选择另一个节点。其他部分放在急群众随机选择的节点上,不过系统会尽量避免在同一个机架上放太多的副本

一旦选定副本的放置位置,就根据网络拓扑创建一个管线,如下是副本数为 3 的管线示意图

一致模型(Coherency model)

文件系统的一致模型描述了读/写的数据可见性。HDFS 为了性能牺牲了一些 Posix 要求,也就是默认情况下,写入文件的内容并不保证能立即可见,及时数据流已经刷新(调用 flush() 方法)并存储。

当写入的数据超过一个块后,第一个数据块对新的 reader 可见。当前正在写入的块对其他 reader 不可见

HDFS 提供了一种强行将所有缓存刷新到 datanode 中的手段,即调用 hflush() 方法。当 hflush() 方法返回成功后,对所有新的 reader 而言,HDFS 能保证文件中到目前为止写入的数据均达到所有 datanode 的写入管道并且对所有新的 reader 可见

hflush() 不保证数据写入磁盘,为了确保数据写入磁盘,可以使用 hsync()

选择 hflush(), hsync() 合适的调用频率

并行复制(distcp)

hadoop fs -cp 和 hadoop distcp 等效

注意 distcp 的主要参数:

-overwrite:保持同样的目录结构的同时强制覆盖原有文件
-update:仅跟新发生变化的文件
-delete:可以删除目标路径中任意没在源路径中出现的文件或目录
-p:意味着文件状态属性如权限、块大小和副本数被保留

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/592769
推荐阅读
相关标签
  

闽ICP备14008679号