当前位置:   article > 正文

HDFS读写流程_hdfs的读写流程

hdfs的读写流程

HDFS的读数据流程

  • 1.客户端向NameNode请求读文件,NameNode通过查询元数据,找到文件块所在的DataNode地址,并返回地址给客户端
  • 2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据
  • 3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以packet为单位校验)
  • 4.客户端以packet为单位接收,先在本地缓存,然后写入目标文件
  • 5.关闭资源

HDFS的写数据流程

  • 1.首先客户端向NameNode请求上传文件
  • 2.然后NameNode检查目录树是否可以创建文件(检查权限——是否允许上传,检查目录结构是否存在)。当都通过的时候响应客户端,反馈可以上传文件
  • 3.客户端接收到可以上传文件的允许后,切分Block块,向NameNode请求上传第一个Block,上传到哪几个DataNode
  • 4.NameNode进行计算,选择副本存储节点,第一个选择的是本地节点,第二个选择的是其他机架的一个节点,第三个是其他机架的另一个节点(默认三个副本存储节点)。并把这三个节点返回给客户端(dn1、dn2、dn3)
  • 5.客户端拿到这三个节点后,创建一个流,向离的最近的一个节点(dn1)进行请求建立Block传输通道,而最近的节点(dn1)会向另外的节点(dn2)进行请求建立通道,另外的节点(dn2)会向第三个节点请求传输通道(dn3)
  • 6.三个节点接收到请求建立通道后,逐一进行应答客户端
  • 7.客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet后就会复制一份并传给dn2,dn2传给dn3
  • 8.最后一个datanode成功存储之后会返回一个ack数据包,在pipeline里传递至客户端,在客户端的内部维护着"ack queue",会将返回的ack进行对比,只要有一个DataNode的ack能匹配上,就认为本次写入是成功的。
  • 9.当一个 Block 传输完成之后,客户端再次请求 NameNode 上传第二个 Block 的服务器。(重复执行 3-7 步)
  • 10.传输完毕之后,客户端关闭流资源,并且会告诉hdfs数据传输完毕,然后hdfs收到传输完毕就恢复元数据

DataNode写入数据失败处理流程

  • pipeline被关闭,在确认队列中剩下的包会被添加进数据队列的起始位置上,以至于在失败的节点下游的任何节点都不会丢失任何的包。
  • 之后与NameNode练习后,当前在一个好的DataNode会联系NameNode,给失败节点上还未写完的块生成一个新的标识ID,以至于如果这个失败的DataNode不久后恢复了,这个不完整的块会被删除。
  • 失败节点从pipeline中移除,之后剩下来好的DataNode会组成一个新的pipeline,剩下的这些块(刚刚放进数据队列队首的包)会继续写进pipeline中好的DataNode中。
  • 最后,NameNode注意到备份数小于规定的备份数,它就安排在另一个节点上创建完成备份,直接从已有的块中复制就好了。直到满足了备份数。如果有多个节点写入失败了,如果满足了最小备份数的设置,写入也将成功,之后剩下的备份会被集群异步的执行备份,直到满足了备份数。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/456149
推荐阅读
相关标签
  

闽ICP备14008679号