当前位置:   article > 正文

简述HDFS框架_hdfs是什么技术框架

hdfs是什么技术框架

        Hadoop 分布式文件系统 (HDFS) 是一个高度容错性的系统,HDFS能提高吞吐量的数据访问,非常适合大规模数据集上的目的。HDFS放宽一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

硬件容错:
硬件故障很常见;因此,故障检测和快速自动恢复是HDFS的核心架构。
流数据访问:
        在HDFS上运行的应用程序需要队其数据进行流式访问。HDFS不是用于提供普通应用访问的文件系统,HDFS的设计更多用于批量处理,而不是用户的交互式访问。重点是数据访问的高吞吐量,而不是数据访问的低延迟。POSIX施加了许多难于为HDFS定位的应用程序所需的硬要求。POSIX语义在几个关键领域已被交易,以提高数据吞吐率。
大数据集:
        在HDFS上运行的应用程序具有较大的数据集。HDFS中的典型文件大小为千兆字节。因此,HDFS被调整为支持大文件。它应该提供高聚合数据带宽并扩展到单个集群中的数百个节点。它应该在一个实例中支持数千万个文件。
简单一致性模型:
         HDFS数据访问模式为一次写入多次读取。文件一旦创建、写入和关闭后,除了追加和截断,文件内容不再变化将内容附加到文件的末尾是受支持的,但不能随意更新。该假设简化了数据一致性问题,并实现了高吞吐量数据访问。MapReduce应用程序或Web爬虫程序应用程序与此模型完美匹配。
HDFS框架组成:
在这里插入图片描述         一个HDFS集群是由一个NameNode和一定数量的DataNodes组成。
NameNode :
        NameNode 是一个中心服务器,负责文件系统的名字空间以及客户端对文件的访问。
NameNode管理文件系统的命名空间:

  1. 文件和目录的元数据:
            文件的block副本个数; 修改和访问的时间 ; 访问权限 ; block大小及组成文件的block信息。
  2. 以两种方式在NameNode 本地进行持久化
            命名空间镜像文件(fsimage)和编辑日志(edits log)
    SecondNameNode:
    Edits log 会随着对文件系统的操作而无限制的增长,这样如果NameNode重启,就会需要很长的时间执行edits log 的记录以更新fsimage,SecondNameNode就是为解决这个问题存在的。可以在SecondNameNode中将日志和fsimage合并,并重新传说给NameNode。
    DataNode :
            集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。
    DataNode存储数据模型:
            文件线性切割成块 (Block) ; Block分散存储在集群结点中 ; 单一文件Block大小一致,文件与文件可以不一致 ; Block可以设置副本数,副本分布在不同的结点中 ; 文件上传可以设置Block大小和副本数 ; 已上传的文件副本数可以调整,大小不变 ; 只支持一次写入多次读取,同时只有一个写入者 ; 可以append追加数据 。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/685932
推荐阅读
相关标签
  

闽ICP备14008679号