赞
踩
Hadoop 分布式文件系统 (HDFS) 是一个高度容错性的系统,HDFS能提高吞吐量的数据访问,非常适合大规模数据集上的目的。HDFS放宽一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。
硬件容错:
硬件故障很常见;因此,故障检测和快速自动恢复是HDFS的核心架构。
流数据访问:
在HDFS上运行的应用程序需要队其数据进行流式访问。HDFS不是用于提供普通应用访问的文件系统,HDFS的设计更多用于批量处理,而不是用户的交互式访问。重点是数据访问的高吞吐量,而不是数据访问的低延迟。POSIX施加了许多难于为HDFS定位的应用程序所需的硬要求。POSIX语义在几个关键领域已被交易,以提高数据吞吐率。
大数据集:
在HDFS上运行的应用程序具有较大的数据集。HDFS中的典型文件大小为千兆字节。因此,HDFS被调整为支持大文件。它应该提供高聚合数据带宽并扩展到单个集群中的数百个节点。它应该在一个实例中支持数千万个文件。
简单一致性模型:
HDFS数据访问模式为一次写入多次读取。文件一旦创建、写入和关闭后,除了追加和截断,文件内容不再变化将内容附加到文件的末尾是受支持的,但不能随意更新。该假设简化了数据一致性问题,并实现了高吞吐量数据访问。MapReduce应用程序或Web爬虫程序应用程序与此模型完美匹配。
HDFS框架组成:
一个HDFS集群是由一个NameNode和一定数量的DataNodes组成。
NameNode :
NameNode 是一个中心服务器,负责文件系统的名字空间以及客户端对文件的访问。
NameNode管理文件系统的命名空间:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。