赞
踩
HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写,特别是读多写少的场景。
HDFS是经典的Master和Slave架构,其关键组件包括:
NameNode(名称节点):它是HDFS的主服务器,负责管理文件系统的命名空间和客户端对文件的访问。NameNode执行文件系统的命名操作,如打开、关闭、重命名文件或目录。它不存储实际数据,但维护文件系统树及元数据(metadata)的所有信息,如文件的权限、文件的位置等信息。对于文件内容的修改也是首先通过NameNode进行协调。
DataNode(数据节点):在HDFS中,实际的数据被存储在DataNode上。这些节点根据NameNode的指示存储和检索数据块(block),并定期向NameNode报告它们所持有的数据块的列表。DataNode是HDFS的工作节点,负责处理文件系统客户端的读写请求。在HDFS中,文件被分割成一个或多个数据块,这些数据块存储在一个或多个DataNode上。
块(Block):HDFS将文件分割成块大小的多个片段,每个块默认为128MB(在早期版本中为64MB)。这样做的目的是便于在网络中分布式传输,提高系统的可靠性和效率。每个数据块在多个DataNode上有多个副本(默认情况下是三个),以实现容错。
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。