赞
踩
HDFS时为以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件集群上运行。
HDFS以块为单位保存文件,在Hadoop2.x版本中块的大小默认为128M(在hadoop1.x中64M,通过dfs.blocksize规定)。一个小于块大小的文件不会占据整个块空间。
HDFS中块比磁盘大,目的是减少寻址开销,从而传输一个由多个块组成的文件的时间就取决于磁盘的传输速率。
如果块设计的太大,传输数据时间会增大;如果块设计的太小,会增加寻址时间。
块大小的设计原则:寻址时间为传输时间的1%
目前磁盘的传输速率普遍为100MB/s,若希望寻址时间在10ms以内,那么传输时间为1s,Block大小为100MB,取2的整数次幂得到128MB。
HDFS集群有两种节点,以Master-Slave模式运行。
NameNode作用:管理整个文件系统的命名空间;配置副本策略;管理Block的映射信息;处理客户端读写请求
SeconaryNameNode作用:复制NameNode,定期合并Fsimage,Edits;辅助恢复NameNode
NameNode中并不保留Block的位置信息,而是DataNode启动后定期汇报。
工作机制:
Secondary NameNode恢复NameNode的方法:
hdfs namenode -importCheckpoint
启动NameNode守护进程,从而将SecondaryNameNode中数据拷贝到NameNode目录中集群安全模式:
作用:储存实际数据块;执行读写操作
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。