赞
踩
目录
HDFS的存储原理是将大文件切分成固定大小的数据块,并在集群中的不同节点上存储数据块的副本,以提高数据的可靠性和性能。同时,HDFS采用流式的数据读写方式,减少了寻址的开销,提高了数据的传输效率。设定统一的管理单位,block块。Block块,HDFS最小存储单位,每个256MB(可以修改)
HDFS文件系统的数据安全,是依靠多个副本来确保的。
如何设置默认文件上传到HDFS中拥有的副本数量呢?可以在hdfs-site.xml中配置如下属性:
- <property>
- <name>dis.replication</name>
- <value>3</value>
- </property>
这个属性默认是3,一般情况下,我们无需主动配置(除非需要设置非3的数值)
如果需要自定义这个属性,请修改每一台服务器的hdfs-site.xml文件,并设置此属性。
hadoop fs -D dfs.replication=2 -put test.txt /tmp/
如上命令,就可以在上传test.txt的时候,临时设置其副本数为2.
hadoop fs -setrep [-R] 2 path
如上命令,指定path的内容将会被修改为2个副本存储。-R选项可选,使用-R表示对子目录也生效。
我们可以使用hdfs提供的fsck命令来检查文件的副本数
hdfs fsck path [-files [-blocks [-locations]]]
可以看到通过fsck命令我们验证了:
对于块(block),hdfs默认设置为256MB一个,也就是1GB文件会被划分为4个block存储。
块大小可以通过参数修改:
- <property>
- <name>dfs.blocksize</name>
- <value>268435456</value>
- <description>设置HDFS块大小,单位是b</description>
- </property>
如上,设置为256MB。
NameNode基于一批edits和一个fsimage文件的配合完成整个文件系统的管理和维护。
edits文件,是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对于的block。edits记录每一次HDFS的操作,逐渐变得越来越大;所以会存在多个edits文件,确保不会有超大edits的存在,保证检索性能。
将全部的edits文件,合并为最终结果,即可得到一个fsimage文件、
NameNode基于edits和fsimage的配合,完成整个文件系统文件的管理。
前边配置时已经将namenode的操作记录存放于/data/nn目录中。
对于元数据的合并,是一个定时过程,基于:
只要有一个达到条件就执行。
检查是否达到条件,默认60秒检查一次,基于:
对于元数据的合并,还记得HDFS集群有一个辅助角色:SecondaryNameNode。
SecondaryNameNode会通过http从NameNode拉取数据(edits和fsimage),然后合并完成后提供给NameNode使用。
1、对于客户端读取HDFS数据的流程中,一定要知道不论读,还是写,NameNode都不经手数据,均是客户端和DataNode直接通讯,不然对NameNode压力太大。
2、写入和读取的流程,简单来说就是:
3、网络距离
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。