当前位置:   article > 正文

Hadoop大数据入门到实战(第四节) - HDFS文件系统(使用)_hadoop创建目录的方法为

hadoop创建目录的方法为

这一小节我们来学习:1.HDFS的设计,2.HDFS常用命令。

HDFS的设计
分布式文件系统

客户:帮我保存一下这几天的数据。

程序猿:好嘞,有多大呢?

客户:1T。

程序猿:好没问题,买个硬盘就搞定了。

一个月后…

客户:帮我保存下这几个月的数据。

程序猿:好嘞,这次有多大呢?

客户:1024T。

哇,这么大吗?没有这么大的硬盘买呀,而且好像也没听过一台计算机可以存放1024T的数据。

程序猿:哦,对了我可以部署1024台机器,然后将他们连接起来,让他们的数据可以共享,这不就可以了吗?hh,机智如我。

当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称为分布式文件系统(Distributed FileSystem)。

Hadoop自带一个称为HDFS的分布式文件系统,即 HDFS(Hadoop Distributed FileSystem)。有时也称之为DFS,他们是一回事儿,

NameNode与DataNode

HDFS的构建思路是这样的:一次写入多次读取不可修改,这也是最高效的访问模式。

客户:你把1024台机器都组成了分布式文件系统,我要查数据,下载数据该怎么做呢?

程序猿:我准备了一套专门管理这些数据的工具,叫做namenode,您要查数据直接访问它就可以啦。

HDFS有两类节点用来管理集群的数据,即一个namenode(管理节点)和多个datanode(工作节点)。namenode管理文件系统的命名空间,它维护着系统数及整棵树内所有的文件和目录,这些信息以两个形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件,namenode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/734153
推荐阅读
相关标签
  

闽ICP备14008679号