Hadoop大数据入门到实战（第四节） - HDFS文件系统（使用）_hadoop创建目录的方法为

作者：Gausst松鼠会 | 2024-06-18 07:12:53

踩

hadoop创建目录的方法为

这一小节我们来学习：1.HDFS的设计，2.HDFS常用命令。

HDFS的设计

分布式文件系统

客户：帮我保存一下这几天的数据。

程序猿：好嘞，有多大呢？

客户：1T。

程序猿：好没问题，买个硬盘就搞定了。

一个月后…

客户：帮我保存下这几个月的数据。

程序猿：好嘞，这次有多大呢？

客户：1024T。

哇，这么大吗？没有这么大的硬盘买呀，而且好像也没听过一台计算机可以存放1024T的数据。

程序猿：哦，对了我可以部署1024台机器，然后将他们连接起来，让他们的数据可以共享，这不就可以了吗？hh，机智如我。

当数据集的大小超过一台独立的物理计算机的存储能力时，就有必要对它进行分区并存储到若干台单独的计算机上，管理网络中跨多台计算机存储的文件系统称为分布式文件系统（Distributed FileSystem）。

Hadoop自带一个称为HDFS的分布式文件系统，即 HDFS（Hadoop Distributed FileSystem）。有时也称之为DFS，他们是一回事儿，

NameNode与DataNode

HDFS的构建思路是这样的：一次写入，多次读取，不可修改，这也是最高效的访问模式。

客户：你把1024台机器都组成了分布式文件系统，我要查数据，下载数据该怎么做呢？

程序猿：我准备了一套专门管理这些数据的工具，叫做namenode，您要查数据直接访问它就可以啦。

HDFS有两类节点用来管理集群的数据，即一个namenode（管理节点）和多个datanode（工作节点）。namenode管理文件系统的命名空间，它维护着系统数及整棵树内所有的文件和目录，这些信息以两个形式永久保存在本地磁盘上：命名空间镜像文件和编辑日志文件，namenode也记录着每个文件中各个块所在的数据节点信息，但它并不永久保存块的位置信息

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】