赞
踩
任务描述
本关任务:使用Hadoop
命令来操作分布式文件系统。
相关知识
为了完成本关任务你需要了解的知识有:1.HDFS
的设计,2.HDFS
常用命令。
HDFS的设计
分布式文件系统
客户:帮我保存一下这几天的数据。
程序猿:好嘞,有多大呢?
客户:1T
。
程序猿:好没问题,买个硬盘就搞定了。
一个月后...
客户:帮我保存下这几个月的数据。
程序猿:好嘞,这次有多大呢?
客户:1024T
。
程序猿:哇,这么大吗?没有这么大的硬盘买呀,而且好像也没听过一台计算机可以存放1024T
的数据。
程序猿:哦,对了我可以部署1024
台机器,然后将他们连接起来,让他们的数据可以共享,这不就可以了吗?hh
,机智如我。
当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称为分布式文件系统(Distributed FileSystem
)。
Hadoop
自带一个称为HDFS
的分布式文件系统,即HDFS
(Hadoop Distributed FileSystem
)。有时也称之为DFS
,他们是一回事儿。
NameNode与DataNode
HDFS
的构建思路是这样的:一次写入,多次读取,不可修改,这也是最高效的访问模式。
客户:你把1024
台机器都组成了分布式文件系统,我要查数据,下载数据该怎么做呢?
程序猿:我准备了一套专门管理这些数据的工具,叫做namenode
,您要查数据直接访问它就可以啦。
HDFS
有两类节点用来管理集群的数据,即一个namenode(管理节点)和多个datanode(工作节点)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。