赞
踩
HDFS(Hadoop Distributed File System)是Hadoop项目的一个子项目,也是Hadoop的核心组件之一。它是一个分布式文件系统,设计用于存储大型数据,如TB和PB级别的数据。
HDFS的主要特征包括:
HDFS(Hadoop Distributed FileSystem),由3个模块组成:分布式存储HDFS,分布式计算MapReduce,资源调度框架Yarn
大量的文件可以分散存储在不同的服务器上面
单个文件比较大,单块磁盘放不下,可以切分成很多小的block块,分散存储在不同的服务器上面,各服务器通过网络连接,造成一个整体。
HDFS3.x上的文件会按照128M为单位切分成一个个的block,分散存储在集群的不同的数据节点datanode上,需要注意的是,这个操作是HDFS自动完成的。hadoop当中, 文件的 block 块大小默认是 128M(134217728字节)。
假设我们现在要存储一个300M的文件,这个300M就会被切分成这128M,128M,44M三块,这时我们需要知道,就算它的底层逻辑会按照128M进行划分,可是datanode3一个实际占用44M的块也是不会占据128M的空间的。(具体情况具体分析)
#即使是某一块突然宕机也不会影响整体的运行#
HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode
并非 NameNode 的后备,当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务, 辅助 NameNode,分担其工作量, 在紧急情况下,可辅助恢复 NameNode。
1.访问端口
hdfs访问:2.x 50070 3.x 9870
运行日志:19888
yarn:8088
2.注:“-”开头是文件,“d”开头是文件夹
总的来说,HDFS是一个强大而灵活的分布式文件系统,适用于处理大规模数据存储和访问的需求。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。