当前位置:   article > 正文

Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍

目前hadoop支持两种volume选择策略:round-robin 和 available space

HDFS中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。

  当我们往HDFS上写入新的数据块,DataNode 将会使用volume选择策略来为这个块选择存储的地方。目前Hadoop支持两种volume选择策略:round-robin 和 available space(详情参见:HDFS-1804),我们可以通过 dfs.datanode.fsdataset.volume.choosing.policy 参数来设置。

  循环(round-robin)策略将新块均匀分布在可用磁盘上;而可用空间( available-space )策略优先将数据写入具有最大可用空间的磁盘(通过百分比计算的)。正如下图所示:


如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop


  默认情况下,DataNode 是使用基于round-robin策略来写入新的数据块。然而在一个长时间运行的集群中,由于HDFS中的大规模文件删除或者通过往DataNode 中添加新的磁盘仍然会导致同一个DataNode中的不同磁盘存储的数据很不均衡。即使你使用的是基于可用空间的策略,卷(volume)不平衡仍可导致较低效率的磁盘I/O。比如所有新增的数据块都会往新增的磁盘上写,在此期间,其他的磁盘会处于空闲状态,这样新的磁盘将会是整个系统的瓶颈。

  最近,Apache Hadoop community开发了好几个离线的脚本(可以参见 HDFS-1312 或者 hadoop-balancer )以缓解数据不平衡问题。然而这些脚本都是在HDFS代码库之外,在执行这些脚本往不同磁盘之间移动数据的时候,需要要求DataNode处于关闭状态。结果,HDFS-1312 还引入了一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行DataNode上的磁盘数据。和现有的HDFS均衡器类似,HDFS 磁盘均衡器在DataNode中以线程的形式运行,并在相同存储类型的卷(volumes)之间移动数据。我们要注意,本文介绍的HDFS 磁盘均衡器是在同一个DataNode中的不同磁盘之间移动数据,而之前的HDFS均衡器是在不同的DataNode之间移动数据。

在下面的文章中,我将介绍如何使用这个新功能。

  让我们通过一个例子逐步探讨这个有用的功能。首先,确保所有DataNode上的 dfs.disk.balancer.enabled 参数设置成true。本例子中,我们的DataNode已经挂载了一个磁盘(/mnt/disk1),现在我们往这个DataNode上挂载新的磁盘(/mnt/disk2),我们使用 df命令来显示磁盘的使用率:

# df -h
….
/var/disk1      5.8G  3.6G  1.9G  66% /mnt/disk1
/var/disk2      5.8G   13M  5.5G   1% /mnt/disk2

从上面的输出可以看出,两个磁盘的使用率很不均衡,所以我们来将这两个磁盘的数据均衡一下。

典型的磁盘平衡器任务涉及三个步骤(通过HDFS的diskbalancer 命令):plan, execute 和 query。第一步,HDFS客户端从NameNode上读取指定DataNode的的必要信息以生成执行计划:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/627899
推荐阅读
相关标签
  

闽ICP备14008679号