赞
踩
众所周知,YARN可扩展到数千个节点。 YARN的可伸缩性由Resource Manager确定,并且与节点数,活跃的应用程序,活跃的容器和心跳频率成比例。降低心跳可以提高可扩展性,但对利用率有害。本文档描述了一种基于联邦(federation)的方法,通过联合多个YARN子集,将单个YARN集群扩展到数万个节点。所提出的方法是将大的(10-100k节点)集群划分为称为子集群的较小单元,每个集群具有其自己的YARN RM和计算节点。联合系统(federation system)将这些子集群拼接在一起,使它们成为应用程序的一个大型YARN集群。在此联合环境中运行的应用程序将看到单个大型YARN群集,并且能够在联合群集的任何节点上计划任务。联合系统将与子集群的Resource Manager协商并为应用程序提供资源。目标是允许单个作业无缝地“跨越”子集群。
这种设计在结构上是可扩展的,因为我们限制每个RM负责的节点数量,并且适当的策略将会保证大多数应用程序驻留在单个子集群中,因此每个RM看到的应用程序数量 也是有限的。 这意味着我们几乎可以通过简单地添加子集来线性扩展(因为它们之间需要很少的协调)。 此体系结构可以在每个子集群中提供非常严格的调度不变量来实施,而跨集群的连续重新平衡将强制这些属性在全局级别也得到尊重。
YARN Federation的主要设计思想是希望通过联合的方式让集群可以有多个SubCluster 。 每个SubCluster都是一个独立的小集群,由子集群的ResourceManager分别管理一部分节点。这些小集群共同组成一个大的YARN Federation集群,实现资源的统一管理与作业调度。
提交应用程序时,Router会找一个最合适的子集群运行应用程序,称之为应用程序的主子集群。AM与RM的所有通信都通过AM机器本地的AMRMProxy进行。理想情况下,应用程序默认会运行在资源和数据都可用的子集群上,但如果需要其他子集群节点上的资源,则AMRMProxy将与这个子集群的RM通讯请求资源。让应用程序像在一个大集群上运行。这个功能需要AMRMProxy,全局策略生成器(Global Policy Generator,GPG)和Router组合在一起使用。
具体配置在官网上可以看到,在此不介绍。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。