赞
踩
为了高效、协同地利用全网异构的算力资源,由运营商、设备商等主导提出一种基于分布式系统的计算与网络融合的技术方案——算力网络。算力网络(CFN,Computing First Networking)是随着以云计算为代表的传统算力时代算力资源中心化逐渐下沉到边缘行业发展趋势下的一种新算力资源解决方案,其将边缘计算节点、云计算节点以及含广域网在内的各类网络资源融合,通过对云计算节点的计算、存储资源、广域网的网络资源进行协同并可以根据业务特性提供灵活、可调度的按需服务的基础设施架。
算力度量和算力建模是算力网络底层的技术基石,如何在网络中有效地对算力进行标识和度量是算网融合发展的第一步。对于算力如何度量和表示,业界一直在不断地探索。不同于传统的硬件计算资源度量,算网融合过程中算力的度量不仅依赖中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)等处理单元以及内存、硬件等存储资源,还与业务类型、节点的通信能力等息息相关,可以说作为算网融合发展的基础,如何构建统一的算力资源模型及算力需求模型、实现算力的一致化表达是算力度量与算力建模的关键问题。
根据运行算法的数据类型的不同,功能上将算力分为三大类,逻辑运算能力、并行计算能力和神经网络计算能力。
(1) 逻辑运算能力。这种计算能力是一种通用的基础运算能力。硬件芯片代表是中央处理器(CPU),这类芯片需要大量的空间去放置存储单元和控制单元。相比之下,计算单元只占据了很小的一部分。 因此,它在大规模并行计算能力上很受限制,但可以用于逻辑控制。一般 情况下,TOPS(表示处理器每秒钟可 进行一万亿次操作)被用来衡量运算能力。在某些情况下,能效比TOPS/W(表示在1 W功耗的情况下,处理器能进行多少次操作)、MIPS也可被作为评价处理器运算能力的一个性能指标。
(2) 并行计算能力。并行计算能力是指专门为了处理如图形图像等数据类型统一的一种高效计算能力,是一种比较通用的计算能力。这种计算能力特别适合处理大量的类型统一的数据,不仅在图形图像处理领域大显身手,同时还适用于科学计算、密码破解、数值分析、海量数据处理(排序、Map-Reduce等)、金融分析等领域。典型的硬件芯片代表是英伟达推的图形处理单元(GPU)。GPU的构成相对简单,有数量众多的计算单元和超长的流水线。浮点运算能力常被作为并行计算的度量标准。单位TFLOPS/s可以简单写为T/s,意 思是一万亿次浮点指令每秒。此外,相关单位还有MFLOPS、GFLOPS、 PFLOPS。
(3) 神经网络计算能力。 神经网络计算能力主要用于AI神经网络、机器学习类密集计算型业务,是一种用来对机器学习、神经网络等进行加速的计算能力。近年来,厂商发布的AI类芯片都是为加速神经网络计算而设计的, 例如华为技术有限公司的网络处理器(NPU)Google公司的张量处理单元(TPU)。另外,机器学习、神经网络的本质是密集计算。对于神经网络计算能力的衡量,不同的芯片出厂商往往具有不同的测试程序。目前,这类能力常用的度量单位也是浮点计算能力FLOPS。
对于计算节点的度量,有使用一些设计好的基准程序,通过基准程序有效的协调设备不同部件之间的运行,以完成指定任务的完成时间作为计算节点的算力度量。一种度量策略思想是,将计算节点算力看成一个三维向量(逻辑运算能力,并行运算能力,神经网络计算能力),然后对每一维度,通过度量函数映射到统一量纲。若计算节点存在n个逻辑芯片、m个并行计算芯片和p个神经网络计算芯片,那么算力度量模型为:
另外一种度量策略,在第一种策略的基础之上,按照固定比例系数将三种不同类型的算力进行统一度量:
类似的,算力业务在算力网络中的算网资源信息 可通过某种与算力、存力、算法、路由以及算效相关的数学模型来表示:
式中:T为存力;X为算法能力,包括算法类型和复杂度等;P代表算网路由,包含路由协议、协议配置等信息;ψ为算效,用于算力配置策略验证。
研究提出了一种先静后动的混合式度量方案(hybrid metric method, HMM)。先计算算力节点的基础性能分数,将分数合理分段,最后在段内找到合适的算力节点。
Fig. 1 The workflow of HMM
图 1 HMM的工作流程
HMM工作流程:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。