当前位置:   article > 正文

高性能GPU服务器集群拓扑及组网方案_gpu集群 搭建实施方案

gpu集群 搭建实施方案

 ff28b7e4254ec783d000e3d9e4398020.jpeg

高性能GPU服务器硬件拓扑与集群组网

   

2434dff4db2ff23261ea56aaadc15c63.jpeg


01、术语与基础

模型训练采用集群式架构,每台主机配备 8 块高性能 GPU,包括 A100、A800、H100、H800 四种机型。其中,典型 8*A100 GPU 主机内部硬件架构如下:

b92e5672c86d613ad3e44f20ffaaefce.jpeg| 典型 8 卡 A100 主机硬件拓扑

 PCIe 交换芯片

PCIe 技术:高效互联
PCIe 总线连接支持 PCIe 的设备,如 CPU、内存、NVME、GPU 和网卡,实现高效的数据传输。
最新一代 PCIe Gen5 提供卓越性能,通过 PCIe 交换芯片实现多设备互联。

NVLink

>定义
Wikipedia 上 NVLink 上的定义:
NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).
简单总结:同主机内不同 GPU 之间的一种高速互联方式:

  1. 是一种短距离通信链路,保证包的成功传输,更高性能,替代 PCIe,
  2. 支持多 lane,link 带宽随 lane 数量线性增长,
  3. NVLink 直接连接同一节点内的 GPU,形成类似 spine-leaf 的全网格网状结构,提供快速、低延迟的通信。
  4. NVIDIA 专利技术。

NVIDIA NVLink 演进
NVLink 连接技术的演进主要体现在单条链路的 Lane 数量和每个 Lane 的双向带宽上:
| NVLink 版本 | Lane 数量 | Lane 带宽 (Gb/s) |

| 第一代 | 20 | 8 |
| 第二代 | 24 | 12 |
| 第三代 | 24 | 25 |
| 第四代 | 36 | 50 |

  • A100 具备强大的 600GB/s 双向带宽,由 12 个 NVSwitch 组成,每个 NVSwitch 提供 50GB/s 的瞬时带宽。这相当于每个 GPU 可访问高达 300GB/s 的单向带宽,实现 GPU 与 NVSwitch 之间高速数据传输。
  • A800 拥有 8 条高速通道,每条通道带宽高达 50GB/s,提供高达 400GB/s 的双向带宽(单向 200GB/s)。

DCGM 监视工具提供实时 NVLink 带宽数据,帮助您:
- 跟踪 GPU 之间的通信
- 优化性能并避免瓶颈
- 确保流畅顺畅的运算

NVSwitch

还是参考下图:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/693743
推荐阅读
相关标签
  

闽ICP备14008679号