赞
踩
01、术语与基础
大模型训练采用集群式架构,每台主机配备 8 块高性能 GPU,包括 A100、A800、H100、H800 四种机型。其中,典型 8*A100 GPU 主机内部硬件架构如下:
| 典型 8 卡 A100 主机硬件拓扑
PCIe 交换芯片
PCIe 技术:高效互联
PCIe 总线连接支持 PCIe 的设备,如 CPU、内存、NVME、GPU 和网卡,实现高效的数据传输。
最新一代 PCIe Gen5 提供卓越性能,通过 PCIe 交换芯片实现多设备互联。
NVLink
>定义
Wikipedia 上 NVLink 上的定义:
NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).
简单总结:同主机内不同 GPU 之间的一种高速互联方式:
NVIDIA NVLink 演进
NVLink 连接技术的演进主要体现在单条链路的 Lane 数量和每个 Lane 的双向带宽上:
| NVLink 版本 | Lane 数量 | Lane 带宽 (Gb/s) |
| 第一代 | 20 | 8 |
| 第二代 | 24 | 12 |
| 第三代 | 24 | 25 |
| 第四代 | 36 | 50 |
DCGM 监视工具提供实时 NVLink 带宽数据,帮助您:
- 跟踪 GPU 之间的通信
- 优化性能并避免瓶颈
- 确保流畅顺畅的运算
NVSwitch
还是参考下图:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。