赞
踩
总体来说,A系列定位高性能AI训练;H系列是最强AI超算;L系列是边缘AI推理;V系列服务于虚拟桌面;T系列提供AI推理加速。
在了解了 GPU 的这些核心参数之后,我们再来看看 NVIDIA GPU 架构的演进。
NVIDIA H100 采用 NVIDIA Hopper GPU 架构,使 NVIDIA 数据中心平台的加速计算性能再次实现了重大飞跃。H100 采用专为 NVIDIA 定制的 TSMC 4N 工艺制造,拥有 800 亿个 晶体管,并包含多项架构改进。
H100 是 NVIDIA 的第 9 代数据中心 GPU,旨在为大规模 AI 和 HPC 实现相比于上一代 NVIDIA A100 Tensor Core GPU 数量级的性能飞跃。H100 延续了 A100 的主要设计重点,可提升 AI 和 HPC 工作负载的强大扩展能力,并显著提升架构效率。
H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构而构建。由于引入了 FP8,与 A100 相比,H100 SM 将每 SM 浮点计算能力峰值提升了 4 倍,并且对于之前所有的 Tensor Core 和 FP32 / FP64 数据类型,将各个时钟频率下的原始 SM 计算能力增加了一倍。
与上一代 A100 相比,采用 Hopper 的 FP8 Tensor Core 的新 Transformer 引擎使大型语言模型的 AI 训练速度提升 9 倍,AI 推理速度提升 30 倍。针对用于基因组学和蛋白质测序的 Smith-Waterman 算法,Hopper 的新 DPX 指令可将其处理速度提升 7 倍。
Hopper 新的第四代 Tensor Core、Tensor 内存加速器以及许多其他新 SM 和 H100 架构的总体改进,在许多其他情况下可令 HPC 和 AI 性能获得最高 3 倍的提升。
与 A100 相比,H100 中新的第四代 Tensor Core 架构可使每时钟每个 SM 的原始密集计算和稀疏矩阵运算吞吐量提升一倍,考虑到 H100 比 A100 拥有更高的 GPU 加速频率,其甚至会达到更高的吞吐量。其支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。新的 Tensor Core 还能够实现更高效的数据管理,最高可节省 30% 的操作数传输功耗。
作为H100的替代品,中国特供版H800,PCle版本SXM版本都是在双精度 (FP64) 和vlink传输速率的削减,其他其他参数和H100都是一模一样的。
FP64上的削弱主要影响的是H800在科学计算,流体计算,有限元分析等超算领域的应用,深度学习等应用主要看单精度的浮点性能,大部分场景下性能不受影响。而受到影响较大的还是NVlink上的削减,但是因为架构上的升级,虽然比不上同为Hopper架构的H100,但是比ampere架构的A800还是要强上不少的。
所以其实H800和H100的性能差距并没有大家想象的那么夸张,就算是削弱了FP64与NVlink传输速率,性能依旧够用,最关键的是,它合法呀(禁售,质保等问题就不在此细说了)!所以如果不是应用于超算的话也没必要冒着风险去选择H100。
H800-GPU 可为大模型训练、自动驾驶,深度学习等提供高性能、高带宽和低延迟的集群算例根据腾讯云°新一代集群的实测数据显示,在面对万亿参数的 AI 大模型训练时,之前需要时间为11 天,而在 H800 的加持下,新一代集群,训练时间可缩短至 4 天,证明了最新代 H800 比A800 的高强悍性,有更高的性能,在任务处理上以最快速度处理,进一步证明了,H800 在大模型训练只领域有充分的地位以及能力。
L40最高300W,L40S最高350W,两者都是同属于英伟达Ada Lovelace 架构,48GB支持ECC的GDDR6显存,两者的显存带宽都是864GB/S,L40S作为L40的升级版本,主要在FP32运算能力提示幅度为1.1TFLOPS,在TF32 Tensor Core TFLOPS、FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Core运算能力均提升 一倍左右。
两者都支持虚拟化设定,虚拟化的显存可以设置成 GPU 1 GB, 2 GB, 3 GB, 4 GB, 6 GB, 8 GB, 12 GB, 16 GB, 24 GB, 48 GB。
性能方面 NVIDIA L40S GPU 是一款适用于数据中心的功能强大的通用型 GPU,可为下一代AI 应用提供端到端加速服务 ‒ 从生成式 AI 以及模型训练和推理到 3D 图形、渲染和视频应用。AI 训练上 8 片 A100 80GB 与搭载了 4 片 L40S GPU 两套系统对比 GPT-408 LoRA (相对性能) L40S性能是A100的 0.7倍,生成式 AI Stable Diffusion 画图上 默认512x512图片生成,L40S性能是A100的 0.2倍。
NVIDIA L40 GPU特别适用于数据中心的各种计算密集型工作负载,例如AI的训练和推理、流媒体制作、数据科学和图形应用。
价格方面:L40S在亚马逊上的价格大约在$13000美金附近,L40价格在亚马逊上的价格在$7900美金附近,L40S的价格与A100 80GB的价格大致相同,L40S的缺点是不能使用Nvlink进行互联,但是可以通过系统工具实现4卡同时工作,AI性能上比A100 8卡更高,L40可以使用Nvlink进行双卡显存共享实现96GB显存
最后我们对上面进行总结一下:L40S是L40GPU的升级版本,在CUDA核心和显存容量不变的情况下实现了性能的增长,如果需要进行AI训练和推理那么选择L40S会更好,如果不需要更强的AI性能可以选择L40GPU,同时采购成本更低。
在散热方向上面,涡轮卡散热方向是朝尾部散热,并于服务器风向是一致的,而风扇卡的散热是朝四面八方来散热的,平常的PC机箱放一张是可以适应的,但用作服务器上(很多时候是多卡)就不适合了,很容易因为温度过热出现宕机。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。