2023面试高手

这个屌丝很懒，什么也没留下！

热门标签

英伟达(NVIDIA)显卡-A100/A800/H100/H800/L40/L40S/4090风扇卡/4090涡轮卡_nvidia l40与4090性能比较

作者：2023面试高手 | 2024-06-03 03:05:51

踩

nvidia l40与4090性能比较

英伟达(NVIDIA)显卡

类型

NVIDIA的显卡目前可以按照应用领域大致分为三种类型

面向游戏娱乐领域。 GeForce RTX™系列

GeForce RTX™系列英伟达面向大众消费级游戏和创作者用户的图形加速卡。如RTX 3090、RTX 4090等。这类产品在性能、功耗和成本之间达到最佳平衡点,能带来极致的游戏和创作体验。

面向专业设计和虚拟化领域。NVIDIA RTX™系列

NVIDIA RTX™系列系列是英伟达面向专业可视化和创意工作负载的高性能 GPU,提供强大的计算性能、大容量视频内存、硬件编码解码引擎等。定位服务于工业设计、建筑设计、影视特效渲染等专业工作站用户。RTX系列是高端的专业可视化工作站级显卡。

面向深度学习、人工智能和高性能计算领域。A、H、L、V、T

NVIDIA英伟达的A系列、H系列、L系列、V系列、T系列产品线主要区别和定位如下:

A 系列:

英伟达AI计算加速器系列。代表产品包括 A100、A30和A40等用于数据中心AI训练和推理的高性能加速卡。采用Ampere、Hopper等顶级架构。

H 系列:

AI超算系列。首款产品是H100推理加速卡。代表了最高级的AI计算平台,通常搭载数以千计的A系列加速卡,提供巨大AI计算能力。

L系列:

英伟达专为AI推理而设计的经济高效产品线。如L40和DeepStream系列加速器,应用于边缘AI。

V系列:

英伟达虚拟工作站(vWS)系列,支持虚拟化的专业显卡产品线,用于云端的设计师和工程师。

T系列:

英伟达TensorRT系列,是针对AI推理进行软件和硬件协同优化的解决方案,包括了软件栈、开发工具链和加速引擎。

总体来说,A系列定位高性能AI训练;H系列是最强AI超算;L系列是边缘AI推理;V系列服务于虚拟桌面;T系列提供AI推理加速。

A100、A800、H100、H800、L40、L40S、4090(公版涡轮版)

在了解这几款 GPU 的区别之前，我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

GPU 的核心架构及参数

CUDA Core：CUDA Core 是 NVIDIA GPU上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。
Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如Ampere架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如矩阵乘法和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。
RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

在了解了 GPU 的这些核心参数之后，我们再来看看 NVIDIA GPU 架构的演进。

在这里插入图片描述

N卡主流型号对比

在这里插入图片描述

A100 vs H100

NVIDIA H100 采用 NVIDIA Hopper GPU 架构，使 NVIDIA 数据中心平台的加速计算性能再次实现了重大飞跃。H100 采用专为 NVIDIA 定制的 TSMC 4N 工艺制造，拥有 800 亿个晶体管，并包含多项架构改进。
H100 是 NVIDIA 的第 9 代数据中心 GPU，旨在为大规模 AI 和 HPC 实现相比于上一代 NVIDIA A100 Tensor Core GPU 数量级的性能飞跃。H100 延续了 A100 的主要设计重点，可提升 AI 和 HPC 工作负载的强大扩展能力，并显著提升架构效率。

新的 SM 架构

H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构而构建。由于引入了 FP8，与 A100 相比，H100 SM 将每 SM 浮点计算能力峰值提升了 4 倍，并且对于之前所有的 Tensor Core 和 FP32 / FP64 数据类型，将各个时钟频率下的原始 SM 计算能力增加了一倍。
与上一代 A100 相比，采用 Hopper 的 FP8 Tensor Core 的新 Transformer 引擎使大型语言模型的 AI 训练速度提升 9 倍，AI 推理速度提升 30 倍。针对用于基因组学和蛋白质测序的 Smith-Waterman 算法，Hopper 的新 DPX 指令可将其处理速度提升 7 倍。

请添加图片描述

第四代 Tensor Core 架构

Hopper 新的第四代 Tensor Core、Tensor 内存加速器以及许多其他新 SM 和 H100 架构的总体改进，在许多其他情况下可令 HPC 和 AI 性能获得最高 3 倍的提升。
与 A100 相比，H100 中新的第四代 Tensor Core 架构可使每时钟每个 SM 的原始密集计算和稀疏矩阵运算吞吐量提升一倍，考虑到 H100 比 A100 拥有更高的 GPU 加速频率，其甚至会达到更高的吞吐量。其支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型。新的 Tensor Core 还能够实现更高效的数据管理，最高可节省 30% 的操作数传输功耗。

请添加图片描述

Hopper FP8 数据格式

H100 GPU 增加了 FP8 Tensor Core，可加速 AI 训练和推理。FP8 Tensor Core 支持 FP32 和 FP16 累加器，以及两种新的 FP8 输入类型：E4M3（具有 4 个指数位、3 个尾数位和 1 个符号位）和E5M2（具有 5 个指数位、2 个尾数位和 1 个符号位）。E4M3 支持动态范围更小、精度更高的计算，而 E5M2 可提供更宽广的动态范围和更低的精度。与 FP16 或 BF16 相比，FP8 可将所需要的数据存储空间减半，并将吞吐量提升一倍。
新的 Transformer 引擎可结合使用 FP8 和 FP16 精度，减少内存使用并提高性能，同时仍能保持大型语言模型和其他模型的准确性。

请添加图片描述

综合 H100 中所有新的计算技术进步的因素，H100 的计算性能比 A100 提高了约 6 倍。首先是 H100 配备 132 个 SM，比 A100 的 108 个 SM 增加了 22%。由于采用新的第四代 Tensor Core，每个 H100 SM 的速度都提升了 2 倍。在每个 Tensor Core 中，新的 FP8 格式和相应的 Transformer 引擎又将性能提升了 2 倍。最后，H100 中更高的时钟频率将性能再提升了约 1.3 倍。通过这些改进，总体而言，H100 的峰值计算吞吐量大约为 A100 的 6 倍。

请添加图片描述

A800 和 H800

A800 和 H800,从型号上看，莫非它们的性能是 A100、H800 的好几倍？事实不然。虽然从数字上来看，800 比 100 数字要大，其实是为了合规对 A100 和 H100 的某些参数做了调整。A800 相对比 A100 而言，仅限制了 GPU 之间的互联带宽，从 A100 的 600GB/s 降至 400GB/s，算力参数无变化。而 H800 则对算力和互联带宽都进行了调整。

请添加图片描述

A800 虽然在互联带宽上有所降低，但和 A100 在双精方面算力一致，在高性能科学计算领域没有影响。

H800 VS H100

作为H100的替代品，中国特供版H800，PCle版本SXM版本都是在双精度 (FP64) 和vlink传输速率的削减，其他其他参数和H100都是一模一样的。
FP64上的削弱主要影响的是H800在科学计算，流体计算，有限元分析等超算领域的应用，深度学习等应用主要看单精度的浮点性能，大部分场景下性能不受影响。而受到影响较大的还是NVlink上的削减，但是因为架构上的升级，虽然比不上同为Hopper架构的H100，但是比ampere架构的A800还是要强上不少的。
所以其实H800和H100的性能差距并没有大家想象的那么夸张，就算是削弱了FP64与NVlink传输速率，性能依旧够用，最关键的是，它合法呀(禁售，质保等问题就不在此细说了)!所以如果不是应用于超算的话也没必要冒着风险去选择H100。
H800-GPU 可为大模型训练、自动驾驶，深度学习等提供高性能、高带宽和低延迟的集群算例根据腾讯云°新一代集群的实测数据显示，在面对万亿参数的 AI 大模型训练时，之前需要时间为11 天，而在 H800 的加持下，新一代集群，训练时间可缩短至 4 天，证明了最新代 H800 比A800 的高强悍性，有更高的性能，在任务处理上以最快速度处理，进一步证明了，H800 在大模型训练只领域有充分的地位以及能力。

L40GPU与L40S GPU

在这里插入图片描述

L40最高300W，L40S最高350W，两者都是同属于英伟达Ada Lovelace 架构，48GB支持ECC的GDDR6显存，两者的显存带宽都是864GB/S,L40S作为L40的升级版本，主要在FP32运算能力提示幅度为1.1TFLOPS，在TF32 Tensor Core TFLOPS、FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Core运算能力均提升一倍左右。
两者都支持虚拟化设定，虚拟化的显存可以设置成 GPU 1 GB, 2 GB, 3 GB, 4 GB, 6 GB, 8 GB, 12 GB, 16 GB, 24 GB, 48 GB。
性能方面 NVIDIA L40S GPU 是一款适用于数据中心的功能强大的通用型 GPU，可为下一代AI 应用提供端到端加速服务 ‒ 从生成式 AI 以及模型训练和推理到 3D 图形、渲染和视频应用。AI 训练上 8 片 A100 80GB 与搭载了 4 片 L40S GPU 两套系统对比 GPT-408 LoRA (相对性能) L40S性能是A100的 0.7倍，生成式 AI Stable Diffusion 画图上默认512x512图片生成，L40S性能是A100的 0.2倍。
NVIDIA L40 GPU特别适用于数据中心的各种计算密集型工作负载，例如AI的训练和推理、流媒体制作、数据科学和图形应用。
价格方面：L40S在亚马逊上的价格大约在$13000美金附近，L40价格在亚马逊上的价格在$7900美金附近,L40S的价格与A100 80GB的价格大致相同，L40S的缺点是不能使用Nvlink进行互联，但是可以通过系统工具实现4卡同时工作，AI性能上比A100 8卡更高，L40可以使用Nvlink进行双卡显存共享实现96GB显存
最后我们对上面进行总结一下：L40S是L40GPU的升级版本，在CUDA核心和显存容量不变的情况下实现了性能的增长，如果需要进行AI训练和推理那么选择L40S会更好，如果不需要更强的AI性能可以选择L40GPU，同时采购成本更低。

4090风扇卡与4090涡轮卡

在这里插入图片描述

4090风扇卡和涡轮卡的区别

供电接口位置与散热方向

风扇卡与涡轮卡的供电接口位置不同，涡轮卡的供电接口位置在接口尾部，供电线比风扇卡的线更短，这样是方便安装和理线，而风扇卡供电接口一般在显卡顶部，接线后线缆会高于机箱最高面，在服务器中使用风扇卡，服务器盖板盖不上。

在散热方向上面，涡轮卡散热方向是朝尾部散热，并于服务器风向是一致的，而风扇卡的散热是朝四面八方来散热的，平常的PC机箱放一张是可以适应的，但用作服务器上（很多时候是多卡）就不适合了，很容易因为温度过热出现宕机。

风扇卡与涡轮卡的尺寸大小不同

涡轮卡与风扇卡的尺寸大小也是不一样的，风扇卡的尺寸一般是2.5-3倍宽设计，而涡轮卡的尺寸大小是双宽设计，因为涡轮卡为了方便放入服务器里，所以涡轮卡的尺寸和高度都远远低于风扇卡，从而服务器可以支持4卡或者8卡，如果用风扇卡代替涡轮卡装在服务器里，那位置够不够还是一回事儿呢。

面对市场不同

风扇卡无论是公版显卡还是非公版显卡，风扇卡都是面向个人的，是应用在个人游戏行业的，4090风扇卡的特点就是外观炫酷，而个人游戏行业就是为了风扇卡的外观和玩游戏的性能。而4090涡轮卡是定制版，是面向AI科技产业，因为做工精巧、支持多卡安装、性价比高等一系列优点，4090涡轮卡深受广大AI深度学习用户的喜爱。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/665454

英伟达(NVIDIA)显卡-A100/A800/H100/H800/L40/L40S/4090风扇卡/4090涡轮卡_nvidia l40与4090性能比较

英伟达(NVIDIA)显卡

类型

面向游戏娱乐领域 。 GeForce RTX™系列

面向专业设计和虚拟化领域。NVIDIA RTX™系列

面向深度学习、人工智能和高性能计算领域。A、H、L、V、T

A 系列:

H 系列:

L系列:

V系列:

T系列:

A100、A800、H100、H800、L40、L40S、4090(公版 涡轮版)

GPU 的核心架构及参数

N卡主流型号对比

A100 vs H100

新的 SM 架构

第四代 Tensor Core 架构

Hopper FP8 数据格式

A800 和 H800

H800 VS H100

L40GPU与L40S GPU

4090风扇卡与4090涡轮卡

4090风扇卡和涡轮卡的区别

供电接口位置与散热方向

风扇卡与涡轮卡的尺寸大小不同

面对市场不同

面向游戏娱乐领域。 GeForce RTX™系列

A100、A800、H100、H800、L40、L40S、4090(公版涡轮版)