羊村懒王

这个屌丝很懒，什么也没留下！

热门标签

浅聊一下最接近英伟达B200的AI芯片

作者：羊村懒王 | 2024-03-23 10:43:10

踩

浅聊一下最接近英伟达B200的AI芯片

刚刚结束的英伟达 GTC2024 大会，可谓是赚足了观众眼球。老黄放出了“AI芯片核弹” —— B200，面向 AI 模型的新一代 Blackwell GPU 架构，支持万亿参数级模型训练。

这款芯片到底是什么量级的存在？它是不是新的 AIGC 浪潮的定海神针？

B200 真的已经碾压了其他芯片？

GPT-3.5研究测试：

https://hujiaoai.cn

GPT-4研究测试：

https://higpt4.cn

这让人们不禁开始思考，其他芯片厂商是否还有机会追赶这一巨头的步伐？是能继续保持住陪跑者身份，还是望尘莫及？

全球最强AI芯片 GB200，断层式领先

英伟达（NVIDIA）作为领先的图形处理器和 AI 芯片制造商，它在两年前推出的 H100 芯片在 ChatGPT、GPT-4 推出后身价水涨船高，甚至成为稀缺的“国际战略物资”。甚至直到几个月前，其他头部竞争对手的产品才能和 H100 相媲美。

基于新一代Blackwell架构的 B200 相比上一代 Hopper H100 ，再次迎来质的升级，性能显著提升。

可以这样直观地感受：在之前，GPT-4 需要约 8000 个 Hopper GPU 和 15 兆瓦的功率，执行 90 天的训练，而相同的 AI 训练只需使用 2000 个 Blackwell GPU，消耗 4 兆瓦的功率即可完成。这意味着 Blackwell GPU 在性能上的提升不仅仅是线性的，它又是一次新飞跃。

GTC 大会对 GB200 的介绍

▲GTC 大会对 GB200 的介绍

此外，GB200 Grace Blackwell Superchip，这将不再只是芯片，而是结合了两个 B200 芯片的强大平台。这款产品的诞生，更关键的不止在算力的提升，而是能耗和成本的降低。

Nvidia GB200 Grace Blackwell 超级芯片，图源 Nvidia

▲Nvidia GB200 Grace Blackwell 超级芯片，图源 Nvidia

巨大的性能提升：GB200芯片拥有 2080 亿个晶体管，相较于上一代 H100 芯片只有800亿个晶体管，算力提升了 6 倍。

在处理多模态特定领域任务时，其算力更是能达到 H100 的 30 倍。
能耗和成本大幅降低：GB200 与 H100 相比，仅需原来 1/25 的成本和能耗。
先进的技术组件：GB200 集成了诸多先进技术，包括第二代 Transformer 引擎、第五代 NVLink 高速互联技术、Ras Engine 和 Secure AI 等。

参数晃瞎眼，芯片性能怎么看？

那么究竟什么是算力，又该如何初步评判芯片的性能呢？我们先简单明确一下这些概念：

FLOPS（Floating Point Operations Per Second）：即每秒浮点运算次数。
TOPS（Tera Operations Per Second），是Operations Per Second的特定量级，1TOPS 代表处理器每秒可进行一万亿次（）操作。TOPS 通常用于衡量 AI 加速器和专用处理器（如 TPU、NPU 等）的性能，因为这些设备在执行深度学习和神经网络推理时，往往涉及大量的整数和定点运算。
TFLOPS（teraFLOPS）是 FLOPS 的特定量级，表示每秒一万亿（）次的浮点运算，表示每秒进行的浮点运算次数。TFLOPS 常用于衡量 GPU 和高性能计算系统的性能。
PetaFLOPS：1 PetaFLOPS = 1000 TeraFLOPS。"Tera" 和 "Peta" 分别表示十亿和一万亿。
位宽：表示处理器在一次计算中能处理的数据位数，通常以 bits（比特）为单位。

简单来说，算力计算方式就是把芯片的峰值算力（单位：TFLOPS）乘以位宽（单位：bits），这样就能得到总处理性能（单位：TTP），即：

总处理性能=芯片峰值算力×位宽

举个例子，假设一款芯片的峰值算力是 2 TFLOPS，位宽是 64 bits，那么它的总处理性能就是：2 TFLOPS × 64 bits = 128 TTP。

国外AI芯片“三足鼎立”

势必分一杯羹的 AMD 家的 MI300 系列

在AI芯片竞争激烈的当下，AMD被认为是最有望与英伟达竞争的公司。

AMD CEO 苏姿丰：“英伟达现在占有大量市场，但是我们可以在这个市场分一杯羹。”

苏妈在23年12月份的AMD发布会上官宣了其最新AI芯片，用于模型训练和推理的 MI300X GPU 和用于 HPC 高性能计算的 MI300A APU，当时对标的是H100，要知道 H100 是英伟达22年3月份发布的 Hopper 架构芯片，整整领先了第二名AMD一年的时间。

据官方发布的各个维度的对比测评数据来看，MI300X相比H100的提升在 1.X-2.X倍的数据提升。比如：MI 300X的内存配置是H100的2.4 倍，FP8、FP16、TF32算力是英伟达H00的 1.3 倍。

Inter推出 Gaudi 3 抗衡英伟达和AMD

和AMD几乎同时，硬件处理器老大哥英特尔宣布在美国市场推出了自家AI芯片 Gaudi 3，宣称 Gaudi3 的性能将优于英伟达的 H100，不过这一说法并未得到验证，预计2024年正式上市。

从图表中能够看到，虽然这些国外头部芯片厂商之间的角逐非常激烈，但英伟达的多项产品仍都处于领先地位。

图源 semianalysis

▲图源 semianalysis

头部芯片商产品对比

▲头部芯片商产品对比

Gaudi3 MI300X 对标的都是 H100，且都在24年交付市场，如今24年已过去1/4的时间，AI芯片三足鼎立的场面恐怕来的更晚一些了。

芯片市场只有：英伟达和其他

在这场 AI 芯片的竞争中，还有一些新兴的初创公司和专注于特定市场细分领域的玩家。例如，Graphcore 和 Cerebras Systems 等公司正在开发专门针对 AI 和机器学习工作负载优化的处理器，这些处理器在某些应用场景中可能会提供比传统芯片更高的性能。

每家公司都在努力提高其产品的性能、效率和可扩展性，以满足从大模型AIGC、数据中心、云计算到边缘设备的各种计算需求。

英伟达凭借其在 AI 领域的早期投入和持续的技术创新，以及与云服务提供商和企业的深度合作，在 AI 硬件和软件生态系统中保持了显著的优势。

在 GTC 大会上透露，已有多家大型企业和云服务提供商（包括亚马逊云科技、谷歌、微软、Oracle 等）计划采用 GB200 架构的产品，未来将可能通过云服务的模式，出售 GB200 的接入权。

从上面分析不难看出，目前AI芯片的市场只有英伟达和其他，其他公司包括第二第三还在赶超英伟达两三年前的产品，英伟达已经拉开其他多个迭代轮回的距离。

政策限制下，国产芯片或将迎来机会？

再来看看国内的芯片情况，

大部分已经投入商用的国产芯片产品（包括华为昇腾 910）对比英伟达最新的 AI 芯片产品，起步较晚，虽然已在奋力追赶，但在性能上仍存在一定的差距。

AI 芯片国产替代方案，资料源《财经十一人》

▲AI 芯片国产替代方案，资料源《财经十一人》

目前来看，能够实现量产并且打开国内市场的多是华为、阿里、百度、腾讯等互联网大厂，以及寒武纪、天数智芯等独角兽公司的产品，其他大部分芯片厂商的产品基本都面向特定的应用场景。

美国芯片出口jin令限制了高端芯片如 A100 和 H100 的销售，提供了降级版本 A800 和 H800 给中国公司，这对国内 AI 和 GPU 依赖行业是挑战。然而，这也促使国产芯片需求增加，为本土企业提供了市场机遇，推动技术进步。

NVIDIA 芯片性能与半导体限制政策前后比较

▲NVIDIA 芯片性能与半导体限制政策前后比较

国产优秀代表：华为昇腾 910、天数智芯、寒武纪等

昇腾 910 作为华为海思自主研发的 AI 芯片，其算力超过英伟达 V100，接近 A100/A800 80G PCIe 版本，但与 H100/H800 相比仍有较大差距。尽管如此，昇腾系列以其丰富产品线和软硬件结合，成为众多企业的选择。但由于昇腾 910 不支持 32 位浮点运算，在 AI 应用方面，目前多用于华为自身生态中的大模型业务。

昇腾 910B 与英伟达 A800 的对比

▲昇腾 910B 与英伟达 A800 的对比

天数智芯在 2021 年推出了代表产品天垓 100，基本可以对标英伟达发布于 2017 年的 V100，虽与 V100 相隔四年，但天垓 100 实现了国内通用 GPU 从 0 到 1 的重要突破，也能确保自主可控，且能兼容 CUDA，便于算法和应用迁移。

AI 领域独角兽企业寒武纪已经量产了许多 AI 处理器，其在 2020 年发布的旗舰产品 MLU370-X8 主要面向训练任务，它支持互联，能高效执行大模型的训练推理任务。

之前我们的各种芯片主要都靠技术进口，在政策限制的挑战下，国内芯片企业如华为海思、寒武纪、中芯国际、紫光集团等纷纷加大研发力度，力争在关键技术上实现突破。华为海思的麒麟 990 芯片在智能手机市场取得成就，尤其在 5G 和 AI 领域表现突出，中芯国际也在制造工艺上紧追国际先进水平。

不过，目前的环境对于芯片初创企业来说还是举步维艰，就算是谷歌和英伟达这种超大规模的公司，也都依赖于游戏行业或者内部需求为 AI 芯片的研发“输血”，尚未有哪家公司只靠着卖 AI 芯片就能在市场上屹立潮头，创业公司基本都面临着亏损，需要源源不断的巨额融资来支撑发展。

国产芯片发展：力求自主可控

国内半导体产业链正在加速重构，涵盖材料、设计、制造到封装测试的全链条，力求自主可控。尽管与国际顶尖水平存在差距，但基础半导体材料和设备的国产化已取得显著进展。在芯片设计方面，也涌现出众多拥有自主知识产权的企业。

此外，国家各项扶持政策的实施，也会在一定程度上加快国产芯片技术的研发和产业化进程。国产芯片企业也在积极探索与国内外的合作机会。通过技术引进和合作提升产品竞争力。在某些细分市场，如物联网、智能家居、5G 通信等领域，国产芯片已经开始展现出较强的竞争力。

国产芯片要实现长远发展，除性能之外还需充分考虑生态适配等多方面因素。

最近的上海半导体博览会上，除了很多卡脖子的设备厂商，不少新材料相关企业也前往参展，也吸引了很多投资人在现场寻找机会。期待国内芯片厂商持续发力，在集成电路生产方面，努力缩短与台湾省之间的差距，甚至赶超，在未来的全球半导体市场中占据一席之地。

总结

总之，B200 芯片的推出，展示了英伟达在 AI 芯片技术上的领先地位，也预示了 AI 技术在各行各业的应用将进一步加速部署。

对于其他芯片制造商来说，英伟达的这一突破无疑是一个巨大的挑战。

摩尔定律的放缓曾引发对半导体行业未来的担忧，但新的技术突破和应用场景总在不经意间出现，推动行业发展。

因此，这并不代表其他芯片厂商就此无法追赶。他们可以通过硬件设计、软件优化和专用加速器的创新，继续在这个快速发展的 AI 计算竞赛中寻找自己的立足点。

而未来的芯片市场，注定充满变数和挑战，但也正是这样的不确定性，才让我们对技术进步的未来充满无限的期待和憧憬~

参考资料

[1]https://tele.m.ofweek.com/2024-03/ART-8320503-8220-30629183.html
[2]https://1587356929.spaces.eepw.com.cn/articles/article/item/324622
[3]https://www.semianalysis.com/p/wafer-wars-deciphering-latest-restrictions
[4]https://www.bilibili.com/video/BV1uK411i7kn/?vd_source=96aec58f45fdbb97384e36e3781ec33b

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/294752