当前位置:   article > 正文

2024年3月20日_GTC 2024大会黄仁勋演讲解读

2024年3月20日_GTC 2024大会黄仁勋演讲解读

今天我们来讲GTC 2024

美国圣何塞3月18日13点

北京19日凌晨4点,时隔5年

全球顶尖的AI计算技术盛会、年度NVIDIA GTC大会重磅回归线下

在这场大会上

英伟达展现出堪称恐怖的行业号召力

将AI圈的顶尖技术大牛和行业精英汇聚在一起

现场盛况空前,线下参会者逾万人


会上

英伟达创始人兼CEO黄仁勋发表长达123分钟的主题演讲

在播放一段AI主题短片

黄仁勋穿着标志性的黑色皮衣

从圣何塞SAP中心场馆主舞台登场

与观众寒暄


他首先回顾了英伟达30年来追求加速计算旅程的开端

历数研发革命性计算模式CUDA、将首台AI超级计算机DGX交给OpenAI等一系列里程碑事件

然后将话题自然地聚焦到生成式AI

在宣布与多家EDA龙头的重要合作伙伴关系后

他谈到快速演进的AI模型

带动训练算力需求暴涨

需要更大的GPU

加速计算已达到临界点

通用计算已失去动力,在每一个行业

加速计算都比通用计算有了巨大的提升

Blackwell GPU

紧接着

大屏幕上过电影般快速闪现从GPU超级芯片超级计算机集群系统的一系列关键组件

然后黄仁勋重磅宣布

全新旗舰AI芯片Blackwell GPU来了!

这是GPU领域最新的惊世之作

从配置到性能都将前辈Hopper GPU拍倒在沙滩上

他举起双手展示了Blackwell和Hopper GPU的对比

Blackwell GPU明显大了一圈

无论是FP8,还是全新的FP6FP4精度

以及HBM能塞下的模型规模和HBM带宽

都做到==“倍杀”==前代的Hopper

8年时间

Pascal架构Blackwell架构

英伟达将AI计算性能提升了1000倍

这还只是开胃小菜

黄仁勋真正的“胃口”,

打造足以优化万亿参数级GPU计算的最强AI基础设施

总体来看

英伟达在本届GTC大会上连发了6个大招

我们先来个总结

1 - Blackwell GPU

发布了Blackwell GPU

训练性能提升至2.5倍

FP4精度推理性能提升至前代FP8的5倍

升级了第五代NVLink

互连速度是Hopper的2倍

可扩展到576个GPU

能够解决万亿参数混合专家模型通信瓶颈

2 - Blackwell平台“全家桶”

Blackwell平台“全家桶”登场

既面向万亿参数级GPU计算优化

推出全新网络交换机X800系列

吞吐量高达800Gb/s

又发布GB200超级芯片GB200 NVL72系统DGX B200系统、新一代DGX SuperPOD AI超级计算机

3 - 企业级生成式AI微服务

推出数十个企业级生成式AI微服务

提供一种封装和交付软件的新方式

方便企业和开发者用GPU部署各种定制AI模型

4 - 光刻计算平台cuLitho(库里索)

宣布台积电新思科技

将突破性的光刻计算平台cuLitho投入生产

cuLitho将计算光刻加速40-60倍

并采用了增强的生成式AI算法

将为2nm以及更先进制程开发提供“神助攻”。

5 - Isaac机器人平台

发布人形机器人基础模型Project GROOT、新款人形机器人计算机Jetson Thor

Isaac机器人平台进行重大升级

黄仁勋还将一对来自迪士尼研究公司的小型英伟达机器人带上台互动

6 - Omniverse平台

与苹果强强联手

Omniverse平台引入苹果Vision Pro

并且宣布为工业数字孪生软件工具提供Omniverse Cloud API


接下来呢

我们就详细展开讲一下这六点

1 - Blackwell GPU

第一招,AI芯片新皇登场

进入生成式AI新纪元之后

AI计算需求爆发式增长

而一路高歌前进的英伟达GPU

凭借傲视群雄的实战算力

令全球AI行业都患上了英伟达GPU饥渴症

一众AI巨头重金难买黄仁勋点头

Hopper GPU还是AI竞赛争抢的重点资源

超越它的继任者

Blackwell GPU正式发布!

每一代英伟达GPU架构都会以一位科学家的名字来命名

新架构取名Blackwell是为了致敬美国科学院首位黑人院士、杰出的统计学家兼数学家David Blackwell

Blackwell擅长将复杂的问题简单化

他独立发明的“动态规划”“更新定理”

被广泛多个科学及工程学领域


黄仁勋说

生成式AI是这个时代的决定性技术

Blackwell是推动这场新工业革命的引擎

简单来说

Blackwell GPU有6大核心技术


1、号称是“世界最强大的芯片”,

集成了2080亿颗晶体管

采用定制台积电4NP工艺

承袭“拼装芯片”的思路

采用统一内存架构+双芯配置

将2个受光刻模板限制的GPU die

通过10TB/s的芯片间NVHyperfuse接口

连成一个统一的GPU

共有192GB HBM3e内存、8TB/s显存带宽

单卡AI训练算力可达20PFLOPS


跟上一代Hopper相比

Blackwell因为集成了两个die

面积变大

比Hopper GPU足足多了1280亿个晶体管

对比之下

前代H100只有80GB HBM3内存、3.35TB/s带宽

H200141GB HBM3e内存、4.8TB/s带宽

2 - 第二代Transformer引擎

通过将新的微张量缩放支持和先进的动态范围管理算法

与TensorRT-LLM和NeMo Megatron框架结合

使Blackwell具备了在FP4精度的AI推理能力

可支持2倍的计算和模型规模

能在将性能和效率翻倍的同时

保持混合专家模型的高精度


此外,在全新FP4精度下

Blackwell GPU的AI性能将达到Hopper的5倍

英伟达并未透露其CUDA核心的性能

有关架构的更多细节还有待揭晓

3 - 第五代NVLink

为了加速万亿参数和混合专家模型的性能

新一代NVLink为每个GPU提供1.8TB/s双向带宽

支持多达576个GPU间的无缝高速通信

适用于复杂大语言模型

单颗NVLink Switch芯片500亿颗晶体管

采用台积电4NP工艺

1.8TB/s连接4个NVLink

4 - RAS引擎

Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎

还增加了芯片级功能

可利用基于AI的预防性维护

来进行诊断预测可靠性问题

最大限度延长系统的正常运行时间

提高大规模AI部署的弹性

一次可不间断地运行数周甚至数月

并降低运营成本

5 - 安全的AI

先进的机密计算功能可以保护AI模型和客户数据

而不会影响性能

同时支持新的本地接口加密协议

6 - 解压缩引擎

支持最新格式,加速数据库查询

从而提供数据分析和数据科学的最高性能


AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI

都将采用Blackwell产品

特斯拉和xAI的CEO马斯克直言

目前在AI领域

没有比英伟达硬件更好的产品

值得注意的是

相比以往强调单芯片的性能表现

这次Blackwell系列的发布

更加侧重在整体系统性能

对GPU代号称谓进行模糊

大部分都统称为“Blackwell GPU”。


按照之前的市场传言

B100价格可能大约是3万美元

B200售价约为3.5万美元,这样来算

价格只比前代提升不到50%,

训练性能却可以提高2.5倍

性价比明显更高

如果定价涨幅不大

Blackwell系列GPU的市场竞争力将强到可怕

性能提升足够凶猛

性价比相较上一代Hopper变更高

这让同行怎么打?

全新网络交换机、AI超级计算机

第二招,面向万亿参数级GPU计算优化

推出全新网络交换机AI超级计算机

Blackwell平台除了基础的HGX B100外

还包括NVLink SwitchGB200超级芯片计算节点X800系列网络交换机

其中

X800系列是专为大规模AI量身订制的全新网络交换机

可以支持新型AI基础设施

轻松运行万亿参数级生成式AI业务

英伟达Quantum-X800 InfiniBand网络Spectrum-X800以太网络

是全球首批端到端吞吐量高达800Gb/s的网络平台

交换带宽容量较前代产品,提高了5倍

网络计算能力通过英伟达第四代SHARP技术

提高了9倍

网络计算性能达到14.4TFLOPS


早期用户有微软Azure、甲骨文云基础设施、Coreweave

Spectrum-X800平台专为多租户环境打造

可实现每个租户的AI工作负载的性能隔离

生成式AI云大型企业级用户带来优化的网络性能


同时

英伟达提供网络加速通信库软件开发套件管理软件等全套软件方案

英伟达称GB200 Grace Blackwell超级芯片

是为万亿参数规模生成式AI设计的处理器

该芯片通过900GB/s的第五代NVLink-C2C互连技术

将2个Blackwell GPU连接到1个英伟达Grace CPU

但是英伟达并没有明确Blackwell GPU的具体型号


黄仁勋拿起GB200超级芯片展示

说这是同类计算机中

第一个做到在这么小空间里容纳如此多的计算

因此内存相连

它们“就像个快乐的大家庭

一起开发一个应用程序”

GB200 NVL72

一个GB200超级芯片计算节点可内置2个GB200超级芯片

一个NVLink交换机节点可支持2个NVLink交换机

总带宽达到14.4TB/s

一个Blackwell计算节点包含2个Grace CPU和4个Blackwell GPU

AI性能达到80PFLOPS

有了更强的GPU和网络性能

黄仁勋宣布推出一款全新计算单元——多节点、液冷、机架级系统英伟达GB200 NVL72

GB200 NVL72就像一个“巨型GPU”

能像单卡GPU一样运作

AI训练性能达到720PFLOPS

AI推理性能高达1.44EFLOPS

拥有30TB快速显存

可处理高达27万亿个参数的大语言模型

是最新DGX SuperPOD的构建模块

GB200 NVL72可组合36个GB200超级芯片

一共有72个B200 GPU36个Grace CPU

通过第五代NVLink互连

还包括BlueField-3 DPU

黄仁勋说

目前全球只有几台EFLOPS级的机器

这台机器由60万个零件组成

重达3000磅

是一个在单个机架上的EFLOPS AI系统


据他分享

以前用H100训练GPT-MoE-1.8T大模型

需要90天、消耗大约8000个GPU15MW的电力

而现在用GB200 NVL72只需要2000个GPU4MW的电力

在跑万亿参数模型时

GB200经过多维度的优化

单个GPU每秒Tokens吞吐量能多达H200 FP8精度的30倍

对于大语言模型推理

与相同数量的H100相比

GB200 NVL72可提供30倍的性能提升

并将成本和能耗降低为前代的1/25


AWS、谷歌云、微软Azure、甲骨文云基础设施等主流云厂商

均将支持访问GB200 NVL72

DGX B200系统

英伟达还推出了用于AI模型训练、微调和推理的统一AI超级计算平台

DGX B200系统

DGX B200系统是DGX系列的第六代产品

采用风冷传统机架式设计

包括8个B200 GPU2个第五代英特尔至强处理器

在FP4精度下可提供144PFLOPS的AI性能、1.4TB超大容量GPU显存、64TB/s显存带宽

能使万亿参数模型的实时推理速度

快至上一代的15倍

该系统包含带有8个ConnectX-7网卡和2个BlueField-3 DPU的先进网络

每个连接带宽高达400Gb/s

可通过Quantum-2 InfiniBandSpectrum-X以太网网络平台

提供更高的AI性能


英伟达还推出了采用DGX GB200系统的下一代数据中心级AI超级计算机DGX SuperPOD

可满足处理万亿参数模型

确保超大规模生成式AI训练和推理工作负载的持续运行


新一代DGX Superpod

由8个或者更多的DGX GB200系统构建而生

具有全新的高效液冷机架级扩展架构

FP4精度下

可以提供11.5EFlops的AI算力

240TB的快速显存

并且能够通过机架来扩展性能


每个DGX GB200系统有36个GB200超级芯片

与H100相比

GB200超级芯片在跑大语言模型

推理的性能

可以提高高达45倍

黄仁勋说

未来数据中心将会被认为是AI工厂

整个行业都在为Blackwell做准备

推出数十个企业级生成式AI服务

方便企业去定制和部署Copilots

如果说硬件是杀手锏

那么软件就是护城河

在会上英伟达继续扩大凭借

CUDA和生成式AI生态所积累的优势

推出了数十个企业级的生成式AI微服务

以便开发者在英伟达CUDA GPU安装的基础上

创建和部署生成式的AI Copilots

黄仁勋说

生成式AI改变了应用程序编程的方式

企业不再需要编写软件

而是组装AI模型

指定任务

给出工作的产品示例

审查计划和中间结果


英伟达NIM是英伟达推理微服务的参考

是由英伟达的加速计算库和生成式AI模型所构建的

微服务支持行业标准的API

在英伟达大型的CUDA安装基础上工作

并且针对于新的GPU进行了优化

企业可以使用这些微服务在自己的平台上

创建和部署自定义的应用程序

同时保留对知识产权的完全所有权和控制权


NIM微服务将会提供由英伟达推理软件支持的预构建的生产AI容器

让开发人员能够将部署时间从几周缩短到几分钟

NIM微服务可以用来部署来自于英伟达、AI21

Adept、Cohere、Getty Images、Shutterstock的模型

以及来自谷歌、Hugging Face、Meta、

微软、Mistral AI、Stability AI的开放模型

用户将能够访问来自亚马逊SageMaker

谷歌Kubernetes引擎和微软Azure AI的NIM微服务

并与Deepset、LangChain和LlamaIndex等流行AI框架集成


为了加速AI应用

企业可以使用CUDA-X微服务

包括定制语音和翻译AI的英伟达Riva

用于路径优化的英伟达cuOpt

用于高分辨率气候和天气模拟的英伟达Earth-2等等


同时呢英伟达即将推出一系列

用于定制模型开发的NeMo微服务

开发者可以在ai.nvidia.com免费试用英伟达的微服务

企业可以使用英伟达AI enterprise 5.0部署生产级的NIM微服务

生成式AI算法

第四招推出生成式AI算法

联手两大芯片界顶流

掀起光刻计算新革命

在去年的GTC大会

英伟达面向芯片制造行业

甩出了一项秘密研发四年的大招

那就是通过突破性的光刻计算库cuLitho

计算光刻加速40-60倍

加速突破生产两纳米以及更先进芯片的物理极限

这个项目的合作者

都是芯片产业链最鼎盛的存在

包括全球最大的AI芯片巨头英伟达

全球最大的晶圆代工商台积电

全球最大的EDA巨头新思科技

计算光刻技术呢是芯片制造的基石

现在在Culitho加速流程的基础上

通过生成式的AI算法将工作流的速度又提升了两倍

具体来说呢

就是晶圆厂许多工艺的变化呢

都需要去修正光学邻近校正OPC

这个呢会增加计算量造成开发的瓶颈

Culitho提供的加速计算生成式AI

能够缓解这些问题

通过生成式AI可以创建近乎完美的反向掩模解决方案

来解决光衍射的问题

然后呢再通过传统的物理方法

推导出最终的光掩模

从而将整个OPC的过程加快两倍


在芯片制造过程中

计算光刻是计算最密集的工作负载

每年在CPU上要消耗数百亿个小时

相比于基于CPU的方法

基于GPU的加速计算光刻库cuLitho

能够大大地改进芯片的制造工艺

通过加速计算

350个英伟达H100系统就可以取代4,000个CPU系统

大幅提高了吞吐量

加快生产降低成本空间和功耗


台积电呢目前正在将英伟达cuLitho投入生产

通过将GPU加速计算整合到台积电的工作流程

实现了性能的巨大飞跃

共享工作流程上测试cuLitho的时候

两家公司共同实现了曲线流程45倍的加速

以及传统曼哈顿流程将近60倍的改进

Isaac机器人平台

第五招Isaac机器人平台重大更新

全新的人形机器人基础模型计算机

除了生成式AI

英伟达还相当看好具身智能

并且发布了人形计算机通用基础模型

project GROOT

基于Thor SoC的新型人形机器人计算机Jetson Thor

黄仁勋说

开发通用人形计算机基础模型

是当今AI领域中最令人兴奋的课题之一


Jetson Thor具有针对于性能

功能和尺寸优化的模块化架构

这个SoC包括一个带有Transformer引擎的下一代Blackwell GPU

英伟达正在为一些领先的人形机器人公司

开发一个综合性的AI平台

比如1X、Agility Robotics、Apptronik、波士顿动力、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行

此外呢英伟达对Isaac机器人平台进行了重大的升级

包括生成式AI基础模型和仿真工具

以及AI工作流的基础设施

新功能呢将在下个季度推出


英伟达还发布了一系列的机器人预训练模型库参考的硬件

比如Isaac Manipulator

机械臂提供了灵活性和模块化的AI功能

以及一系列基础模型和GPU加速库

此外

Isaac Perceptor还提供了先进的多摄像头

3D重建深度感知等等功能

Omniverse平台

Omniverse平台公开了最新的进展

挺进苹果Vision Pro,发布云API

在会上英伟达宣布

将Omniverse平台引入了苹果Vision Pro

对于工业数字孪生的应用

英伟达将以API的形式提供Omniverse Cloud

开发人员可以借助API

交互式的工业数字孪生流传输到VR头显

通过使用API

开发者能够轻松地将Omniverse的核心技术

直接集成到现有的数字孪生设计自动化软件应用

或者是集成到用来测试和验证机器人

或者是自动驾驶汽车等等自主机器仿真工作流程

黄仁勋相信

所有制造出来的产品都将拥有数字孪生

Omniverse是一个可以构建

并且操作物理真实的数字孪生的操作系统

他认为Omniverse和生成式AI都是将

价值高达50万亿美元的重工业市场

进行数字化所需的基础技术

这次发布的5款全新Omniverse cloud API

既可以单独的使用又可以组合使用

分别包括USD Render

可以生成OpenUSD数据全光线追踪RTX渲染

USD Writer

可以让用户能够修改OpenUSD数据

并且与之交互

USD Query

可以支持场景查询交互式的场景

USD Notify可以追踪USD变化并且提供更新的信息

Omniverse Channel可以连接用户工具和世界

实现跨场景的协作

Omniverse Cloud API将于今年的晚些时候

微软Azure

或者是英伟达OVX上以托管服务的形式提供

除了上述这些重要的发布之外

黄仁勋还在演讲中分享了一些其他的进展

6G研究云平台

在电信领域

英伟达将会推出6G研究云平台

这是一个生成式AI和Omniverse驱动的平台

目的呢在于推进无线通信技术的开发

地球气候数字孪生云平台Earth-2

英伟达的地球气候数字孪生云平台Earth-2

现在呢已经可以使用了

可以实现交互式的高分辨率模拟

从而加速气候和天际的预测

黄仁勋还认为

AI的最大影响将是在医疗健康领域

英伟达已经在与成像系统

基因测序仪器

以及领先的手术机器人公司合作

并且呢正在推出一种新型的生物软件

新一代自动驾驶汽车处理器DRIVE Thor

在汽车行业

全球最大的自动驾驶汽车公司比亚迪未来电动汽车

将搭载英伟达采用的Blackwell架构新一代自动驾驶汽车处理器DRIVE Thor

DRIVE Thor预计最早将于明年开始量产

性能高达1000TFLOS

黄日勋在会上说到

英伟达的灵魂是计算机图形学

物理学人工智能的交集

在演讲结束的时候

他划了五个重点

新工业、Blackwell平台、NIM微服务、NEMO和AI代工厂、Omniverse和Isaac机器人


黄仁勋的这场主题演讲

无疑是GTC大会的一个重头戏

但是对于现场和远程的参会者来说

精彩才刚刚拉开序幕

接下来会有超过1,000场

围绕着英伟达最新进展以及热门的前沿技术的演讲对话培训圆桌讨论一一展开

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/691427
推荐阅读
相关标签
  

闽ICP备14008679号