赞
踩
今天我们来讲GTC 2024
美国圣何塞3月18日13点
北京19日凌晨4点
,时隔5年
全球顶尖的AI计算技术盛会、年度NVIDIA GTC大会重磅回归线下
在这场大会上
英伟达展现出堪称恐怖的行业号召力
将AI圈的顶尖技术大牛和行业精英汇聚在一起
现场盛况空前,线下参会者逾万人
会上
英伟达创始人兼CEO黄仁勋发表长达123分钟
的主题演讲
在播放一段AI主题短片
后
黄仁勋穿着标志性的黑色皮衣
从圣何塞SAP中心场馆
主舞台登场
与观众寒暄
他首先回顾了英伟达30年来追求加速计算旅程
的开端
历数研发革命性计算模式CUDA
、将首台AI超级计算机DGX交给OpenAI
等一系列里程碑事件
然后将话题自然地聚焦到生成式AI上
在宣布与多家EDA龙头
的重要合作伙伴关系后
他谈到快速演进的AI模型
带动训练算力
需求暴涨
需要更大的GPU
加速计算已达到临界点
通用计算已失去动力,在每一个行业
加速计算都比通用计算有了巨大的提升
紧接着
大屏幕上过电影般快速闪现从GPU
、超级芯片
到超级计算机
、集群系统
的一系列关键组件
然后黄仁勋重磅宣布
全新旗舰AI芯片Blackwell GPU来了!
这是GPU领域最新的惊世之作
从配置到性能都将前辈Hopper GPU
拍倒在沙滩上
他举起双手展示了Blackwell和Hopper GPU
的对比
Blackwell GPU明显大了一圈
无论是FP8
,还是全新的FP6
、FP4
精度
以及HBM能塞下的模型规模和HBM带宽
都做到==“倍杀”==前代的Hopper
8年时间
从Pascal架构
到Blackwell架构
英伟达将AI计算性能提升了1000倍
这还只是开胃小菜
黄仁勋真正的“胃口”,
是打造足以优化万亿参数级GPU计算的最强AI基础设施
总体来看
英伟达在本届GTC大会上连发了6个大招
我们先来个总结
发布了Blackwell GPU
训练性能提升至2.5倍
FP4精度推理性能提升至前代FP8的5倍
升级了第五代NVLink
互连速度是Hopper
的2倍
可扩展到576个GPU
能够解决万亿参数混合专家模型通信瓶颈
Blackwell平台“全家桶”登场
既面向万亿参数级GPU计算优化
推出全新网络交换机X800系列
吞吐量高达800Gb/s
又发布GB200超级芯片
、GB200 NVL72系统
、DGX B200系统
、新一代DGX SuperPOD AI超级计算机
推出数十个企业级生成式AI微服务
提供一种封装和交付软件的新方式
方便企业和开发者用GPU部署各种定制AI模型
宣布台积电
、新思科技
将突破性的光刻计算平台
cuLitho投入生产
cuLitho
将计算光刻加速40-60倍
并采用了增强的生成式AI算法
将为2nm
以及更先进制程开发
提供“神助攻”。
发布人形机器人基础模型Project GROOT
、新款人形机器人计算机Jetson Thor
对Isaac机器人平台
进行重大升级
黄仁勋还将一对来自迪士尼研究公司的小型英伟达机器人
带上台互动
与苹果强强联手
将Omniverse平台
引入苹果Vision Pro
并且宣布为工业数字孪生软件工具
提供Omniverse Cloud API
接下来呢
我们就详细展开讲一下这六点
第一招,AI芯片新皇
登场
进入生成式AI新纪元之后
AI计算需求爆发式增长
而一路高歌前进的英伟达GPU
凭借傲视群雄的实战算力
令全球AI行业都患上了英伟达GPU饥渴症
一众AI巨头重金难买黄仁勋点头
当Hopper GPU
还是AI竞赛争抢的重点资源
超越它的继任者
Blackwell GPU
正式发布!
每一代英伟达GPU架构都会以一位科学家的名字
来命名
新架构取名Blackwell
是为了致敬美国科学院首位黑人院士
、杰出的统计学家兼数学家David Blackwell
Blackwell擅长将复杂的问题简单化
他独立发明的“动态规划”
、“更新定理”
,
被广泛多个科学及工程学领域
黄仁勋说
生成式AI是这个时代的决定性技术
Blackwell是推动这场新工业革命的引擎
简单来说
Blackwell GPU有6大核心技术
1、号称是“世界最强大的芯片”,
集成了2080亿颗晶体管
采用定制台积电4NP工艺
承袭“拼装芯片”的思路
采用统一内存架构+双芯配置
将2个受光刻模板限制的GPU die
通过10TB/s
的芯片间NVHyperfuse接口
连成一个统一的GPU
共有192GB HBM3e
内存、8TB/s
显存带宽
单卡AI训练算力可达20PFLOPS
跟上一代Hopper相比
Blackwell因为集成了两个die
面积变大
比Hopper GPU足足多了1280亿个晶体管
对比之下
前代H100
只有80GB HBM3
内存、3.35TB/s
带宽
H200
有141GB HBM3e
内存、4.8TB/s
带宽
通过将新的微张量缩放支持
和先进的动态范围管理算法
与TensorRT-LLM和NeMo Megatron框架
结合
使Blackwell具备了在FP4精度的AI推理能力
可支持2倍的计算和模型规模
能在将性能和效率翻倍的同时
保持混合专家模型的高精度
此外,在全新FP4精度下
Blackwell GPU的AI性能将达到Hopper的5倍
英伟达并未透露其CUDA核心的性能
有关架构的更多细节还有待揭晓
为了加速万亿参数和混合专家模型的性能
新一代NVLink
为每个GPU提供1.8TB/s双向带宽
支持多达576个GPU
间的无缝高速通信
适用于复杂大语言模型
单颗NVLink Switch芯片
有500亿颗晶体管
采用台积电4NP工艺
以1.8TB/s
连接4个NVLink
Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎
还增加了芯片级功能
可利用基于AI的预防性维护
来进行诊断
和预测
可靠性问题
最大限度延长系统的正常运行时间
提高大规模AI部署的弹性
一次可不间断地运行数周甚至数月
并降低运营成本
先进的机密计算功能
可以保护AI模型和客户数据
而不会影响性能
同时支持新的本地接口加密协议
支持最新格式,加速
数据库查询
从而提供数据分析和数据科学的最高性能
AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI
都将采用Blackwell产品
特斯拉和xAI的CEO马斯克
直言
目前在AI领域
没有比英伟达硬件更好的产品
值得注意的是
相比以往强调单芯片的性能表现
这次Blackwell系列的发布
更加侧重在整体系统性能
并对GPU代号称谓进行模糊
大部分都统称为“Blackwell GPU”。
按照之前的市场传言
B100价格可能大约是3万美元
B200售价约为3.5万美元
,这样来算
价格只比前代提升不到50%,
训练性能却可以提高2.5倍
性价比明显更高
如果定价涨幅不大
Blackwell系列GPU的市场竞争力将强到可怕
性能提升足够凶猛
性价比相较上一代Hopper变更高
这让同行怎么打?
第二招,面向万亿参数级GPU计算优化
推出全新网络交换机
、AI超级计算机
Blackwell平台除了基础的HGX B100外
还包括NVLink Switch
、GB200超级芯片计算节点
、X800系列网络交换机
其中
X800系列
是专为大规模AI量身订制的全新网络交换机
可以支持新型AI基础设施
轻松运行万亿参数级生成式AI业务
英伟达Quantum-X800
InfiniBand网络
和Spectrum-X800以太网络
是全球首批端到端吞吐量高达800Gb/s
的网络平台
交换带宽容量较前代产品,提高了5倍
网络计算能力通过英伟达第四代SHARP技术
提高了9倍
网络计算性能达到14.4TFLOPS
早期用户有微软Azure、甲骨文云基础设施、Coreweave
等
Spectrum-X800平台
专为多租户环境打造
可实现每个租户的AI工作负载的性能隔离
为生成式AI云
和大型企业级用户
带来优化的网络性能
同时
英伟达提供网络加速通信库
、软件开发套件
和管理软件
等全套软件方案
英伟达称GB200 Grace Blackwell超级芯片
是为万亿参数规模生成式AI设计的处理器
该芯片通过900GB/s
的第五代NVLink-C2C互连技术
将2个Blackwell GPU
连接到1个英伟达Grace CPU
但是英伟达并没有明确Blackwell GPU
的具体型号
黄仁勋拿起GB200超级芯片展示
说这是同类计算机中
第一个做到在这么小空间里容纳如此多的计算
因此内存相连
它们“就像个快乐的大家庭
一起开发一个应用程序”
。
一个GB200超级芯片计算节点可内置2个GB200超级芯片
一个NVLink交换机节点可支持2个NVLink交换机
总带宽达到14.4TB/s
一个Blackwell计算节点
包含2个Grace CPU
和4个Blackwell GPU
AI性能达到80PFLOPS
有了更强的GPU和网络性能
黄仁勋宣布推出一款全新计算单元——多节点、液冷、机架级系统英伟达GB200 NVL72
GB200 NVL72
就像一个“巨型GPU”
,
能像单卡GPU一样运作
AI训练性能达到720PFLOPS
AI推理性能高达1.44EFLOPS
拥有30TB
快速显存
可处理高达27万亿
个参数的大语言模型
是最新DGX SuperPOD
的构建模块
GB200 NVL72
可组合36个GB200
超级芯片
一共有72个B200 GPU
和36个Grace CPU
通过第五代NVLink
互连
还包括BlueField-3 DPU
黄仁勋说
目前全球只有几台EFLOPS级
的机器
这台机器由60万个零件
组成
重达3000磅
是一个在单个机架上的EFLOPS AI系统
据他分享
以前用H100训练GPT-MoE-1.8T
大模型
需要90天、消耗大约8000个GPU
、15MW
的电力
而现在用GB200 NVL72
只需要2000个GPU
、4MW
的电力
在跑万亿参数模型时
GB200经过多维度的优化
单个GPU每秒Tokens吞吐量能多达H200 FP8
精度的30倍
对于大语言模型推理
与相同数量的H100
相比
GB200 NVL72
可提供30倍的性能提升
并将成本和能耗降低为前代的1/25
AWS、谷歌云、微软Azure、甲骨文云基础设施等主流云厂商
均将支持访问GB200 NVL72
英伟达还推出了用于AI模型训练
、微调和推理的统一AI超级计算平台
DGX B200系统
DGX B200系统是DGX系列的第六代产品
采用风冷传统机架式设计
包括8个B200 GPU
、2个第五代英特尔至强处理器
在FP4精度下可提供144PFLOPS
的AI性能、1.4TB
超大容量GPU显存、64TB/s
显存带宽
能使万亿参数模型的实时推理速度
快至上一代的15倍
该系统包含带有8个ConnectX-7网卡
和2个BlueField-3 DPU的先进网络
每个连接带宽高达400Gb/s
可通过Quantum-2 InfiniBand
和Spectrum-X
以太网网络平台
提供更高的AI性能
英伟达还推出了采用DGX GB200系统的下一代数据中心级AI超级计算机DGX SuperPOD
可满足处理万亿参数模型
确保超大规模生成式AI训练和推理工作负载
的持续运行
新一代DGX Superpod
由8个或者更多的DGX GB200系统
构建而生
具有全新的高效液冷机架级扩展架构
在FP4
精度下
可以提供11.5EFlops
的AI算力
和240TB
的快速显存
并且能够通过机架
来扩展性能
每个DGX GB200
系统有36个GB200
超级芯片
与H100相比
GB200超级芯片在跑大语言模型
推理的性能
可以提高高达45倍
黄仁勋说
未来数据中心将会被认为是AI工厂
整个行业都在为Blackwell做准备
方便企业去定制和部署Copilots
如果说硬件是杀手锏
那么软件就是护城河
在会上英伟达继续扩大凭借
CUDA和生成式AI生态所积累的优势
推出了数十个企业级的生成式AI微服务
以便开发者在英伟达CUDA GPU安装的基础上
创建和部署生成式的AI Copilots
黄仁勋说
生成式AI改变了应用程序编程的方式
企业不再需要编写软件
而是组装AI模型
指定任务
给出工作的产品示例
审查计划和中间结果
英伟达NIM
是英伟达推理微服务的参考
是由英伟达的加速计算库和生成式AI模型所构建的
微服务支持行业标准的API
在英伟达大型的CUDA安装基础上工作
并且针对于新的GPU进行了优化
企业可以使用这些微服务在自己的平台上
创建和部署自定义的应用程序
同时保留对知识产权的完全所有权和控制权
NIM微服务
将会提供由英伟达推理软件支持的预构建的生产AI容器
让开发人员能够将部署时间从几周缩短到几分钟
NIM微服务可以用来部署来自于英伟达、AI21
Adept、Cohere、Getty Images、Shutterstock的模型
以及来自谷歌、Hugging Face、Meta、
微软、Mistral AI、Stability AI
的开放模型
用户将能够访问来自亚马逊SageMaker
谷歌Kubernetes引擎和微软Azure AI的NIM微服务
并与Deepset、LangChain和LlamaIndex
等流行AI框架
集成
为了加速AI应用
企业可以使用CUDA-X微服务
包括定制语音和翻译AI的英伟达Riva
用于路径优化的英伟达cuOpt
用于高分辨率气候和天气模拟的英伟达Earth-2
等等
同时呢英伟达即将推出一系列
用于定制模型开发的NeMo微服务
开发者可以在ai.nvidia.com免费试用英伟达的微服务
企业可以使用英伟达AI enterprise 5.0部署生产级的NIM微服务
第四招推出生成式AI算法
联手两大芯片界顶流
掀起光刻计算新革命
在去年的GTC大会
上
英伟达面向芯片制造行业
甩出了一项秘密研发四年的大招
那就是通过突破性的光刻计算库cuLitho
将计算光刻
加速40-60倍
加速突破生产两纳米
以及更先进芯片的物理极限
这个项目的合作者
都是芯片产业链最鼎盛
的存在
包括全球最大的AI芯片巨头英伟达
全球最大的晶圆代工商台积电
全球最大的EDA巨头新思科技
计算光刻技术呢是芯片制造的基石
现在在Culitho加速流程的基础上
通过生成式的AI算法
将工作流的速度又提升了两倍
具体来说呢
就是晶圆厂
许多工艺的变化呢
都需要去修正光学邻近校正OPC
这个呢会增加计算量
造成开发的瓶颈
Culitho提供的加速计算
和生成式AI
能够缓解这些问题
通过生成式AI可以创建近乎完美的反向掩模解决方案
来解决光衍射
的问题
然后呢再通过传统的物理方法
推导出最终的光掩模
从而将整个OPC的过程加快两倍
在芯片制造过程中
计算光刻是计算最密集的工作负载
每年在CPU上要消耗数百亿个小时
相比于基于CPU的方法
基于GPU的加速计算光刻库cuLitho
能够大大地改进芯片的制造工艺
通过加速计算
350个英伟达H100系统
就可以取代4,000个CPU系统
大幅提高了吞吐量
加快生产降低成本空间和功耗
台积电呢目前正在将英伟达cuLitho
投入生产
通过将GPU加速计算整合到台积电的工作流程
中
实现了性能的巨大飞跃
在共享工作流程
上测试cuLitho的时候
两家公司共同实现了曲线流程45倍
的加速
以及传统曼哈顿流程
将近60倍的改进
第五招Isaac机器人平台重大更新
全新的人形机器人基础模型
和计算机
除了生成式AI
英伟达还相当看好具身智能
并且发布了人形计算机通用基础模型
project GROOT
基于Thor SoC
的新型人形机器人计算机Jetson Thor
黄仁勋说
开发通用人形计算机基础模型
是当今AI领域中最令人兴奋的课题之一
Jetson Thor具有针对于性能
功能和尺寸优化的模块化架构
这个SoC
包括一个带有Transformer引擎
的下一代Blackwell GPU
英伟达正在为一些领先的人形机器人公司
开发一个综合性的AI平台
比如1X、Agility Robotics、Apptronik、波士顿动力、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等
此外呢英伟达对Isaac机器人平台
进行了重大的升级
包括生成式AI基础模型和仿真工具
以及AI工作流
的基础设施
新功能呢将在下个季度推出
英伟达还发布了一系列的机器人预训练模型库
和参考的硬件
比如Isaac Manipulator
为机械臂提供了灵活性和模块化的AI功能
以及一系列基础模型和GPU加速库
此外
Isaac Perceptor
还提供了先进的多摄像头
3D重建深度感知等等功能
Omniverse平台
公开了最新的进展
挺进苹果Vision Pro
,发布云API
在会上英伟达宣布
将Omniverse平台引入了苹果Vision Pro
对于工业数字孪生
的应用
英伟达将以API的形式提供Omniverse Cloud
开发人员可以借助API
将交互式的工业数字孪生流传输到VR头显中
通过使用API
开发者能够轻松地将Omniverse的核心技术
直接集成到现有的数字孪生设计
与自动化软件应用
中
或者是集成到用来测试和验证机器人
或者是自动驾驶汽车
等等自主机器
的仿真工作流程
黄仁勋相信
所有制造出来的产品都将拥有数字孪生
Omniverse是一个可以构建
并且操作物理真实的数字孪生的操作系统
他认为Omniverse和生成式AI都是将
价值高达50万亿美元的重工业市场
进行数字化所需的基础技术
这次发布的5款全新Omniverse cloud API
既可以单独的使用
又可以组合使用
分别包括USD Render
可以生成OpenUSD数据
的全光线追踪RTX渲染
USD Writer
可以让用户能够修改OpenUSD数据
并且与之交互
USD Query
可以支持场景查询
和交互式
的场景
USD Notify
可以追踪USD变化
并且提供更新的信息
Omniverse Channel
可以连接用户工具和世界
实现跨场景的协作
Omniverse Cloud API
将于今年的晚些时候
在微软Azure
上
或者是英伟达OVX
上以托管服务
的形式提供
除了上述这些重要的发布之外
黄仁勋还在演讲中分享了一些其他的进展
在电信领域
英伟达将会推出6G研究云平台
这是一个生成式AI和Omniverse驱动的平台
目的呢在于推进无线通信技术的开发
英伟达的地球气候数字孪生云平台Earth-2
现在呢已经可以使用了
可以实现交互式的高分辨率模拟
从而加速气候和天际的预测
黄仁勋还认为
AI的最大影响将是在医疗健康领域
英伟达已经在与成像系统
基因测序仪器
以及领先的手术机器人公司
合作
并且呢正在推出一种新型的生物软件
在汽车行业
全球最大的自动驾驶汽车公司比亚迪未来电动汽车
将搭载英伟达采用的Blackwell架构
的新一代自动驾驶汽车处理器DRIVE Thor
DRIVE Thor预计最早将于明年开始量产
性能高达1000TFLOS
黄日勋在会上说到
英伟达的灵魂是计算机图形学
物理学
和人工智能
的交集
在演讲结束的时候
他划了五个重点
新工业、Blackwell平台、NIM微服务、NEMO和AI代工厂、Omniverse和Isaac机器人
黄仁勋的这场主题演讲
无疑是GTC大会的一个重头戏
但是对于现场和远程的参会者来说
精彩才刚刚拉开序幕
接下来会有超过1,000场
围绕着英伟达最新进展以及热门的前沿技术的演讲
、对话培训
和圆桌讨论
一一展开
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。