赞
踩
整理 | 王轶群
责编 | 唐小引
出品丨AI 科技大本营(ID:rgznai100)
“你所看到的一切的基础是两项基本技术,加速计算和在宇宙中运行的人工智能。”6月2日晚7点,英伟达 CEO 黄仁勋在 Computex 2024 开幕前带来现场主题演讲《揭开新工业革命序幕》。
在这场不到2小时的演讲中,黄仁勋承接 GTC 2024 的科技成果,官宣了最新的芯片计划,并带来了芯片设备、数字孪生技术,以及机器人的最新构想及产业应用突破。
“这是我们第一次举办夜间演讲,这些是早间演讲中做不来的。”黄仁勋的多个重磅推出和精彩的demo演示把台大体育馆现场氛围拉满。
芯片布局再上分:
Blackwell 量产,继任者 Rubin 2026年推出
英伟达新架构Blackwell宣布不过3个月,老黄又带来了重磅消息。
老黄表示,Blackwell芯片现已开始投产。他还表示,英伟达计划每年升级其 AI 加速器,在最新的芯片规划中:
2025 年推出 Blackwell Ultra 芯片;
2026 年推出使用 HBM4 内存的 Blackwell 继任者 Rubin 芯片;
2027年推出 Rubin Ultra,新一代基于 Arm 的 Vera CPU,以及 NVLink 6 Switch(3600GB/s)。
后续芯片计划中的Rubin 和 Vera 的命名均源自美国天文学家 Vera Rubin,她是研究暗物质先驱。
“我在这里向你们展示的所有这些芯片都在完全开发中,百分之百。" 英伟达创始人兼 CEO 黄仁勋说,英伟达的更新节奏以年为单位,所有架构都是兼容的," 以一年为周期,我们把所有东西推向技术极限。”
到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。同时,老黄还给token定了个中文译名“词元”。
这次的主角依旧是 Blackwell。
老黄在现场展示了 Blackwell 芯片主板,称这是“世界上最复杂、性能最高的计算机”。
越大越节能,秒杀摩尔定律
8 年 AI 算力涨 1000 倍,能耗降到 1/350,老黄和他的Blackwell 正在秒杀摩尔定律。
黄仁勋介绍道,8 年内英伟达 AI 算力增加了 1000 倍,能以更低成本去训练大模型。举例来说,训练 1.8 万亿参数、8 万亿 token 的 GPT-4,所需能耗从 8 年前 Pascal 架构的 1000GWh 减少到 Blackwell 的 3GWh,也就是说将能耗足足降至 8 年前的 1/350。
此外,Blackwell 将生成 token 的能耗降至 8 年前的 1/45000。以前用 Pascal 产生 1 token 的能耗相当于 2 个 200W 灯泡运行 2 天,让 GPT-4 生成一个单词大约需要 3 个 token。现在 1 token 只用 0.4J 能耗。
不止于此,老黄表示,必须制造更大的机器,英伟达构建它的方式是风冷 DGX 和液冷 MGX。
其中 DGX 的 AI 算力提升到上一代的 45 倍,达到 1440PFLOPS,而能耗仅为上一代的 10 倍。新一代 DGX 能搭载 72 个 GPU,背后由 NVLink 5000 根电缆组成的主干支持,能为一个机架节省 20kW 电能。
MGX系统的核心在于两块Blackwell芯片,每个节点都集成了四个Blackwell芯片,这样的节点共有九个,共计72个GPU,这些GPU通过NV链接技术紧密相连,使得每个Blackwell芯片高效连接,构成巨大的72 GPU集群。相较于上一代的8个GPU,其性能提升了9倍,带宽增加了18倍,每秒浮点运算次数提升了45倍,功率仅增加了10倍。这样的系统能提供100千瓦的强劲动力,而上一代仅为10千瓦。
省电,就意味着省钱。黄仁勋在现场展示了他的CEO数学: “买得越多,省得越多”。
英伟达通过 GPU+CPU 组合,实现了高达 100 倍的加速,同时功耗仅增加到 3 倍,成本仅增加到 1.5 倍。
老黄建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作,将任务完成时间从“100 个单位缩短到 1 个单位”。因此,从长远来看,增加投资反而能节省成本。
“这种性能提升所带来的好处是惊人的,加速100倍,而功率仅增加约3倍,成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU,就能使其性能大幅提升,同时整体价值也增加至1000美元。在数据中心上,我们也采用了同样的方法。一个价值十亿美元的数据中心,在添加了价值5亿美元的GPU后,瞬间转变为一个强大的人工智能工厂。今天,这种变革正在全球范围内发生。”
AI 加速进行时
“近二十年来,我们一直致力于加速计算的研究。CUDA技术增强了CPU的功能,将那些特殊处理器能更高效完成的任务卸载并加速。事实上,由于CPU性能扩展的放缓甚至停滞,加速计算的优势愈发显著。我预测,每个处理密集型的应用都将实现加速,且不久的将来,每个数据中心都将实现全面加速。”
“数百万 GPU 数据中心的时代即将到来!" 黄仁勋宣布每年推出新的 Spectrum-X 产品。
NVIDIA Spectrum-X 是全球首款专为 AI 打造的以太网网络平台,可将网络性能较传统以太网网络平台提升 1.6 倍,能加快 AI 工作负载的处理、分析和执行速度。Spectrum-X800 为数万个 GPU 而设计,X800 Ultra 为数十万个 GPU 而设计,X1600 则可扩展至数百万个 GPU。
英伟达计划每年推出 Spectrum-X 新品,提供更高的带宽、更多的端口、更加强大的软件功能集与可编程能力,不断提高 AI 以太网网络性能。CoreWeave、Lambda 等 AI 云服务提供商率先采用 Spectrum-X。
除了基础设施的全面加速,老黄认为AI也在加速每一个应用程序。“选择加速计算是明智之举,这已成为行业共识。”
老黄在演讲中还提到了GTC 2024发布的NIM的最新进展。
NIM推理微服务,这一帮助开发者或者企业轻松构建AI应用,可大幅简化大模型部署程序,不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。
企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。
“想要了解更多或试用这些版本,只需访问ai.nvidia.com。今天,我们在Hugging Face上发布了完全优化的Llama 3 Nim,你可以立即体验,甚至免费带走它。无论你选择哪个云平台,都能轻松运行它。当然,你也可以将这个容器下载到你的数据中心,自行托管,并为你的客户提供服务。”他表示。
目前,近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、Scale AI和Synopsys等,正在将NIM集成到他们的平台中。
此外,英伟达还推出了RTX AI Toolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的Stable Diffusion推理速度是Mac的7倍。
数字孪生引发产业变革:
升级孪生技术,精准预测气象
老黄介绍了NVIDIA最近推出了一种名为Avatar Cloud Engine (ACE)的先进数字人AI技术,旨在提升游戏和虚拟世界中角色的互动体验。ACE 生成式AI微服务也包含在NIM中。
ACE 生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、 Audio2Face等套件,还增加基于音轨生成身体姿势Audio2Gesture和Nemotron-3 4.5B,即英伟达首款SLM,专为低延迟端侧设备而生。
“ACE不仅能在云端高效运行,同时也兼容PC环境。我们前瞻性地将Tensor Core GPU集成到所有RTX系列中,这标志着人工智能GPU的时代已经到来,我们为此做好了充分准备。”
这一数字人微服务将部署在一亿台RTX AI PC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTX AI PC型号。
“因此,我们在每一款RTX GPU中都集成了Tensor Core处理单元,目前全球已有1亿台GeForce RTX AI PC投入使用,而且这个数字还在不断增长,预计将达到2亿台。在最近的Computex展会上,我们更是推出了四款全新的人工智能笔记本电脑。”黄仁勋表示。
不仅人类可以孪生,地球也可以,并且能够更精准预测极端天气。
老黄还介绍了 NVIDIA Earth-2,它融合了人工智慧、物理模拟和观测数据。
数字孪生地球 Earth-2,主要用于天气观测。基于 CorrDiff 生成式 AI 模型技术,Earth-2 能够从今天的数据预测未来世界的影响。 相对于第一代 Earth,Earth-2 能以 12 倍解析度精确预测天气信息,提高 3000 倍能源效率。
英伟达同时表示,Earth-2 未来还将支持超本地预测,能够模拟建筑物周围的气流,在气象局的测试结果中,能够以 10 米的精确值预测台风登陆点,以帮助有关部门和公司精确预见未来,防止极端天气的影响。
“机器人时代已经来临”
“机器人时代已经来临,这是人工智能的下一波浪潮。”老黄激动地说。
“物理人工智能正引领人工智能领域的新浪潮,它们深谙物理定律,并能自如地融入我们的日常生活。为此,物理人工智能不仅需要构建一个精准的世界模型,以理解如何解读和感知周围世界,更需具备卓越的认知能力,以深刻理解我们的需求并高效执行任务。”
演讲最后的重头戏,老黄介绍了用于机器人开发的技术平台,NVIDIA Isaac。Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。
其中包括:
NVIDIA Isaac ROS:一系列模块化的ROS 2包,为ROS社区开发者带来NVIDIA加速和AI模型;
NVIDIA Isaac Perceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力;
NVIDIA Isaac Manipulator:一个简化AI启用机械臂开发的参考工作流程;
NVIDIA Isaac Sim:一款参考应用程序,用于在基于NVIDIA Omniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据;
NVIDIA Isaac Lab:Isaac Sim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化;
目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。
“当提及机器人技术时,人们往往会联想到人形机器人,但实际上,它的应用远不止于此。机械化将成为常态,工厂将全面实现自动化,机器人将协同工作,制造出一系列机械化产品。它们之间的互动将更加密切,共同创造出一个高度自动化的生产环境。”
英伟达致力于为不同类型的机器人系统打造平台:机器人工厂与仓库专用平台、物体操纵机器人平台、移动机器人平台,以及人形机器人平台。这些机器人平台与我们其他众多业务一样,依托于计算机加速库和预训练模型。
机器人工厂由三个主要计算机系统组成,在NVIDIA AI平台上训练人工智能模型,以确保机器人在本地系统上高效运行以编排工厂流程;同时利用Omniverse这一模拟协作平台,对包括机械臂和AMR(自主移动机器人)在内的所有工厂元素进行模拟。Omniverse 是机器人训练场,在这里,机器人学会如何做机器人。这些模拟系统均共享同一个虚拟空间,实现无缝的交互与协作。
黄仁勋坚信下一波 AI 浪潮是物理 AI,并看好人形机器人:“与其他类型的机器人相比,训练人形机器人需要大量的数据。由于我们拥有相似的体型,通过演示和视频能力提供的大量训练数据将极具价值。因此,我们预计这一领域将取得显著的进步。”
未来已来,这不是科幻,这真实发生在我们身边的生活、工作与产业变革上。
“机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。”黄仁勋说道,“This isn't the future,this is happening now.”
参考链接:
https://www.nvidia.cn/events/computex/?ncid=so-wech-642406
开发者正在迎接新一轮的技术浪潮变革。由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料(案例)的内容原则,将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题:大模型智能应用开发、软件开发智能化、AI 与 ML 智能运维、云原生架构……详情
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。