![]()
截图来自英伟达官方直播视频
黄仁勋在GTC大会上的主题演讲还未结束,他“Token之王”的“梗图”就已在社媒上流传开来。
的确,目前没有人比他更适合这个称号了。
在这场最新的“AI春晚”中,黄仁勋给出了“截至2027年,公司AI芯片营收将达到至少1万亿美元”的惊人预期。要知道,在IDC的预测中,即使半导体行业在AI等需求刺激下保持11%的整体增速,2026年行业整体规模也只是大致在8900亿美元左右。而英伟达2025财年的总营收是2159亿美元。对比之下,期间有巨大的增长空间。
![]()
截图来自英伟达官方直播视频
在这个预期目标背后,英伟达也推出了一系列重磅产品。
在硬件层面,核心主力产品是此前已频繁露面、即将在今年下半年量产的Vera Rubin平台,以及“AI推理优化版”的Rubin Ultra架构。
此外,黄仁勋还一口气拿出了7款芯片新品,备受市场瞩目的Groq LPU和首次独立出售的Vera CPU都如期亮相。
在软件层面,黄仁勋再次展现了英伟达紧跟时代、快速反应、擅长押注未来的特质。英伟达针对今年爆火的智能体(Agent)OpenClaw,推出了NemoClaw专属软件栈,主打一键安装、安全可靠,成为该公司在智能体时代的最新布局。
在黄仁勋去年起常挂在嘴边的“AI工厂”(AI factory)和“物理AI”(Physical AI)方面,英伟达也宣布了全新布局,推出Vera Rubin DSX AI工厂参考设计,包含一系列优化能耗和性能的软件模块,并宣布了在自动驾驶和机器人领域的一系列合作。
Rubin平台全面揭晓
在此次GTC大会之前,核心主力产品Rubin并非市场关注焦点,但这主要是因为相关信息已通过包括官方在内的多个渠道频繁曝光。可以说,虽然这个新一代产品还未规模化走向市场,但却已仿佛是大家的“老朋友”。
从黄仁勋的演讲来看,集成七大机架、搭载带宽高达22 TB/s的HBM4,推理算力达到前一代Blackwell的5倍,而训练大型MoE模型所需GPU数量减少3/4,每token推理成本降至十分之一等仍是这款新一代产品的最大亮点。
![]()
截图来自英伟达官方直播视频
而黄仁勋给到的新信息中较值得注意的,一是此前传出会单独出售的Vera CPU已进入全面量产阶段。黄仁勋称该产品性能比传统机架级CPU快50%,效率是其两倍,预计今年下半年将进入交付阶段。这意味着未来英伟达也将参与到由AMD和英特尔把持的CPU市场竞争中,黄仁勋还透露,包括阿里巴巴、字节跳动、Meta、甲骨云、CoreWeave等知名云厂商都将使用这款产品。
二是颇为神秘的Space-1 Vera Rubin,黄仁勋称该模组主要用于太空数据中心,但并未给出更多体信息。
![]()
截图来自英伟达官方直播视频
另一方面,作为新一代AI硬件领域的旗舰产品,Rubin带来的产业链变化也尤其重要。
比如新一代机架采用的全液冷设计,这也意味着风冷将逐步退出最先进AI硬件系统的市场。此前,一位在跨国企业负责热管理与数据中心业务的业内人士此前即对我们表示,无论是以英伟达为首的GPU,还是迅速崛起的谷歌TPU,拿掉风扇都是大势所趋,业内目前已将Rubin视为风向标。他还预测,未来一段时间内,传统数据中心中的液冷渗透率会超过50%,而AI数据中心(AIDC)的液冷渗透率最终会到达100%,这对于行业和投资者来说都是十分可期的机会。
黄仁勋也重点介绍了还有全球首个采用 CPO(共封装光学)的Spectrum-6 SPX交换机,这也是近期资本市场关注的重点。而包括PCB(印刷电路板)、CCL(覆铜板)等产业链机会,都将随着新产品的迭代而持续发生变化。
此外,被定位为Vera Rubin高端迭代版本、推理性能将大幅提升的Rubin Ultra,预计将于2027年下半年正式推出。其采用Kyber机架,在一个NVLink域内连接144个GPU,计算节点垂直滑入,中面板集成NVLink交换机,实现更大规模纵向扩展。不过,关于这款产品,黄仁勋并未公布太多具体技术细节。而下一代Feynman架构的时间表未变,仍预计将于2028年推出。
押注LPU,押注推理
AI正处在从训练走向推理的转换阶段。
对此,黄仁勋有自己更加形象的案例解读。他讲ChatGPT、o1推理模型,以及Claude Code智能体称为过去三年的“三件大事”,并总结称这背后正是推理需求的激增。
![]()
截图来自英伟达官方直播视频
在今年的演讲中,黄仁勋只提到了10余次“训练”(training),但提到了近40次“推理”(inference)。
但英伟达的GPU一直以其通用性、适合大规模并行运算见长,但在推理领域并不占据绝对领先优势,尤其在谷歌TPU等定制化ASIC芯片愈发成熟后,临推理需求的市场份额被瓜分一直被视为该公司的隐忧。
在此背景下,去年12月英伟达以200亿美元的天价与走LPU(语言处理单元)路线的Groq达成非排他性技术许可协议被视为一次重要押注。
在此次GTC大会主题演讲上,黄仁勋也如约公布了与Groq的合作细节和相关产品情况。
他讲Groq LPU定位为“token加速器”,表示其会深度集成到Vera Rubin平台中,负责解码阶段的生成任务,利用其低延迟优势快速生成token,与擅长高吞吐量计算、负责prefill(预填充)和注意力机制计算的Vera Rubin形成互补。
在英伟达给出的数据中,结合Vera Rubin后,Groq LPU能将特定高价值工作负载的吞吐量提升35倍,解锁1000 token/秒以上的超高速token生成。
![]()
截图来自英伟达官方直播视频
黄仁勋还透露,目前英伟达已量产Groq LP30,由三星代工,预计下半年即将出货。Groq LPX
而在未来路线图中,Groq LP35/LP40将整合英伟达NVFP4计算结构,性能实现持续倍增。
英伟达版LPU走向市场后效果如何仍是未知之数,但其后的行业变革趋势已愈发明晰。
后摩智能联合创始人、产品副总裁信晓旭对我们表示,英伟达已告别了通用架构打天下的思路,转向构建“GPU主攻吞吐、LPU专攻时延”的双轨推理体系。对行业而言,这也释放了两个明确信号:一是基于SRAM的存算架构在AI推理场景的价值被巨头用高价验证,架构创新的窗口期已经到来;二是“唯HBM论”的供应链格局正在松动,更多的技术路径在产能和成本上将获得更大自主权。
“未来的AI芯片竞争,将不再只是算力参数的堆砌,而是架构创新与供应链多元化的综合较量”。他表示。
英伟达版“龙虾”现身
最近一段时间,黄仁勋几乎变成了OpenClaw的“自来水”,从财报电话会到摩根士丹利的活动,数次谈及这款当下最火爆的Agent,并不吝溢美之词。
在GTC大会演讲中,他也将大块时间分给了OpenClaw。
他重申自己此前观点,认为OpenClaw的重要性堪比开启了开源操作系统时代的Linux和开启了互联网时代的HTML。它是有史以来最受欢迎的开源项目,在短短几周内取得的成就甚至超过了Linux三十年来的影响力。
“OpenClaw本质上开源了Agent计算机的操作系统,现在,我们每个人都能创建自己的个人Agent,这种影响是不可思议的。”黄仁勋还将其意义类比于Windows开启了个人电脑时代,并对其能带来的革命性变化大书特书。
而一向强调AI行业已进入Agentic AI阶段的英伟达也迅速响应,联合OpenClaw开发者彼得·斯坦伯格(Peter Steinberger)推出英伟达版“龙虾”平台NemoClaw。
![]()
截图来自英伟达官方直播视频
据黄仁勋介绍,该平台主要针对企业客户,能够实现OpenClaw的一键部署,企业可以在平台上构建自己的个性化Agent产品。
作为ToB产品,安全性至关重要。黄仁勋介绍称NemoClaw集成了隐私护栏和策略引擎,让Agent在企业网络中安全行动。与此同时,英伟达开放了Nemotron等六大系列前沿模型,为OpenClaw注入“大脑”。同时宣布成立““Nemotron联盟”,汇集了Black Forest Labs、Cursor、Perplexity以及Thinking Machines Lab等多个不同方向的初创公司,旨在围绕英伟达的平台,共同构建和优化面向特定行业的Agent解决方案。
“世界上每一家企业,每一家软件公司都需要一个Agent系统,一个Agent战略,”黄仁勋称,显然,在他的愿景中,英伟达将是这个庞大市场上的重要参与者,而最终,Agent带来的算力需求指数级增长,将让英伟达的芯片迎来更加辉煌的时刻。
实际上,结合此前财报电话会上对“Agentic AI迎来拐点”的判断来看,这也是黄仁勋坚定看好Blackwell和Rubin能够在2027年前达到至少万亿美元营收的关键。
而对于英伟达来说,除了提高产量,还需要不断提高自身产品的能效比,来以高技术规格维持自身的高毛利率。
也正是在这个意义上,黄仁勋不断强调英伟达在每瓦Token数上的优势,并戏剧性地给出了“Token之王”的梗图。
但也应该看到,本就在能耗、总拥有成本(TCO)上有优势的ASIC芯片已然强势崛起,今朝王者英伟达在未来面临的竞争只会更加激烈。
“ChatGPT时刻”又来了,这次有三个
“医疗保健正在经历他们的ChatGPT时刻。”
“自动驾驶汽车的ChatGPT时刻已经到来。”
近年来的黄仁勋越来越像一个AI理论学家和未来学家,不仅推出了AI演进“四段论”、AI产业“五层蛋糕论”、“AI工厂”(背后是Token经济学)等概念体系,还经常为某个领域的发展阶段和前景下判词。
“ChatGPT时刻”是他最爱用的词汇之一,在本次GTC大会上,他接连判断医疗领域、自动驾驶领域已经迎来这一节点。
而在此前的CES2026上,他还预判以人形机器人为代表物理AI已进入“ChatGPT 时刻”倒计时。
不过,黄仁勋的判断看起来是经过深思熟虑的。
目前,医疗领域是AI商业化进展最好的行业,OpenAI、Anthropic等今年以来都推出了相应的AI产品和服务,英伟达也在这方面和包括礼来等国际巨头开展了合作。
而自动驾驶一直都被认为是AI在现实世界落地的破局点之一,也是英伟达持续押注的未来方向。
在物理AI领域,除了自动驾驶,机器人也是英伟达最看好的未来发展方向。实际上,近几年的GTC大会基本都以机器人压轴。
![]()
截图来自英伟达官方直播视频
在今年GTC收尾阶段,黄仁勋与迪士尼“雪宝”机器人展开了一段对话,借此展示英伟达的Newton系统、Omniverse平台如何帮助机器人在虚拟世界中训练技能,并最终推动物理AI落地。
从AI大爆发以来,黄仁勋的GTC主题演讲就早已不再是一场产品发布会,而更像是英伟达对未来世界的推演。
在20年前GUDA面世、2009年GTC首次举办之时,不会有人想到英伟达能有今日的辉煌。甚至在ChatGPT掀起AI巨浪时,人们不会预测到英伟达将成为人类历史上首个市值突破4万亿美元、5万亿美元的公司。
这家公司一直赢在对未来的押注上,而在GTC2026上,从新一代芯片到推理,从Agentic AI再到Physical AI,黄仁勋再次给出了英伟达看到的未来图景,以AI如今的发展速度来看,这份图景能否成真,或许很快就将得到验证。(作者|胡珈萌,编辑|李程程)
以下为黄仁勋主题演讲全文,由AI翻译,经钛媒体编辑整理:
欢迎来到GTC。
我只是想提醒大家,这是一个技术大会。这么多人一大早就来排队,还有在座的各位,很高兴见到你们。
在GTC,我们将讨论技术,讨论平台。英伟达有三个平台。你们可能以为我们主要谈论其中之一,它与CUDA-X有关。我们的系统是另一个平台,现在我们有了一个新平台,叫做AI工厂。我们将讨论所有这些,最重要的是,我们将讨论生态系统。
在开始之前,我要感谢我们暖场环节的主持人。我认为他们做得非常出色。Sarah Guo,来自Conviction;Alfred Lin,红杉资本,英伟达的第一位风险投资人;Gavin Baker,英伟达的第一位重要机构投资者。这三位都深耕于技术,深知行业动态,当然,他们在技术生态系统中也有着非常广泛的人脉。当然,还有我今天亲自挑选的所有VIP,一个全明星团队。我要感谢你们所有人。我还要感谢所有到场的公司。如你们所知,英伟达是一家平台公司。
我们拥有技术,拥有平台,拥有丰富的生态系统。今天,大概100%的、价值100万亿美元的行业都来到了这里。450家公司赞助了此次活动。我要感谢你们。1000场技术会议,2000位演讲者。这次大会将涵盖人工智能五层蛋糕的每一层,从土地、电力和外壳,基础设施,到芯片,到平台,模型,当然,最终让这个行业腾飞的最重要的,是所有应用。
一切从这里开始。这是CUDA的20周年纪念日。我们研究CUDA已经有20年了。20年来,我们一直致力于这个架构。这项革命性的发明,SIMT,单指令多线程,编写标量代码可以衍生出多线程应用。编程起来比SIMD容易得多。我们最近添加了tile,以便帮助人们编写张量核心程序和数学结构,这些对今天的人工智能至关重要。数千种工具、编译器、框架和库。在开源社区,有几十万个公共项目。CUDA确实已经集成到每一个生态系统中。这张图基本上描述了英伟达 100%的战略。你们从一开始就看着我谈论这张幻灯片。
归根结底,最难实现的一件事是底部的安装基数。我们花了20年时间,现在已经在世界各地建立了数以亿计的、运行CUDA的GPU和计算系统。我们存在于每一朵云中。我们存在于每一家计算机公司中。我们服务于几乎每一个行业。CUDA的安装基数正是飞轮加速的原因。安装基数吸引开发者,开发者创造新算法,从而实现突破。例如,深度学习。还有很多其他的突破。这些突破带来了全新的市场,围绕它们建立新的生态系统,其他公司加入,从而创建更大的安装基数。这个飞轮正在加速。英伟达库的下载量正在以难以置信的速度增长。它的规模非常庞大,而且增长速度比以往任何时候都快。这个飞轮使这个计算平台能够承载如此多的应用,如此多的新突破,但最重要的是,它也使这些基础设施具有超长的使用寿命。原因很明显。有太多的应用可以在英伟达 CUDA上运行。我们支持AI生命周期的每一个阶段。
我们处理每一个数据处理平台。我们加速各种科学主求解器。应用范围如此之广,以至于一旦你安装了英伟达 GPU,它的使用寿命就会变得非常高。这也是为什么大约六年前我们出货的Ampere,在云中的价格正在上涨的原因之一。
所有这些之所以成为可能,根本原因在于安装基数高,飞轮效应强,开发者覆盖广。当这一切发生时,我们持续更新我们的软件。计算成本下降。加速计算极大地加速了应用程序。同时,随着我们在其生命周期内持续维护和更新软件,您不仅能获得初始的性能提升,还能随着时间的推移,持续享受到加速计算成本的降低。我们愿意维护,愿意支持世界上的每一个GPU,因为它们在架构上都是兼容的。我们这样做是因为安装基数如此之大,如果我们发布一个新的优化,它将惠及数百万用户。
这适用于世界上的每一个人。这种动态组合使得英伟达架构能够扩大其覆盖范围,加速其增长,同时降低计算成本,最终鼓励新的增长。
CUDA是这一切的核心。我们通往CUDA的旅程实际上始于25年前。GeForce。
我不知道你们有多少人是玩着GeForce长大的?GeForce是英伟达最伟大的营销活动。我们在你们自己负担得起费用之前很久就开始吸引未来的客户。你们的父母买单。你们的父母为你们成为英伟达的客户买单,并且每年都付钱,年复一年,直到有一天你成为了一名出色的计算机科学家,成为了一名真正的客户。一名真正的开发者。
这是GeForce建造的房子。25年前,我们开始了我们的旅程,最终走向了CUDA。25年前,我们发明了可编程着色器。这是一个在当时完全不明显的发明,让加速器变得可编程。世界上第一个可编程加速器,像素着色器。25年前,这引导我们进行更深入的探索。20年后,5年后,CUDA诞生了。这是我们所做的最大投资之一,当时我们承担不起,它消耗了我们公司绝大部分的利润,但我们还是让CUDA借助GeForce进入了每一台计算机。我们致力于创建这个平台,因为我们强烈地感受到它的潜力。
最终,公司对它的执着,尽管最初困难重重,但20年来13代产品,我们每天都坚信不疑,现在我们让CUDA无处不在。像素着色器当然也引领了GeForce的革命。
八年前,我们推出了RTX,为现代计算机图形时代彻底重新设计了我们的架构。GeForce将CUDA带给了世界。因此,GeForce使得Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng以及许多其他人发现,GPU可以成为他们加速深度学习的朋友。它引发了AI的大爆炸。10年前,我们决定融合可编程着色,并引入两个新想法:光线追踪,硬件光线追踪,这极其困难,以及当时的一个新想法。想象一下,大约10年前,我们认为AI将彻底改变计算机图形学。
正如GeForce将AI带给世界一样,现在AI将回过头来彻底改变计算机图形的制作方式。好吧,今天我将向你们展示一些未来的东西。这是我们下一代图形技术。我们称之为神经渲染。3D图形和人工智能的融合。
这是DLSS 5。看看吧。是不是不可思议?计算机图形变得栩栩如生。那么,我们做了什么?我们融合了可控的3D图形,虚拟世界的基本事实,结构化数据,记住这个词,虚拟世界的结构化数据,生成世界的结构化数据。我们将3D图形,结构化数据,与生成式AI结合起来。概率计算。一个是完全预测性的,另一个是概率性的,但高度逼真。我们结合了这两个想法,通过结构化数据进行完美控制,同时又进行生成。结果是,内容既美观、惊艳,又是可控的。这种融合结构化信息和生成式AI的概念将在一个又一个行业中重复出现。结构化数据是可信AI的基础。
嗯,这可能会让你们有点紧张。我要翻到下一页幻灯片,不要倒吸一口气。我们将在剩下的时间里讲解这张示意图。这是我最好的幻灯片。每次我问团队:"我最好的幻灯片是哪张?"一次又一次,就是这张。他们说:"别这么做,Jensen。别这么做。"我说:"不,你们中有些人的座位是免费的。"所以这是你们的入场券。
这就是结构化数据。你们听说过,SQL、Spark、Pandas、Velox,其中一些非常重要的、非常庞大的平台。Snowflake、Databricks、EMR、Amazon EMR、Azure、Fabric、Google Cloud、BigQuery。所有这些平台都在处理数据帧。这些数据帧是巨大的电子表格,它们承载着生命中的所有信息。这是结构化数据,是商业的基本事实。这是企业计算的基本事实。好吧,现在我们将让AI使用结构化数据,我们最好极大地加速它。以前还可以,当然,我们会加速结构化数据,以便我们能做更多,更便宜,每天更频繁地执行,让公司以更同步的方式运行。
然而,未来将会发生的是,这些数据结构将被AI使用,而AI将比我们快得多。未来的智能体也将使用结构化数据库。当然,还有非结构化数据库,生成式数据库。这个数据库代表了世界的绝大部分。向量数据库、非结构化数据、PDF、视频、语音,世界上所有的信息,每年产生的大约90%是非结构化数据。
直到现在,这些数据对世界来说完全没用。我们阅读它,把它放进我们的文件系统,仅此而已。不幸的是,我们不能查询它。我们不能搜索它。很难做到。原因是因为没有简单的索引非结构化数据的方法。你必须理解它的含义、它的目的。现在我们让AI来做这件事。正如AI能够解决多模态感知和理解一样,你可以使用同样的技术,多模态感知和理解,去阅读PDF,理解其含义,并从这个含义出发,将其嵌入到一个更大的、我们可以搜索、可以查询的结构中。
英伟达创建了两个基础库。就像我们为3D图形创建RTX一样,我们为数据帧(结构化数据)创建了cuDF。我们为向量存储、语义数据、非结构化数据、AI数据创建了cuVS。这两个平台将成为未来两个最重要的平台。非常兴奋地看到它在整个网络中的采用,在这个复杂的世界数据处理系统网络中。这是因为数据处理已经存在很长时间了,因此有这么多不同的公司、平台和服务,我们花了很长时间才深入集成到这个生态系统中。
我为我们在这里所做的工作感到非常自豪,今天我们将宣布其中的几项。IBM,SQL的发明者,有史以来最重要的领域特定语言之一,正在使用cuDF加速watsonx.data。让我们来看看。60年前,IBM推出了System/360,这是第一个通用计算的现代平台,开启了计算时代。SQL,一种无需逐步指示计算机即可查询数据的声明性语言,以及数据仓库,是现代企业计算的基础。今天,IBM和英伟达正在通过使用英伟达 GPU计算库加速IBM watsonx.data SQL引擎,为AI时代重新定义数据处理。数据是赋予AI上下文和意义的基本事实。AI需要快速访问海量数据集。当今的CPU数据处理系统无法跟上。Nestlé每天做出数千个供应链决策。他们的"订单到现金"数据集市汇总了遍布185个国家/地区的全球运营中的每一次供应、订单和交付事件。在CPU上,Nestlé每天刷新数据集市几次。借助在英伟达 GPU上运行的加速版watsonx.data,Nestlé可以以5倍的速度运行相同的工作负载,成本降低83%。下一个计算平台已经到来,那就是为AI时代加速计算。
英伟达加速云中的数据处理。我们也加速本地的数据处理。如你们所知,戴尔是世界领先的计算机系统制造商,同时也是世界领先的存储提供商之一。他们与我们合作创建了戴尔AI数据平台,该平台集成了cuDF和cuVS,为AI时代创建了一个加速数据平台。这是他们与NTT DATA合作的一个例子。巨大的加速。这是云,Google Cloud。Google Cloud,如你们所知,我们已经与Google Cloud合作了很长时间。我们加速Google的Vertex AI。我们现在加速BigQuery,一个非常重要的框架和非常重要的平台。这是我们与Snapchat合作的一个例子,我们将他们的计算成本降低了近80%。当你加速数据处理,当你加速计算时,你获得速度的好处,规模的好处,但最重要的是,你也获得了成本的好处。所有这些汇集在一起。它最初被称为摩尔定律。摩尔定律是关于每几年性能翻倍。换句话说,只要价格保持大致相同,大多数计算机保持大致相同,你每年也能获得两倍的性能,或者你每年都在降低计算成本。
摩尔定律已经耗尽了动力。我们需要一种新方法。加速计算使我们能够向前迈出这些巨大的步伐。稍后你们会看到,因为我们持续优化算法,而英伟达是一家算法公司,随着我们持续优化算法,并且因为我们的覆盖范围如此之广,安装基数如此之大,我们可以为每个人持续降低计算成本,增加规模,提高速度。这是Google Cloud。你们可以看到我刚才提到的模式。我只想给你们看三个版本。英伟达构建了加速计算平台。上面有一堆库。我给了你们三个例子。RTX是其中之一,cuDF是另一个,cuVS,我们还会展示更多。这些库位于我们平台之上,但最终,我们集成到全球的云服务中,集成到全球的OEM厂商中,并且共同,还有其他我将展示的平台,共同覆盖全球。这种模式,英伟达,Google Cloud,Snapchat,将一次又一次地重复,它看起来有点像这样。这是一个例子,英伟达与Google Cloud。我们加速Vertex AI。
我们加速BigQuery。我为我们与JAX和XLA所做的工作感到非常自豪。我们在PyTorch上表现出色。我们是世界上唯一一个在PyTorch和JAX/XLA上都表现出色的加速器。我们支持的客户,如Baseten、CrowdStrike、Puma、Salesforce,他们不是我们的直接客户,但他们是客户,是我们的开发者,我们已将英伟达技术集成到他们的产品中,然后他们可以落地在云上。我们与云服务提供商的关系基本上是我们为他们带来客户。我们集成我们的库,我们加速工作负载,我们让这些客户落地到云中。正如你们所见,我们的大多数云服务提供商都喜欢与我们合作,他们总是要求我们把下一个客户带到他们的云上。我只是想让你们知道,有很多客户。我们将加速所有人。我们将有非常非常多的客户能够落地在你们的云中。请对我们保持耐心。这是Google Cloud。这是AWS。我们与AWS合作了很长时间。今年我非常兴奋的一件事是,我们将把OpenAI带到AWS。这将推动AWS云计算的大量消耗。
这将扩大OpenAI的覆盖范围和计算能力。如你们所知,他们完全受限于计算能力。在AWS,我们加速EMR,加速SageMaker,加速Bedrock。英伟达与AWS进行了非常深入的集成。他们是我们的第一个云合作伙伴。Microsoft Azure。英伟达的A100超级计算机是我们为英伟达建造的第一台。我们安装的第一台是在Azure,这导致了与OpenAI的成功合作。我们与Azure合作了相当长的时间。我们加速Azure云。现在我们与他们深入合作的是他们的AI Foundry。我们加速必应搜索。我们在Azure区域与他们合作。这是一个极其重要的领域。随着我们在全球范围内持续扩展AI,我们提供的一项能力是机密计算。在机密计算中,你要确保即使是操作员也无法看到你的数据,即使是操作员也无法触及或看到你的模型。机密计算,英伟达的GPU是世界上第一个做到这一点的。它现在能够支持机密计算,并在各个云和不同区域中保护这些非常有价值的OpenAI模型和Anthropic模型的部署,这一切都归功于我们的机密计算。
机密计算超级重要。这里有一个例子,展示了我们合作的不同客户。Synopsys,我们的一个伟大合作伙伴,我们正在加速他们所有的EDA和CAE工作流程。然后我们将它落地在Microsoft Azure。我们是Oracle的第一个AI客户。大多数人会认为我们是他们的第一个供应商。我们也是他们的第一个供应商,但我们也是他们的第一个AI客户。我非常自豪我第一次向Oracle解释AI云时,我们就成了他们的第一个客户。从那时起,他们的业务真的起飞了。我们在那里落地了我们的一大批合作伙伴,Cohere和Fireworks,当然,还有非常著名的OpenAI。与CoreWeave的卓越合作。他们是世界上第一个AI原生云。一家公司成立的唯一目的,就是在加速计算时代到来时,为托管GPU和为AI云提供托管服务而生。他们有一些非常棒的客户,并且正在以难以置信的速度增长。另一个我非常兴奋的平台是Palantir和戴尔。我们三家公司共同使得构建一种全新类型的AI平台成为可能,即Palantir Ontology平台,一个AI平台。我们可以在任何国家、任何隔离区域、完全本地、完全现场、完全在野外部署这些平台。
AI几乎可以部署在任何地方。如果没有我们的机密计算能力,没有我们构建端到端系统的能力,以及提供从数据处理(无论是向量还是结构)一直到AI的整个加速计算和AI堆栈的能力,这是不可能实现的。
我想向你们展示这些例子。这是我们与世界各地的云服务提供商的特殊合作关系。许多,嗯,他们都在这里。我可以在展台参观时见到他们,这真是令人无比兴奋。我只想感谢你们所有人的辛勤工作。英伟达所做的是这样的。你们会一次又一次地看到这个主题。英伟达是垂直整合的,是世界上第一家垂直整合但水平开放的公司。之所以必要,原因很简单。加速计算不是一个芯片问题。加速计算不是一个系统问题。加速计算漏掉了一个词。我们只是不再说它了。那就是"应用加速"。如果我能让一台计算机运行所有东西都更快,那叫CPU。但这条路已经走到尽头了。我们未来加速应用、持续带来巨大速度提升、巨大成本降低的唯一方法,是通过应用或领域特定的加速。
我在前面提到了这个短语,然后就简称为加速计算了。这就是为什么英伟达必须一个库接一个库,一个领域接一个领域,一个垂直行业接一个垂直行业地去构建的原因。我们是一家垂直整合的计算公司。别无他法。我们必须理解应用。我们必须理解领域。我们必须从根本上理解算法。我们必须弄清楚如何在任何需要部署的场景中部署算法,无论是在数据中心、云、本地、边缘,还是在机器人系统中。所有这些计算系统都是不同的。
最后是系统和芯片。我们是垂直整合的。而让它变得无比强大,也是你们看到所有这些幻灯片的原因,是因为英伟达是水平开放的。我们将与任何您希望我们集成的平台合作,并将英伟达的技术集成进去。我们向您提供软件。我们向您提供库。我们与您的技术集成,以便将加速计算带给世界上的每一个人。
嗯,这次GTC很好地展示了这一点。你们知道,大多数时候你们会看到我谈论这些垂直领域,我会用一些例子来说明。
在每一个案例中,无论是汽车行业,顺便说一下,金融服务行业,本次GTC与会者中占比最大的来自金融服务行业。我知道。我希望他们是开发者,而不是交易员。各位。我想说的一件事是。在座的各位代表了英伟达生态系统的上游供应链和下游供应链。我们思考我们的上游和下游供应链。令人兴奋的是,去年我们整个上游供应链,无论是50年历史的公司,我们有70年历史的公司,我们有150年历史的公司,现在都成为了英伟达供应链的一部分,与我们在上游或下游合作。去年,你们度过了创纪录的一年。不是吗?祝贺你们。我们正在开创一番事业。这是一件非常、非常重大的事情的开始。如果你看看加速计算,我们现在已经奠定了计算平台。为了激活这些计算平台,我们需要有特定领域的库,来解决我们所针对的每一个垂直行业中非常重要的问题。你们看到我们正在解决每一个领域。自动驾驶汽车。我们的覆盖范围、广度、影响力,令人难以置信。我们在这方面取得了进展。
金融服务,我刚才提到了。算法交易正在从经典的机器学习加上人工特征工程(称为量化)——这是量化分析师做的——转向超级计算机研究海量数据,自行发现洞察和模式。它正在经历它的深度学习和transformer时刻。医疗保健正在经历他们的ChatGPT时刻。我们正在那里做一些非常令人兴奋的工作。我们这里有一个很棒的主题演讲。Kimberly Powell正在做一个关于医疗保健的精彩主题演讲。我们谈论用于药物发现的AI物理学或AI生物学,用于客户服务和诊断支持的AI智能体,当然,还有物理AI机器人系统。所有这些不同的AI方向,英伟达都提供不同的平台。工业领域,我们正在完全重置并开始人类历史上最大的建设。世界上大多数正在建设AI工厂、建设芯片厂、建设计算机厂的行业,今天都来到了这里。媒体和娱乐,游戏,当然,实时AI平台使我们能够进行翻译、广播支持、直播和实时视频。大量的内容将用AI增强。我们有一个叫做Holoscan的平台。量子计算,有35家不同的公司在这里与我们共同构建下一代量子GPU混合系统。
零售和消费品行业,使用英伟达进行供应链管理,创建智能购物系统,用于客户支持的AI智能体。这里做了很多工作。价值35万亿美元的行业。机器人技术,制造业价值50万亿美元的行业。英伟达在这个领域已经工作了十年,构建了3台计算机,这是构建机器人系统所必需的基础计算机。我们几乎与我们所知道的每一家制造机器人的公司都有合作整合。我们在展会上有110个机器人。然后是电信行业。大约和全球IT行业一样大,约2万亿美元。我们看到,当然,基站无处不在。它是世界基础设施之一。它是上一代计算的基础设施。那个基础设施将被彻底重塑。原因很简单。那个基站,以前只做一件事,就是基站,未来将成为一个AI基础设施平台。AI将在边缘运行。那里有很多精彩的讨论。我们那里的平台叫做Aerial或AI RAN。与诺基亚、T-Mobile等公司有重大合作。
我们业务的核心,我刚才提到的所有一切,计算平台,但非常重要的是,我们的CUDA-X库。我们的CUDA-X库是算法,是英伟达发明的算法。我们是一家算法公司。这就是我们的特别之处。这就是为什么我能够进入每一个这样的行业,想象未来,并让世界上最好的计算机科学家描述和解决问题,重构它,重新表达它,并将其变成一个库。我们有如此之多。我想,在这次展会上,我们宣布了100个库,70个库,也许40个模型,这只是展会期间。我们一直在更新它们。我们一直在更新它们。这些库是我们公司的皇冠上的明珠。它们使得这个平台,这个计算平台,能够被激活以服务于解决问题、产生影响。我们创建过的最大、最重要的库之一,cuDNN,CUDA深度神经网络库。它彻底改变了人工智能,引发了现代人工智能的大爆炸。让我给你们看一个关于CUDA-X的短视频。20年前,我们构建了CUDA,一个用于加速计算的单一架构。今天,我们重新发明了计算。1000个CUDA-X库帮助开发者在科学和工程的每一个领域取得突破。用于决策优化的cuOpt。用于计算光刻的cuLitho。用于直接稀疏求解器的cuDSS。用于几何感知神经网络的cuEquivariance。
用于AI RAN的Aerial。用于可微物理的Warp。用于基因组学的Parabricks。它们的基础是算法,而且这些算法非常优美。你们刚才看到的一切都是模拟。其中一些是主求解器,基础物理求解器。其中一些是AI代理,AI物理模型,还有一些是物理AI机器人模型。一切都是模拟的。没有什么是动画的。没有什么是人为摆拍的。一切都是完全模拟的。这就是英伟达的核心工作。正是通过将算法的理解与我们的计算平台连接起来,我们才能够开启并解锁这些机会。英伟达是一家垂直整合的计算公司,与全球进行开放的水平整合。这就是CUDA-X。
嗯,刚才你们看到了一堆公司。你们看到了沃尔玛,还有,你们知道,欧莱雅和令人难以置信的公司,老牌公司,摩根大通和罗氏,这些是定义当今社会的公司。丰田也在这里。这些是当今世界上一些最大的公司。同样真实的是,还有一大堆你们从未听说过的公司。这些公司,我们称之为AI原生公司,一大堆小公司。列表巨大。我无法决定是多展示还是少展示,所以我让它变得你们谁也看不见。
这样没有人会感到受伤。然而,在这个列表里面有一批全新的公司。例如,你们可能听说过其中几家,OpenAI,Anthropic,但还有一大堆其他的。还有一大堆其他的,它们服务于不同的垂直领域。在过去两年里,特别是去年,发生了一些事情。我们与AI原生公司合作了很长时间,去年这一年更是突飞猛进,我会向你们解释为什么会这样。这个行业突飞猛进。1500亿美元的风险投资投入到初创公司,这是人类历史上最多的。这也是第一次投资规模从数百万美元、数千万美元,上升到数亿美元和数十亿美元。原因是,这是历史上第一次,这些公司中的每一家都需要计算,而且需要大量的计算。他们需要token,大量的token。他们要么自己创建、构建并创造token、生成token,要么他们将集成、增值于那些由Anthropic、OpenAI等公司提供的可用token。
这个行业在很多方面都不同,但有一点非常清楚,他们正在产生的影响,他们已经在传递的难以置信的价值,是相当切实的。AI原生公司,这一切都是因为我们重新发明了计算。就像在PC革命期间,创建了一大批新公司一样。就像在互联网革命期间,创建了一大批公司一样。在移动云时代,创建了一大批公司。每一个时代都有自己的标准等等。我们将讨论其中一个刚刚发生的、极其重要的主要标准。这一代,我们也有自己大量的、非常非常特别的公司。我们重新发明了计算。理所当然地,将会有一大批全新的重要公司,对未来世界产生重大影响的公司。谷歌、亚马逊、Meta,这些是因为上一次计算平台转变而产生的重要公司。我们现在正处于一个新平台转变的开端。
过去几年发生了什么?嗯,我们一直在关注,如你们所知,我们一直在研究深度学习和AI。现代人工智能的大爆炸,我们当时就在现场,并且我们推动这个领域的发展已经有一段时间了。
为什么是过去两年?过去两年发生了什么?嗯,三件事。ChatGPT,当然,开启了生成式AI时代。它不仅能理解、感知和理解,还能转换和生成。生成独特的内容。我向你们展示了生成式AI与计算机图形的融合,它让计算机图形变得栩栩如生。你们,实际上世界上的每个人都应该使用ChatGPT。我知道我每天早上都用。今天早上用了很多次。ChatGPT开启了生成式AI时代。第二点。顺便说一下,生成式计算与我们过去做计算的方式不同。它是... 生成式AI是软件的一种能力,但它深刻地改变了计算的完成方式。过去计算是基于检索的,现在它是生成式的。在我谈论某些事情时请记住这个想法,你们会意识到为什么我们所做的一切都将改变计算机的架构方式,计算机的提供方式,计算机的构建方式,以及计算的整体意义是什么。生成式AI,2023年,2022年底,2023年。接下来是推理式AI,o1,通过o3开始起飞。推理使其能够反思,使其能够自我思考,使其能够规划,分解问题,将一个它无法理解的问题分解成它可以理解的步骤或部分。
它可以基于研究进行 grounding。o1使生成式AI变得可信且基于事实。这导致ChatGPT的爆发,这是一个非常非常重要的时刻。为了产生输出而必需的输入token数量,以及为了推理而生成的输出token数量,模型稍微大了一些。当然,你可以拥有更大的模型。o1模型稍微大了一点,但没大多少。其用于上下文的输入token使用量和用于思考的输出token使用量极大地增加了计算量。接着出现了Claude Code,第一个智能体模型。它能够读取文件、代码、编译它、测试它、评估它、返回并迭代它。如你们所知,Claude Code彻底改变了软件工程。英伟达 100% 在使用一个组合,或者通常是这三者,Claude Code、Codex和Cursor,遍布英伟达。今天,没有一个软件工程师不是在一个人或多个AI智能体的帮助下编写代码的。Claude Code彻底改变了新的拐点。
第一次,你不是问AI什么、哪里、何时、如何。你要求它创建、执行、构建。你要求它使用工具,获取你的上下文,读取文件。它能够智能地分解问题,进行推理,反思。它能够解决问题并实际执行任务。一个能够感知的AI变成了一个能够生成的AI。一个能够生成的AI变成了一个能够推理的AI。一个能够推理的AI现在变成了一个能够实际做工作的AI,非常有生产力的工作。在过去两年里的计算量,我们知道在座的每个人都知道对英伟达 GPU的计算需求已经突破天际。现货价格飙升。你无论如何都找不到一块GPU,然而与此同时,我们正在出货难以置信数量的GPU,而需求却持续上升。这是有原因的,就是这个根本性的转折点。最终,AI能够做生产性的工作了,因此,推理的转折点已经到来。AI现在必须思考。为了思考,它必须进行推理。AI现在必须执行。为了执行,它必须进行推理。AI必须阅读。为了阅读,它必须进行推理。它必须推理,它必须进行推理。
AI的每一部分,每当它需要思考、需要推理、需要执行、需要生成token,它就必须进行推理。现在已经远不止是训练阶段了。它进入了推理的领域。推理的拐点已经到来。与此同时,所需计算量,即token数量,大约增加了10,000倍。现在,当我将这两者结合起来时,事实上在过去两年里,工作的计算需求增加了10,000倍,而使用量可能增加了100倍。人们听我说过,我相信在过去两年里计算需求增加了100万倍。这是我们所有人的感受。这是每个初创公司的感受。这是OpenAI的感受。这是Anthropic的感受。如果他们能获得更多算力,他们就能生成更多token,他们的收入就会增加,更多的人可以使用它,AI就能变得更加先进和智能。我们现在正处于那个积极的飞轮系统中。我们已经到达了那个时刻。推理的拐点已经到来。
去年的这个时候,我说过,基于我当时看到的,我们看到了大约5000亿美元。我们看到到2026年,Blackwell和Rubin有5000亿美元的高度置信需求和采购订单。我去年说过。现在,我不知道你们是否有同样的感觉,但5000亿美元是巨额收入。没人印象深刻。我知道你们为什么无动于衷,因为你们都经历了创纪录的一年。好吧,我要告诉你们,就在此刻,在GTC DC之后短短几个月,去年GTC之后一年,就在我站的地方,我看到到2027年至少有1万亿美元。现在,这有意义吗?这就是我接下来要花时间谈论的内容。事实上,我们将会供不应求。我确信计算需求将远高于此,这背后是有原因的。
首先,我们在过去一年里做了很多工作。当然,如你们所知,2025年是英伟达的推理之年。
我们想确保不仅我们擅长训练和训练后处理,而且我们在AI的每一个阶段都非常出色,这样所做的投资,对我们基础设施的投资,可以尽可能长时间地扩展使用,英伟达基础设施的使用寿命会很长,因此成本会非常低。你能使用的时间越长,成本就越低。我毫不怀疑。英伟达系统是你能获得的世界上成本最低的AI基础设施。第一部分是去年我们专注于AI推理,这推动了这一转折点。同时,我们非常高兴去年Anthropic选择了英伟达,微软、Meta选择了英伟达。同时,作为一个集合,作为一个群体,这代表了全球1/3的AI算力,开源模型。开源模型已经接近前沿水平,而且几乎无处不在。英伟达,如你们所知,今天我们是世界上唯一一个能够在每一个AI领域运行所有这些AI模型的平台,无论是语言、生物学、计算机图形学、计算机视觉、语音、蛋白质和化学、机器人学等等,无论是边缘还是云端,任何语言。英伟达的架构适用于所有这一切,而且我们在所有方面都表现出色。这使得我们能够成为成本最低、置信度最高的平台,因为当你们构建这些系统时,正如我提到的,1万亿美元是巨额基础设施。你必须完全确信你投入的这1万亿美元将会被利用,会有高性能,会非常具有成本效益,并且在你能预见的未来都有用。你在英伟达上进行的基础设施投资,可以满怀信心地进行。我们现在已经证明了这一点。这是世界上唯一一个你可以在世界任何地方构建、并且可以完全信赖的基础设施。你想把它放在任何一朵云上,我们都很乐意。你想把它放在本地,我们非常高兴。你想把它放在任何国家,任何地方,我们都很乐意支持你。我们现在是一个运行所有AI的计算平台。
现在,我们的业务已经开始显示出这一点。我们60%的业务来自超大规模云服务商,前五大。然而,即使在这前五大内部,一部分也是内部AI消耗。内部AI消耗,非常重要的工作,如推荐系统,正在从基于表格、协同过滤和内容过滤的推荐系统转向深度学习和大型语言模型。搜索,转向深度学习、大型语言模型。几乎所有不同的超大规模工作负载现在都在转移,转向英伟达 GPU非常擅长的工作负载。最重要的是,因为我们与每一个AI实验室合作,我们加速每一个AI模型,因为我们有一个庞大的AI原生生态系统与我们合作,我们可以把他们带到云上,那项投资,无论多大,无论多快,这些计算都会被消耗掉。
这代表了60%的业务。另外40%则无处不在。区域云、主权云、企业、工业、机器人、边缘、大型系统、超级计算系统、小型服务器、企业服务器。系统数量,令人难以置信。AI的多样性也是它的韧性。AI的覆盖范围就是它的韧性。毫无疑问,这不是一个单一应用的技术。这现在是基础性的。这绝对是一个新的计算平台转变。
嗯,我们的工作是继续推进技术,去年我提到的最重要的事情之一是我们的推理之年。我们全力以赴。我们冒了巨大的风险,在Hopper正值巅峰、表现火热的时候,我们重新进行了发明。我们决定必须将Hopper架构、NVLink 8提升到一个新的水平。我们完全重新架构了系统,将计算系统彻底解耦,并创建了NVLink 72。它的构建方式、制造方式、编程方式完全改变了。Grace Blackwell NVLink 72是一个巨大的赌注,对任何人来说都不容易。在座的我的许多合作伙伴,我要感谢你们所有人所做的辛勤工作。谢谢。
NVLink 72,NVFP4,不仅仅是FP4精度。FP4是一种完全不同类型的张量核心和计算单元。我们现在已经证明,我们可以在不损失精度的情况下使用NVFP4进行推理,同时性能和能效得到巨大提升。我们也已经能够将NVFP4用于训练。NVLink 72,NVFP4,Dynamo的发明,TensorRT-LLM,一大堆新算法。我们甚至建造了一台超级计算机来帮助我们优化内核,帮助我们优化整个堆栈。我们称之为DGX Cloud。我们投资了数十亿美元的超级计算能力来帮助我们创建内核,创建使推理成为可能的软件。嗯,结果都汇集到了一起,人们过去常告诉我,"但是Jensen,推理太简单了。" 推理是终极难题。它也是终极重要的,因为它驱动着你的收入。这就是结果。这是来自SemiAnalysis的。这是有史以来进行过的规模最大、最全面的AI推理分析。你们在这里左边看到的是每瓦特token数。每瓦特token很重要,因为每个数据中心,每个工厂,本质上都是受功率限制的。一个1吉瓦的工厂永远不会变成2吉瓦。它受到物理限制,原子法则,物理定律。那个1吉瓦的数据中心,你希望驱动最大数量的token,那是该工厂的产出,产品。你希望尽可能处于该曲线的顶端。这,x轴是交互性,推理速度,每次推理的速度。你推理得越快,你当然就能响应得越快。但非常重要的是,你推理得越快,模型就可以越大,你可以处理的上下文就越多,你可以思考通过的token就越多。这个轴等同于AI的智能程度。这是AI的吞吐量。这是AI的智能程度。注意,AI越智能,你的吞吐量就越低。有道理。你思考的时间更长,对吧?这个轴是速度,我稍后会回到这一点。这很重要。这是我要折磨你们所有人的地方,但它太重要了。从今以后,你们看到的世界上每一位CEO,都会用我即将描述的方式来研究他们的业务,因为这是你的token工厂。这是你的AI工厂。这是你的收入。毫无疑问,未来就是这样。这是吞吐量。这是智能。对于给定功率的数据中心,更好的每瓦特性能意味着更高的吞吐量,你能产生更多的token。
这边是成本。注意,英伟达拥有世界上最高的性能。没人会对此感到惊讶。他们会惊讶于,在一代产品中,摩尔定律通过晶体管,可能给我们带来50%,2倍的提升。摩尔定律大概能给我们1.5倍的性能提升。你可能会期望Hopper H200提高1.5倍。没人会期望提高35倍。我去年这个时候说过,英伟达的Grace Blackwell NVLink 72的每瓦性能提高了35倍。没人相信我。然后SemiAnalysis出来了,Dylan Patel引用了一句话。他指责我隐瞒实情。他说:"Jensen隐瞒了。实际上是50倍。"他没说错。我们的每token成本是世界上最低的。你无法超越。我以前说过,如果你的架构不对,即使免费,也不够便宜。原因在于,无论发生什么,你仍然需要建造一个吉瓦数据中心。你仍然需要建造一个吉瓦工厂。那个吉瓦工厂摊销15年,大约是400亿美元。即使你什么也不放进去,也要投入400亿美元。你最好确保在那上面放最好的计算机系统,这样你才能拥有最佳的token成本。英伟达的token成本是世界级的,基本上目前无人能及。之所以如此,是因为极端协同设计。我非常高兴他称我们为猴王,Token王。
嗯,我们把我们所有的软件,正如我告诉你们的,我们垂直整合,但我们水平开放。我们是垂直整合,水平开放。我们以任何可能的方式打包我们所有的软件和技术,并将其集成到世界的推理服务提供商中。这些公司增长如此之快。它们增长如此之快。Fireworks,Lin在这里,他们一起增长得如此难以置信。去年增长了100倍。他们是token工厂。有效性、性能和token成本生产能力对他们的工厂来说就是一切。这就是发生的事情。我们更新了他们的软件,同样的系统,注意他们的token速度。令人难以置信。在英伟达更新所有东西,我们所有的算法和软件,以及我们带来的所有技术之前,平均大约是每秒700个token,现在上升到近5000个。提高了7倍。
这就是极端协同设计的惊人力量。我之前提到了工厂的重要性。这就是工厂的重要性。你的数据中心,过去是存放文件的数据中心。现在是一个生成token的工厂。无论如何,你的工厂是有限的。每个人都在寻找土地、电力和外壳。一旦你建好它,你就受限于电力。在那个受电力限制的基础设施内,你最好确保你的推理,因为你明白推理是你的工作负载,token是你的新商品,计算就是你的收入,你要确保架构尽可能优化。未来,每一家CSP,每一家计算机公司,每一家云公司,每一家AI公司,每一家公司,就是每一家,都会考虑他们的token工厂效率。这就是你们未来的工厂。我之所以知道这一点,是因为在座的每个人都由智能驱动。在未来,这种智能将被token增强。
让我向你们展示我们是如何走到今天的。在2016年4月6日,十年前,我们推出了DGX-1,世界上第一台为深度学习设计的计算机。8个Pascal GPU,通过第一代NVLink连接。一台计算机拥有170 teraflops。世界上第一台为AI研究人员设计的计算机。使用Volta,我们推出了NVLink Switch。16个GPU通过全all-to-all带宽连接,作为一个巨型GPU运行。向前迈出了一大步,但模型尺寸持续增长。数据中心需要成为一个单一的计算单元,于是Mellanox加入了英伟达。2020年,DGX A100 SuperPOD成为第一个结合了纵向扩展和横向扩展架构的GPU超级计算机。用于纵向扩展的NVLink 3,用于横向扩展的ConnectX-6和Quantum InfiniBand。Hopper,第一个具有FP8 Transformer引擎的GPU,开启了生成式AI时代。NVLink 4,ConnectX-7,BlueField-3 DPU,第二代Quantum InfiniBand。它彻底改变了计算。
Blackwell用NVLink 72重新定义了AI超级计算系统架构。72个GPU通过NVLink Spine连接。130 TB/s的all-to-all带宽。计算托架集成了Blackwell GPU、Grace CPU、ConnectX-8和BlueField-3。横向扩展运行在Spectrum-4以太网上。随着预训练、训练后和推理这三条扩展定律全面发力,以及现在的智能体系统,计算需求持续指数级增长。现在是Vera Rubin,为智能体AI的每个阶段而设计,推进计算的每一个支柱,包括CPU、存储、网络和安全。Vera Rubin NVLink 72,3.6 exaflops算力,260 TB/s的all-to-all NVLink带宽。这个引擎为智能体AI时代注入超强动力,Vera CPU负责编排。专为编排和智能体工作流设计。
STX机架,基于BlueField-4构建的AI原生存储。使用共封装光学的Spectrum-X进行横向扩展,提高了能效和弹性。现在有了一个令人难以置信的新成员,Groq 3 LPX机架。Groq的LPU拥有巨大的片上SRAM,与已经非常快的Vera Rubin紧密连接,成为一个token加速器。两者结合,每兆瓦吞吐量提高35倍。全新的Vera Rubin平台。7个芯片,5个机架级计算机,1个用于智能体AI的革命性AI超级计算机。短短10年内计算能力提升了4000万倍。
现在,在过去的美好时光里,当我说Hopper时,我会举起一个芯片。那真是太可爱了。这是Vera Rubin。当我们想到Vera Rubin时,我们想到的是整个系统。完全与软件垂直整合,端到端扩展,作为一个巨型系统进行优化。它专为智能体系统设计的原因非常清楚,因为智能体,当然,最重要的工作负载是思考大型语言模型。大型语言模型将变得越来越大,越来越大。它将越来越快地生成越来越多的token,这样它就能更快地思考。但它也必须访问内存。它会非常猛烈地冲击内存。KV缓存、结构化数据、cuDF、非结构化数据、cuVS。它会非常、非常猛烈地冲击存储系统,这就是我们重新发明存储系统的原因。
它还将使用工具。不像人类对较慢的计算机更宽容,AI希望工具尽可能快。这些工具,网络浏览器。未来,它们也可能是云中的虚拟PC。那些PC必须尽可能快,那些计算机必须尽可能快。我们创造了一个全新的CPU。一个全新的CPU,专为极高的单线程性能、极高的数据输出、非常擅长数据处理以及极高的能效而设计。它是世界上唯一一个使用LPDDR5且具有无与伦比的单线程性能和每瓦性能的数据中心CPU。这就是——我们构建它是为了让它能与这些机架的其他部分一起用于智能体处理。它在这里。这是Grace Blackwell。不,是Vera Rubin。在哪里?在这里。好吗?这就是Vera Rubin系统。注意,自上次以来,100%液冷。所有的电缆都不见了。过去需要两天安装的时间现在只需要两小时。不可思议。制造周期时间将大大缩短。这也是一台用热水冷却的超级计算机,水温45度,这减轻了数据中心的压力,将所有用于冷却数据中心的成本和能源解放出来,供系统使用。
这就是秘诀。我们是世界上唯一一家今天已经构建了第六代纵向扩展交换系统的公司。这不是以太网。这不是InfiniBand。这是NVLink。这是第六代NVLink。这做得好是极其困难的。做出来本身就是极其困难的。我为我们团队感到无比自豪。NVLink,完全液冷。这是全新的Groq系统,我将向你们展示更多关于它的信息。这个系统,8个Groq芯片。这是LP30。世界上从未见过。世界上见过的任何东西都是V1。这是第三代,我们现在已经进入量产。我稍后会详细介绍。世界上第一个CPO Spectrum-X交换机。这也已全面投产。共封装光学。光学器件直接来到这个芯片上,直接与硅接口。电子被转换成光子,直接连接到这个芯片。我们与台积电共同发明了工艺技术。我们是当今唯一一家投入生产的公司。它被称为COUP。它完全是革命性的。英伟达正在全面量产Spectrum-X。
这是Vera系统。每瓦性能是世界上任何CPU的两倍。它也正在生产中。嗯,你们知道,我们从没想过我们会单独销售CPU。我们现在单独销售很多CPU。这肯定会成为我们一个数十亿美元的业务。所以我非常满意我们的CPU架构师。我们设计了一个革命性的CPU。这是由Vera CPU驱动的ConnectX-9,BlueField-4 STX,我们的新存储平台。好的,这些是机架,每一个机架都连接在一起,这是NVLink机架。我之前给你们看过这个。它非常重,而且似乎每年都在加重。因为我想每年里面只是多了更多电缆。这是NVLink机架。我们也采用了这项技术,因为用它来创建带有这些布线系统、结构化电缆的数据中心非常高效。我们决定将其用于以太网。这是以太网在一个机架内实现256个液冷节点,并且也通过这些不可思议的连接器连接。你们想看Rubin Ultra吗?
这是Rubin Ultra计算节点。不像Rubin那样水平插入,Rubin Ultra进入一个全新的机架。它叫做Kyber,使我们能够在一个NVLink域内连接144个GPU。这个Kyber机架,这个,我肯定能举起来,但我不举。它相当重。这是一个计算节点,它垂直滑入Kyber机架。这是它连接的地方。这是中面板。Kyber机架,那四个顶部NVLink连接器滑入并连接到这里,这成为其中一个节点。这些机架每一个都是一个不同的计算节点,这是最精彩的部分。这是中面板,在中面板的背面,不再是布线系统(铜缆在驱动距离方面有其局限性),我们现在有了这个系统来连接144个GPU。这是新的NVLink。这也是垂直放置的,它连接到背面的中面板。前面是计算,后面是NVLink交换机,一个巨型计算机。好吗?那就是Rubin Ultra。正如我提到的。我们把这个拿下来好吗?我还需要剩下的幻灯片。它正在下来。哦,它正在下来?好的。谢谢你,Janine。这就是你不排练的后果。好的,好了。你们看到了这张幻灯片。慢慢来。只是别受伤。你知道,只有在英伟达的主题演讲中,你才会看到去年的幻灯片再次出现。
原因是我只是想让你们知道,去年我告诉你们一些非常重要的事情,它非常重要,值得再告诉你们一次。这可能是对于AI工厂未来来说最重要的一张图表,世界上每一位CEO都会追踪它,深入研究它。它比这复杂得多。它是多维的。你将研究你的AI工厂的吞吐量和token速度。在等功率下的吞吐量token速度,因为那就是你拥有的所有功率,你工厂永远的吞吐量和token速度。这个分析将直接决定你的收入。你今年所做的将精确地反映为明年的收入,这张图表就是这一切的关键。现在,我说过在垂直轴上。谢谢你们。垂直轴是吞吐量,水平轴是token速率。今天,我将向你们展示这个。因为我们能够,因为我们现在能够提高token速度,并且因为模型尺寸在增加,因为token长度,上下文长度,取决于不同应用用例的不同等级,从可能10万token输入长度增长到数百万。输入token长度在增长,输出token长度也在增长。
所有这些最终都会影响到未来token的营销和定价。Token是新的商品,就像所有商品一样,一旦它达到一个拐点,一旦它成熟或正在成熟,它将细分为不同的部分。高吞吐量、低速度可以用于免费层级。下一层可以是中等层级。可能更大的模型,当然速度更高,更大的输入上下文长度。这转化为不同的价格点。你可以从所有不同的服务中看到,这个是免费的。这是一个免费层级。第一层可能是每百万token 3美元。下一层可能是每百万token 6美元。你会希望能够不断推动这个边界,因为模型越大越智能,输入token上下文长度越长,越相关。速度越高,你能思考和迭代的就越多,AI模型越智能。这是关于更智能的AI模型。当你拥有更智能的AI模型时,每一次点击都能让你提高价格。这是45美元,也许有一天会有一个高级模型,为你提供高级服务,允许你以极高的速度生成token,因为你处于关键路径,或者你可能正在进行非常长的研究,每百万token 150美元根本不算什么。让我们换算一下。假设你作为一名研究员每天使用5000万个token,按每百万150美元计算。事实证明,对于一个研究团队来说,这甚至不算什么。我们相信这就是未来。这就是AI想要去的地方。这就是它今天所处的位置。它必须从这里开始,以建立价值,确立其有用性,并变得越来越好。未来,你会看到大多数服务涵盖所有这些。
这是Hopper。Hopper开始了,我移动了图表。这是50,这是100。Hopper看起来像这样,你可能会期望Hopper的下一代更高,但没人会期望高出那么多。这是Grace Blackwell。Grace Blackwell所做的是,在你的免费层级,极大地提高了你的吞吐量。然而,在你主要货币化你的服务的层级,它将你的吞吐量提高了35倍。这与你公司制造的任何一个产品没什么不同。层级越高,质量越高,性能越高,数量越少,容量越低,所以这跟世界上任何其他业务没什么不同。
现在我们能够将这个层级提高35倍,并且我们引入了一个全新的层级。这是Grace Blackwell带来的好处,相对于Hopper的巨大飞跃。嗯,这就是我们用Grace Blackwell正在做的。好的,这就是Grace Blackwell。好的,让我重新设定一下。这是Vera Rubin。好吗?现在想想刚才发生了什么。在每一个层级,我们都提高了吞吐量。在你最高ASP和最有价值的细分市场中,我们将其提高了10倍。这就是艰苦的工作。这在这里做到是非常困难的。这是NVLink 72的好处。这是极低延迟的好处。这是极端协同设计的好处,我们可以将整个区域向上移动。现在,最终从客户的角度来看,这意味着什么?假设我拿出25%的电力用于免费层级,25%用于中等层级,25%用于高等层级,25%用于高级层级。我的数据中心只有1吉瓦,所以我得决定如何分配。免费层级让我吸引更多客户。这让我服务于我最有价值的客户。所有这些的组合,这些的产物,基本上就是你的收入。假设这个简化的例子,你能产生的收入让Blackwell能产生5倍的收入。Vera Rubin能产生5倍的收入。是的。Vera Rubin,你应该尽快得到它,原因是你的token成本下降,吞吐量上升。我们想要更多。我们想要更多。让我给你们看,回到这个。这是,正如我告诉你们的,这种吞吐量需要大量的flops。这种延迟,这种交互性需要巨大的带宽。计算机不喜欢极端的flops和极端的带宽,因为任何系统的芯片表面积只有那么多。优化高吞吐量和优化低延迟实际上是相互矛盾的。这就是我们与Groq结合后发生的情况,好吗?我们收购了从事Groq芯片工作的团队并授权了该技术,现在我们一直合作来集成这个系统。这就是它的样子。在最宝贵的层级,我们现在将把性能提高35倍。
现在,这张非常简单的图表向你们揭示了为什么英伟达在迄今为止绝大多数工作负载中如此强大的确切原因。原因在于,在这个区域,吞吐量至关重要。NVLink 72是如此具有颠覆性,它正是正确的架构,即使加上Groq也难以击败。然而,如果你把这个图表延伸到这边,你说你想要提供不是400 token每秒,而是1000 token每秒的服务,突然间,NVLink 72就不够用了,它根本无法达到那个速度。我们只是没有足够的带宽。这就是Groq发挥作用的地方,这就是我们把它推出去时发生的情况。它甚至超出了NVLink 72所能达到的极限。如果你这样做,将其转化为相对于Blackwell的收入,Vera Rubin是其5倍。如果你大部分工作负载是高吞吐量,我会坚持只用100%的Vera Rubin。如果你的很多工作负载需要编码和非常高价值的工程token生成,我会加入Groq。我可能会在我整个数据中心的25%中加入Groq。我数据中心的其他部分全是100%的Vera Rubin。这会让你对如何将Groq添加到Vera Rubin中,并进一步扩展其性能和价值有所了解。这就是发生的情况。这是一个对比。
Groq之所以对我如此有吸引力,是因为他们的计算系统,一个确定性的数据流处理器,它是静态编译的,由编译器调度,意思是编译器计算出何时计算,数据和计算同时到达。所有这些都是预先静态完成,并完全在软件中调度。没有动态调度。该架构设计有大量的SRAM。它专为推理而设计,就这一个工作负载。现在,这个工作负载,事实证明,正是AI工厂的工作负载。随着世界持续增加其想要生成的高速token数量,以及想要生成的超级智能token数量,这种集成的价值将变得更高。你可以看到这两个极端的处理器。一个芯片,500 MB。一个Vera Rubin芯片,一个Rubin芯片,288 GB。需要大量的Groq芯片才能容纳Rubin的参数大小以及必须伴随的所有上下文,即KV缓存。这限制了Groq真正达到主流、真正起飞的能力,直到我们有了一个好主意。如果我们用一款叫做Dynamo的软件完全解耦推理会怎样?如果我们重新架构推理在流水线中的完成方式,以便我们可以将非常适合在Vera Rubin上完成的工作放上去,然后将解码生成,低延迟,受带宽限制的部分工作负载卸载给Groq呢?我们统一了两个极端不同的处理器,一个用于高吞吐量,一个用于低延迟。这仍然改变不了我们需要大量内存的事实。对于Groq,我们只需添加一大堆Groq芯片,这就扩展了它的内存量。你可以想象,对于一个万亿参数的模型,我们必须将所有参数存储在Groq芯片中。然而,它位于英伟达 Vera Rubin旁边,我们可以在那里保存处理所有这些智能体AI系统所必需的海量KV缓存。它基于这种解耦推理的理念。我们做prefill,那是简单的部分,但我们也紧密集成解码。解码的注意力部分在英伟达的Vera Rubin上完成,这需要大量的数学运算,而解码的前馈网络部分,token生成部分在Vera Rubin上,在Groq芯片上完成。这两者通过以太网紧密耦合工作,今天采用一种特殊模式,将其延迟减少约一半。这种能力使我们能够集成这两个系统。我们在其上运行Dynamo,这个用于AI工厂的令人难以置信的操作系统,你就获得了35倍的提升。35倍的提升,更不用说为token生成带来了世界上从未见过的全新推理性能层级。
就是这个。这就是Groq。包含Groq的Vera Rubin系统,我要感谢三星,为我们制造Groq LP30芯片,他们正全力以赴。我非常感谢你们。我们正在生产Groq芯片,你知道,我们将在下半年出货,大概在Q3左右,好吗?Groq LPX。Vera Rubin,你知道,很难想象还会有更多客户。真正好的是,Grace Blackwell的早期样品因为NVLink 72的整合而变得非常复杂,但Vera Rubin的样品进展非常顺利。事实上,Satya,我想,已经发消息说第一个Vera Rubin机架已经在Microsoft Azure上运行起来了,我为他们感到非常兴奋。
我们还将继续努力生产这些东西。我们现在已经建立了一个供应链,每周可以生产数千套这样的系统,基本上每月在我们的供应链中可以生产多吉瓦的AI工厂。我们将在生产GB300机架的同时,大量生产这些Vera Rubin机架。我们已全面投产。Vera CPU非常成功。原因在于AI需要CPU来使用工具,而Vera CPU正是为那个最佳位置完美设计的。对于下一代数据处理来说,它令人难以置信。Vera CPU是理想的。Vera CPU加上CX9连接到BlueField-4堆栈。全球100%的存储行业都将加入我们的这个系统。原因在于他们也看到了完全相同的事情。存储系统将受到猛烈冲击。它会受到猛烈冲击,因为过去是人类使用存储系统。过去是人类使用SQL。现在将是AI使用这些存储系统,它将存储cuDF加速的存储,cuVS加速的存储,以及非常重要的KV缓存。好吗?这就是Vera Rubin系统。
现在,令人惊叹的是这个。仅仅两年时间,在一个1吉瓦的工厂里,使用我之前展示过的数学计算,摩尔定律可能给我们几个步骤,我们可能会将晶体管数量乘以某个因子,将flops数量乘以某个因子,将带宽数量乘以某个因子。但通过这种架构,我们将把我们的token生成速度,token生成率从200万提高到7亿,提高了350倍。这就是极端协同设计的力量。这就是我所说的当我们垂直整合和优化,然后水平开放给所有人享受时的意思。
这是我们的路线图。非常快,Blackwell在这里,Oberon系统。对于Rubin,我们有Oberon系统。我们总是向后兼容,这样如果你不想改变任何东西,只想继续使用新架构,你也可以这样做。标准的机架系统,Oberon,仍然可用。Oberon是铜缆纵向扩展,使用Oberon,我们也可以使用光学纵向扩展到NVLink 576。好吗?有很多关于英伟达是采用铜缆纵向扩展还是光学纵向扩展的讨论。我们将两者都做。我们将用Kyber实现NVLink 144,然后通过Oberon,我们将从NVLink 72加上光学实现NVLink 576。下一代Rubin与Rubin Ultra,我们有即将推出的Rubin Ultra芯片,正在流片,我们有一个全新的芯片,LP35。LP35将首次整合英伟达的NVFP4计算结构,再给你几倍的加速。
好吗?这是Oberon,NVLink 72,光学纵向扩展,它使用Spectrum-6,世界上第一个共封装光学交换机,所有这些都已投产。下一步是Feynman。Feynman当然有一个新的GPU。它也有一个新的LPU,LP40。巨大的进步。令人难以置信的新技术。现在整合英伟达的规模和Groq团队共同构建,LP40。这将是不可思议的。一个全新的CPU叫做Rosa,是Rosalind的简称。BlueField-5,它将下一代CPU与下一代SuperNIC CX10连接起来。我们将有Kyber,即铜缆纵向扩展。我们还将有Kyber CPO纵向扩展。我们将首次同时使用铜缆和共封装光学进行纵向扩展。好吗?很多人一直在问,你知道,"Jensen,铜缆还会重要吗?"答案是肯定的。"Jensen,你会进行光学纵向扩展吗?"是的。"你会进行光学横向扩展吗?"是的。对于我们生态系统中的每个人,我们需要更多的产能,这是关键。我们需要更多的铜缆产能。我们需要更多的光学产能。我们需要更多的CPO产能,这就是为什么我们一直与你们所有人合作,为这种增长水平奠定基础。
Feynman将拥有所有这些。让我看看我是否漏掉了什么。就这样。每年,全新的架构。非常快,英伟达从一家芯片公司发展成了一家AI工厂公司或AI基础设施公司,AI计算公司,这些系统,现在我们正在构建整个AI工厂。在这些AI工厂中,有太多的电力被浪费了。我们希望确保这些AI工厂以最佳方式协同设计。大多数这些组件从未见过面。我们大多数技术供应商,现在我们彼此都认识了,但在过去,我们直到数据中心才见面。那不能再发生了。我们正在构建极其复杂的系统,所以我们必须先在虚拟空间中见面。我们创建了Omniverse和Omniverse DSX World,一个平台,我们所有人可以在其中虚拟地设计和这些千兆工厂,吉瓦AI工厂。我们有用于机架的机械、热、电气、网络模拟系统。这些模拟系统集成到我们生态系统合作伙伴的令人难以置信的工具公司中。我们还与电网连接,以便我们可以相互交互,相互发送信息,从而相应地调整电网电力和数据中心电力,节约能源。
在数据中心内部,使用Max-Q,以便我们可以在电力、冷却以及我们共同研究的所有不同技术之间动态调整系统,这样我们就不会浪费任何电力,以最优速率运行,提供巨大的token吞吐量。我毫不怀疑,这里面还有两倍的潜力,在我们谈论的这种规模下,两倍是巨大的。我们称之为英伟达 DSX平台,就像我们所有的平台一样,有硬件层,有库层,还有生态系统层。完全一样的方式。让我们向你们展示。
人类历史上最大的基础设施建设正在进行中。世界正在竞相建造芯片、系统和AI工厂,每延迟一个月就会损失数十亿美元的收入。AI工厂的收入等于每瓦特token数。由于电力限制,每一瓦未使用的电力都是损失的收入。英伟达 DSX是一个基于Omniverse的数字孪生蓝图,用于设计和运营AI工厂,以实现最大token吞吐量、韧性和能效。开发者通过几个API连接。用于物理、电气、热和网络模拟的DSX Sim。用于AI工厂运营数据的DSX Exchange。用于电网之间安全的动态电力管理的DSX Flex。用于动态最大化token吞吐量的DSX Max-Q。它从英伟达和设备制造商提供的、由PTC Windchill PLM管理的仿真就绪资产开始。基于模型的系统工程在达索系统的3DEXPERIENCE平台上完成。Jacobs将数据引入他们定制的Omniverse应用以完成设计。使用领先的仿真工具进行测试,包括西门子Simcenter STAR-CCM+(用于外部热分析)、Cadence Reality(用于内部)、ETAP(用于电气)以及英伟达的网络仿真器DSX Air,并通过Procore进行虚拟调试,以确保缩短施工时间。
当站点投入运行时,数字孪生成为操作者。AI智能体与DSX Max-Q合作,动态编排基础设施。Phaidra的智能体监控冷却和电气系统,向Max-Q发送信号,Max-Q持续优化计算吞吐量和能效。Emerald AI智能体解读实时电网需求和压力信号,并动态调整电力。借助DSX,英伟达和我们生态系统合作伙伴正在竞相在全球范围内构建AI基础设施,确保极端的韧性、效率和吞吐量。这很不可思议,对吧?嗯,Omniverse旨在容纳世界的数字孪生,从地球开始,它将容纳各种规模的数字孪生。我们拥有如此出色的合作伙伴生态系统。
我要感谢你们所有人。所有这些公司都是我们世界的新成员。就在几年前我们还不认识你们中的许多人,现在我们如此紧密地合作,共同建造世界上从未见过的最大型计算机,并且要在全球范围内进行。英伟达 DSX是我们的新AI工厂平台。这次我会花很少时间在这个上面。然而,我们要去太空了。我们已经去过太空了。Thor已经通过辐射认证,并且我们在卫星上。你可以从卫星上进行成像。未来,我们还会在太空中建立数据中心。显然这样做非常复杂。我们正在与合作伙伴合作,研发一款名为Vera Rubin Space One的新型计算机,它将进入太空,并在太空中建立数据中心。现在,当然,在太空中,没有传导,没有对流,只有辐射。我们必须弄清楚如何在太空中冷却这些系统,但我们有很多优秀的工程师在研究这个问题。
让我和你们谈谈一些新东西。Peter Steinberger在这里,他编写了一个软件。叫做OpenClaw。我不知道他是否意识到它会如此成功,但其重要性是深远的。OpenClaw是头号,是人类历史上最受欢迎的开源项目,而且它仅仅在几周内就做到了。它超过了Linux在30年内所取得的成就,它就是这么重要。它就是这么重要。这就是你要做的,好吗?我们宣布对其支持。让我快速过一下这个。我想给你们看几件事。你只需输入这个。你把它输入控制台,它就会出去,找到OpenClaw,下载它,为你构建一个AI智能体,然后你可以告诉它任何你需要做的其他事情。好吗?让我们看看。一个开源项目刚刚发布了。Andrej Karpathy刚刚启动。这项研究意义重大。你给AI智能体一个任务,然后去睡觉,它一晚上运行100个实验,保留有效的方法,摒弃无效的。我真的很喜欢我的东西能让那个人做到的事情,而且我们有一个家伙,他告诉我,他给他60岁的父亲安装了这个,然后他们酿了啤酒。通过蓝牙将机器连接到OpenClaw,然后我们自动化了一切,包括让人们下单的整个网站。数百人在深圳排队买龙虾。
我们想用OpenClaw构建OpenClaw。每个人都在谈论OpenClaw,但OpenClaw是什么?信不信由你,已经有GTC了。不可思议。现在我用这种方式说明了OpenClaw实际上是什么,你们所有人都能理解,但让我们想想发生了什么。什么是OpenClaw?它连接。它是一个智能体系统。它调用并连接大型语言模型。首先,它管理资源。它可以访问工具,可以访问文件系统,可以访问大型语言模型。它能够进行调度。它能够执行cron任务。它能够将你给它的提示分解成一步步的步骤。它可以衍生并调用其他子智能体。它有输入输出。你可以用任何你想要的方式与它交流。你可以对它挥手,它会理解你。你可以用任何你想要的方式说话。它给你发消息,给你发短信,给你发邮件。它有输入输出。它还有什么?嗯,基于此,你可以说,事实上,它是一个操作系统。我刚才用了描述操作系统的相同语法。OpenClaw本质上开源了智能体计算机的操作系统。
这与Windows使我们能够创建个人电脑没有什么不同。现在,OpenClaw使我们能够创建个人智能体。其影响是不可思议的。首先,采用率本身就说明了一些问题。然而,最重要的是这个。现在每家公司都意识到,每家公司,每家软件公司,每家科技公司,对于CEO们来说,问题是:"你的OpenClaw战略是什么?"就像我们都需要有Linux战略一样,我们都需要有HTTP、HTML战略,这开启了互联网。我们都需要有Kubernetes战略,这使得移动云成为可能。当今世界上的每家公司都需要有OpenClaw战略,一个智能体系统战略。这是新计算机。
现在,这只是令人兴奋的部分。这是OpenClaw之前的企业IT,你知道吗?我之前提到过企业IT的运作方式,以及为什么它被称为数据中心,是因为这些大房间,这些大建筑,存放着数据,存放着人们的文件,商业的结构化数据。它会通过软件,软件中有工具,记录系统,以及各种编码成的工作流程,这些都转化为人可以使用的工具,数字工作者可以使用的工具。那是旧的IT行业,软件公司创建工具,保存文件,当然还有帮助公司弄清楚如何使用这些工具和集成这些工具的GSI顾问。这些工具对于治理、安全、隐私和合规性来说非常有价值,所有这些仍然正确。只是在OpenClaw之后,在智能体之后,它将看起来像这样。这是非同寻常的部分。每一家IT公司,每一家公司,每一家SaaS公司,都将成为一家AaaS公司。毫无疑问。每一家SaaS公司都将成为一家AaaS公司,一家智能体即服务公司。令人惊叹的是:你知道OpenClaw在恰好的时机给了行业恰好需要的东西。就像Linux在恰好的时机给了行业恰好需要的东西,就像Kubernetes在恰好的时机出现,就像HTML出现一样。它使得整个行业能够抓住这个开源堆栈,并用它来做一些事情。只有一个问题。
企业网络中的智能体系统可以访问敏感信息,可以执行代码,并且可以对外通信。就大声说出来,好吗?想想看。访问敏感信息,执行代码,对外通信。你当然可以访问员工信息,访问财务信息,敏感信息,并将其发送出去,对外通信。显然,这绝对是不允许的。我们所做的是与Peter合作。我们汇集了一些世界顶级的安全和计算专家,并与Peter合作,使OpenClaw具备企业级安全和隐私能力。我们称之为英伟达 OpenClaw reference for NemoClaw,这是OpenClaw的一个参考实现,它拥有所有这些智能体AI工具包,其中的第一部分是我们称之为OpenShell的技术,现在已集成到OpenClaw中。现在它已为企业做好准备。这个堆栈,加上我们称之为NemoClaw的参考设计,你可以下载它,使用它,并且可以将它与世界上所有SaaS公司的策略引擎连接起来,你的策略引擎超级重要,超级有价值。策略引擎可以连接起来。带有OpenShell的NemoClaw或OpenClaw将能够执行该策略引擎。它有一个网络护栏,一个隐私路由器,因此,我们可以保护爪子,防止它们在我们公司内部随意行动,并安全地执行。
我们还为智能体系统添加了一些东西,你想用自己的爪子做的最重要的事情之一,定制爪子,这样你就可以拥有自己的定制模型,这就是英伟达的开放模型计划。我们现在在AI模型的每一个领域都处于前沿,无论是Nemotron、Cosmos世界基础模型、Groot、通用人工智能机器人、人形机器人模型、用于自动驾驶汽车的Alpamayo、用于数字生物的BioNeMo、用于AI物理的Earth-2。我们在每一个领域都处于前沿。看一看。
世界是多样化的。没有一个单一的模型能够服务于每一个行业。开放模型是世界上最大、最多样化的AI生态系统之一。近300万个开放模型涵盖了语言、视觉、生物学、物理学和自主系统,为专业领域的AI构建提供了可能。英伟达是开源AI的最大贡献者之一。我们构建并发布了六个系列的开放前沿模型,以及训练数据、配方和框架,以帮助开发者定制和采用。每个系列都在推出新的、领跑排行榜的模型。核心是Nemotron,用于语言、视觉理解、RAG、安全和语音的推理模型。现在能听到我说话吗?喂?是的。是的,我现在能听到你说话了。Cosmos,用于物理AI世界生成和理解的前沿模型。Alpamayo,世界上第一个会思考和推理的自动驾驶汽车AI。Groot,用于通用机器人的基础模型。BioNeMo,用于生物学、化学和分子设计的开放模型。Earth-2,植根于AI物理的天气和气候预测模型。英伟达的开放模型为研究人员和开发者提供了构建和部署用于自己专业领域的AI的基础。
我们的模型对你们所有人都有价值,因为第一,它在排行榜上名列前茅。它是世界级的。最重要的是,因为我们不会放弃对它的研究。我们会每天继续研究它。Nemotron-3之后会有Nemotron-4。Cosmos-1之后会有Cosmos-2。Groot第二代。每一个,我们都将继续推进这些模型。垂直整合,水平开放,这样我们就能让每个人加入AI革命。在研究和语音,世界模型,通用人工智能机器人,自动驾驶汽车,推理领域排名第一,当然,还有一个最重要的,这是在OpenClaw中的Nemotron-3。这是在OpenClaw中的Nemotron-3,看看前三名。它们是世界上最好的三个模型。好的。我们处于前沿。同样正确的是,我们希望创建基础模型,以便你们所有人可以对其进行微调和训练后处理,使其成为你们确切需要的智能。这是Nemotron-3 Ultra。它将成为世界上有史以来最好的基础模型。这使我们能够帮助每个国家构建他们的主权AI,我们正在与全球如此多的不同公司合作。
我们今天要做的最激动人心的事情之一是,我今天宣布,是一个Nemotron联盟。我们对此非常投入。我们投资了数十亿美元的AI基础设施,以便我们能够为推理等所有库开发必要的AI核心引擎,同时也为了创建AI模型,以激活世界上的每一个行业。大型语言模型非常重要。当然,它很重要。人类智能怎么会不重要呢?然而,在世界各地的不同行业,在世界各地的不同国家,你需要有能力定制你自己的模型,而且模型的领域截然不同,从生物学,到物理学,到自动驾驶汽车,到通用机器人,当然,还有人类语言。我们有能力与每个地区合作,创建他们的领域特定、他们的主权AI。今天,我们宣布了一个联盟,与我们合作,让Nemotron-4变得更加出色,这个联盟中有一些了不起的公司。Black Forest Labs,成像公司。Cursor,著名的编码公司,我们大量使用它。LangChain,下载量数十亿,用于创建定制智能体。Mistral,Arthur mentioned,我想他在这里。不可思议的公司。Perplexity。Perplexity的计算机,绝对在使用。每个人都在用。它非常好。一个多模态智能体系统。Reflection。来自印度的Sarvam。Thinking Machines Lab,Mira Murati的实验室。令人难以置信的公司加入了我们。谢谢你们。
我说过,世界上每一家企业,每一家软件公司都需要一个智能体系统,需要一个智能体战略。你需要有一个OpenClaw战略,他们都同意。他们都在与我们合作,整合NeMo,NemoClaw参考设计,英伟达 Agentic AI Toolkit,当然还有我们所有的开放模型。一家接一家公司,如此之多,我们正在与你们所有人合作。我对此非常感激。这是我们的时刻。这是一次重塑。这是企业IT的复兴。从一个价值2万亿美元的产业,这将变成一个价值数万亿美元的产业,不仅提供供人使用的工具,而且提供专门从事你们擅长的非常特殊领域的智能体,我们可以租用这些智能体。
我完全可以想象,未来我们公司的每一位工程师都需要一个年度token预算。他们每年可能赚几十万美元的基本工资。我可能会在此基础上再给他们一半作为token,这样他们的效率就能提高10倍。当然,我们会这样做。现在这已成为硅谷的一种招聘工具。我的工作附带多少token?原因很清楚,因为每个能访问token的工程师都将更有生产力。如你们所知,这些token将由AI工厂生产,你们所有人,还有我们,合作建造的,好吗?今天,每一家企业都建立在文件系统和数据中心之上。未来的每一家软件公司都将是智能体化的,他们将生产token。他们将为他们的工程师消耗token,他们将为他们所有的客户生产token。OpenClaw事件的重要性不能被低估。这件事和HTML一样重大。这件事和Linux一样重大。我们现在拥有一个世界级的开放智能体框架,我们所有人都可以用它来构建我们的OpenClaw战略。我们创建了一个参考设计,叫做NemoClaw,你们所有人都可以使用,它经过优化,性能卓越,安全可靠。
说到智能体,如你所知,感知、推理、行动。我今天谈到的世界上大多数智能体都是数字智能体。它们在数字世界中行动。它们推理,它们编写软件。都是数字化的。但我们也一直在研究物理具身智能体很长时间了。我们称它们为机器人,它们需要的AI是物理AI。我们这里有一些重大消息。我将快速过一下其中的几个。这里有110个机器人。世界上几乎每一家公司,我想不出有哪家不制造机器人的公司,都在与英伟达合作。我们有三个计算机,训练计算机,合成数据生成和模拟计算机,当然,还有位于机器人内部的机器人计算机。我们有所有必要的软件栈。有AI模型可以帮助你。所有这些都集成到世界各地的生态系统和我们所有的合作伙伴中,从西门子到Cadence,无处不在的不可思议的合作伙伴。今天,我们宣布了一大批新合作伙伴。
如你们所知,我们研究自动驾驶汽车已经很长时间了。自动驾驶汽车的ChatGPT时刻已经到来。我们现在知道我们可以成功地自动驾驶汽车,今天我们将为英伟达的robotaxi-ready平台宣布四个新合作伙伴。比亚迪、现代、日产、吉利,总共每年生产1800万辆汽车。加入我们之前的合作伙伴,梅赛德斯、丰田、通用。未来robotaxi-ready汽车的数量将是惊人的。我们还宣布了与优步的重大合作。多个城市,我们将部署这些robotaxi-ready车辆并将其连接到他们的网络中。一大堆新车。我们有ABB、Universal Robots、库卡,如此多的机器人公司在这里,我们正在与他们合作,将我们的物理AI模型集成到模拟系统中,以便我们可以将这些机器人部署到世界各地的生产线上。卡特彼勒在这里。我们甚至还有T-Mobile在这里,原因是在未来,那个无线电塔曾经只是一个无线电塔,它将成为英伟达 Aerial AI RAN。这将是一个机器人无线电塔,意味着它可以思考流量,计算出如何调整其波束成形,以便尽可能节省能源并尽可能提高保真度。
这里有这么多的人形机器人,但我最喜欢的一个是迪士尼的机器人。你知道吗?我跟你说,让我给你们看一些视频。让我们先看看那个。物理AI的首次全球规模部署就在这里。自动驾驶汽车。借助英伟达 Alpamayo,车辆现在拥有了推理能力,帮助它们在各种场景下安全、智能地运行。我们让汽车叙述其行动。我正在向右变道以遵循我的路线。解释它在做决定时的想法。我的车道里有一辆并排停放的车辆。我绕过去。遵循指令。嘿,梅赛德斯-奔驰,我们能开快点吗?当然,我会加速。这是物理AI和机器人的时代。在世界各地,开发者们正在制造各种机器人。现实世界是极其多样化的,不可预测的,充满了边缘情况。现实世界的数据永远不足以训练应对每一种场景。我们需要从AI和模拟中生成的数据。对于机器人来说,计算就是数据。开发者在互联网规模的视频和人类演示上预训练世界基础模型,并评估模型性能,为训练后做准备。使用经典和神经模拟,他们生成海量的合成数据,并大规模训练策略。
为了加速开发者,英伟达构建了用于机器人训练和评估与模拟的开源Isaac Lab,用于可扩展和GPU加速的可微物理模拟的Newton,用于神经模拟的Cosmos世界模型,以及用于机器人推理和动作生成的Groot开放机器人基础模型。有了足够的计算能力,世界各地的开发者都在缩小物理AI的数据缺口。Peritas AI在英伟达 Isaac Lab中训练他们的手术室辅助机器人,用英伟达 Cosmos世界模型倍增他们的数据。Skilled AI使用Isaac Lab和Cosmos为他们的Skilled AI大脑生成训练后数据。他们使用强化学习在数千种变化中强化模型。Humanoid使用Isaac Lab训练全身控制和操作策略。Hexagon Robotics使用Isaac Lab进行训练和数据生成。富士康在Isaac Lab中微调Groot模型,Noble Machines也是如此。迪士尼研究公司在Newton和Isaac Lab中使用他们的Camino物理模拟器,在所有宇宙中的角色机器人中训练策略。女士们,先生们,有请奥拉夫。
奥拉夫,你好吗?我现在很开心,因为我就要离开你了。我知道,因为我给了你你的电脑,Jensen。什么?那是什么?嗯,它在你的肚子里。那将会很神奇。你在Omniverse里面学会了走路。我喜欢走路。这比骑着驯鹿仰望美丽的天空好多了。这是因为使用了这个基于英伟达 Warp运行的Newton求解器,是我们与迪士尼和DeepMind共同开发的,使你能够适应物理世界。看看那个。我知道不该那么说。你就是这么聪明。我是个雪人,不是冰雪百科全书。你们能想象吗,未来迪士尼乐园?嗯哼。所有这些机器人,所有这些角色到处走动。哦。不过,我得承认,我以为你会更高一点。说实话,我从没见过这么矮的雪人。不是。嘿,我跟你说。你想帮我个忙吗?好极了。好的。通常,我结束主题演讲的方式是告诉你们我告诉过你们的事情。我们讨论了推理拐点。我们讨论了AI工厂。我们讨论了正在发生的OpenClaw智能体革命。当然,我们讨论了物理AI和机器人。
我跟你说,我们为什么不找些朋友来帮我们一起结束呢?当然。好的,播放。来吧。(主题演讲在一段AI生成的MV中落幕。)







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论