黄仁勋为什么停不下来?

钛度号
从卖芯片到卖token,黄仁勋用三个月密集露面重新定义英伟达。

文 | 深流研究所,作者 | 绛枫

2025年12月,黄仁勋做客Joe Rogan播客,承认自己一直处于焦虑状态。他说了一句用了三十多年的老话——"英伟达离倒闭永远只有30天",然后补了一句很少有人注意到的话:

"这不是口号,是真实感受,脆弱感和不确定感从未离开过,今天早上醒来的感觉和创业第一天没有区别。"

那个月底,英伟达以约 200 亿美元现金收购了 AI 芯片公司 Groq 的核心资产。

随后的三个月,黄仁勋开始了他职业生涯中可能最密集的一轮公开露面。

2026年1月出席CES并发表演讲,他宣布AI"正式接管物理世界";随后飞往中国,在上海逛菜场、在深圳参加年会、拜访供应链。

2月,在美国加州总部附近的炸鸡店,宴请30名SK海力士核心工程师;同月财报电话会上,提出"算力等于营收"。

3月,他极其罕见地发表了一篇万字长文,随后在GTC大会做了两个多小时的主题演讲,两天后又坐在金融分析师面前开了一场闭门问答会;紧接着是All-In Podcast将近两小时的长谈;再然后是Lex Fridman播客两个半小时的深度对话。

仅在GTC结束后的一周内,黄仁勋至少接受了四场独立访谈。

一个年营收2159亿美元、毛利率超过70%、芯片供不应求的公司的CEO,为什么停不下来?

他在反复说什么?

如果把黄仁勋这三个月里所有公开发言放在一起看,一个很明显的变化浮现出来:他不再只谈GPU了。

过去几年的GTC,舞台上的核心永远是新一代GPU——多少个晶体管、多快的计算速度、比上一代强多少倍。这是英伟达的传统节目。

但2026年的GTC不一样。黄仁勋提了二十多次的词不是GPU,是"AI工厂"

在 CES 上,他说"计算行业的每一层技术堆栈都在被重新构建",还判断"所有 SaaS 公司都将变成 AaaS 公司"。在达沃斯他说的是:"这是人类历史上规模最大的基础设施建设。"在财报电话会上他说的是:"新的AI世界里,没有算力就没有token,没有token就没有收入。"

把这些话串在一起,你会发现他不是在做产品发布,而是在重新定义一件事——英伟达是什么。

不是一家卖GPU的公司,而是一家"AI工厂"。客户不是在买芯片,是在买一套完整的推理生产系统——进去的是电力,出来的是可以卖钱的token。GPU只是这座工厂的生产设备之一,而不是全部。

这个定义跟过去十年市场对英伟达的认知完全不同。过去十年,英伟达就是GPU,GPU就是英伟达。它的股价跟GPU出货量挂钩,它的估值逻辑按芯片公司来打。

黄仁勋过去三个月反复强调英伟达的新角色,这实际上是在做一次大规模的认知校准——不是对内部,是对华尔街、对客户、对整个产业。他在说:你们对英伟达的理解需要更新了。

为什么是现在?

这个时间点不是随机的。英伟达正站在一个由它创造,但也会被它颠覆的变化面前。

AI行业的算力需求正在发生一次结构性的迁移:从训练转向推理。

训练是造模型——花几个月训完,一次性投入。推理是用模型——每一次ChatGPT回答问题、每一个AI agent执行任务、每一段 AI 生成的视频。推理是持续的、永不停歇的。黄仁勋在GTC上给了一个数字:两年内,英伟达平台上的token生成速率从2200万增长到了7亿,350倍。摩尔定律同期只能带来1.5倍的提升。

推理是增长故事。但它有一个英伟达必须面对的事实:GPU对推理的效率,不如对训练。

一次大语言模型推理包含两个阶段。预填充——一次性处理用户输入的整段文字,数据量大、高度并行,GPU效率极高。解码——逐字生成回复,每生成一个token,要重新读取模型全部参数但只做极少量计算。GPU的成千上万个计算单元在解码时大量空转,瓶颈不是算力不够,而是数据搬运不够快。

这不是性能问题,是架构错配,用一台为大规模并行设计的机器去做逐步串行的活。

黄仁勋在 GTC 上释放了一个重要信号:并不是所有高价值推理负载都该继续由通用 GPU 独立承担,部分场景需要引入专门针对 decode 优化的硬件。

这也解释了英伟达为什么要押注 Groq 的资产和其对应的架构能力。

Groq的LPU芯片架构跟GPU几乎完全相反:静态调度、确定性延迟、500MB SRAM直接焊在芯片上。它在预填充和训练上完全不是GPU的对手。但在逐token解码这个GPU较弱的环节,LPU的内存带宽是150TB/秒,英伟达最新Rubin GPU是22TB/秒,将近7倍

GTC上发布的Groq 3 LPX搭配Vera Rubin GPU,在高交互性推理场景下效率是纯GPU方案的35倍。黄仁勋的建议配置是:如果你的工作负载主要是高吞吐的,100% GPU够了。如果有大量编码和高价值token生成需求,每1到4个Groq机架搭配1个GPU机架。

但光有两种芯片不够。你还需要一个东西来决定——每一个推理请求进来时,预填充交给谁、解码交给谁、缓存放哪里、带宽怎么分。

这就是Dynamo。

从卖芯片到卖工厂

Dynamo是英伟达在GTC上跟Groq 3一起发布的。这个名字来自西门子在1866年发明的发电机。

它不是芯片,不是推理引擎,而是一套调度层软件——英伟达称之为"推理操作系统"

AWS、Azure、Google Cloud、Oracle同时宣布采用。

理解Dynamo为什么重要,需要先看清英伟达过去三十年的商业模式。

1999年到2006年,英伟达卖游戏显卡。2006年CUDA发布后,客户从游戏玩家扩展到科研机构和高性能计算中心。2012年AlexNet之后,客户从科研机构扩展到科技巨头的AI数据中心。芯片越卖越贵——从几百美元的GeForce到几万美元的H100,再到上百万美元的GB200 NVL72机架——但英伟达的角色始终没变:造芯片、卖芯片。客户买回去怎么搭系统、怎么做调度,是客户自己的事。

Dynamo改变了这一点。

有了Dynamo之后,客户不只是买英伟达的GPU和Groq的LPU——它们的调度、协同、任务分配全都运行在英伟达的软件上。英伟达不再只是卖零件,它开始提供整套工厂的运营系统。

如果把这件事对标到PC时代,英伟达过去的角色更像英特尔——芯片很强,但客户在芯片之上自建生态。Dynamo让它开始向微软的位置移动——不只提供算力,而是定义算力如何被调度和消费

黄仁勋在GTC上展示了他设想的定价模型:AI推理服务分五级,从免费到每百万token 150美元。这个分层只有在异构调度(不同层级分配给不同芯片)的前提下才成立。Dynamo是实现这种分层的基础设施。

他在达沃斯把AI比作"五层蛋糕"——能源、芯片、数据中心、模型、应用。他在All-In Podcast上反复解释"token工厂经济学"。

所有这些表述指向的是同一件事:英伟达想卖的不再是芯片,而是工厂。 不是一颗GPU,而是包含GPU、LPU、CPU、网络处理器、调度软件、定价体系在内的完整推理生产系统。

从卖零件到卖工厂——这是英伟达三十年来商业模式的第一次质变。

他以前赌过一次

黄仁勋在Lex Fridman播客上讲了一段CUDA早年的故事,是他此前很少公开讲的细节。

2006年CUDA发布时,英伟达做了一个决定:把CUDA放进每一块GeForce消费显卡里。不管玩家需不需要通用计算,每块显卡都内置CUDA模块。

这个决定的代价是:每块GeForce的成本增加了50%。当时英伟达的毛利率只有35%。这笔支出几乎吞掉了全部利润。

市值从六七十亿美元跌到了15亿美元左右。

黄仁勋说他当时去跟董事会解释:消费者不会为CUDA买单,但如果CUDA能进入工作站和超级计算机领域,也许能回收利润。CUDA最终实现了这个"也许",但花了整整十年。

面对一个风险高、回报周期长的决策,英伟达为什么还是做了?他在播客里给出的逻辑是:"计算平台的核心是开发者,开发者跟着安装基数走。"CUDA放进GeForce,意味着全世界每一台装了英伟达显卡的电脑都支持CUDA。开发者只要写一套代码就能在所有这些机器上运行。

这就是后来400多万CUDA开发者、80%以上AI训练芯片市场份额的源头。

现在,黄仁勋又做了一次类似的选择。Dynamo是开源的——任何人都可以用。Groq 3 LPX从交易落地到产品公开亮相,只过了三个月。英伟达在推理还没成为收入主力的时候就大举投入:200亿美元收购Groq、开发Dynamo、构建异构推理架构。

在闭门会上,分析师问了一个直接的问题:推理在你的收入里占多少?黄仁勋没有给出具体数字。他的2159亿美元年营收里,大头仍然是训练GPU。推理主导的那个未来,在自家的收入结构里还不是主角。

但他在用三个月的密集露面向全世界传递一个信号:英伟达已经在为那个未来全力押注了。

收获掌声,也直面质疑

CUDA的赌注花了十年才回本。这一次会等多久,黄仁勋自己也不确定。但他不会停下来。

在这三个月的密集露面中,他一边收获掌声,一边直面质疑。

GTC结束两天后的闭门会上,针对黄仁勋力推的"token经济学",有分析师直接问他:推理在你的收入里到底占多少?All-In Podcast播客里,主持人David Sacks指出,英伟达50亿美元一座的AI工厂比竞争对手贵了近一倍,也有人问"云厂商自研芯片会不会替代英伟达"。而在达沃斯上,全球媒体更是把话题对准了"AI泡沫论"。

有媒体甚至把他过去一年的角色总结为五个字:超级销售员

这些质疑来自不同场合,不同的人,实际都在追问黄仁勋同一个问题:你描绘的那个未来是真的吗?还是你需要所有人相信它是真的?

黄仁勋很少回避质疑,甚至会主动回击。他是一个极度理性的人,传记作者威特跟了他两年,对他的评价是凶猛、无情、负责。然而,除了谈论行业趋势、公司愿景,黄仁勋最近也开始说起遗忘、无知、生死这类感性的话题。

过去三十年,他很少公开说过这些。如今,他会说"如果当初知道创办英伟达要面临多少痛苦,我永远不会做"。他也会说"希望死在工作岗位上"。

为什么停不下来?他在最新的Lex Fridman的播客上说了十个字,算是他的人生信条:别被解雇,别无聊,别死掉。然后他补了一句:"这三件事每一件都是高风险的。"

本文系作者 深流研究所 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App