全球推理计算量暴涨一万倍背后

AGI
AI 产业在围绕“更高效的推理”重构。

文| 深流研究所,作者 | 绛枫

站在GTC 2026 的主舞台上,黄仁勋抛出了一句几乎可以定义这轮AI产业变化的论断——“推理的拐点已经到来。”

他随即给出了一组更有分量的数字:过去两年,AI 推理的计算量增长了约一万倍,使用量增长了约一百倍。Openclaw 在全球范围内的爆发,又进一步放大了这一趋势。

当 AI 从聊天框走进真实工作流,开始自主拆解、规划、执行任务。推理就从一次回答,变成持续消耗、持续结算、持续优化的生产过程。

过去,衡量模型输出长度、上下文容量的单位token ,也变成了 AI 产业链真正的流通单位。英伟达在为 token 高效吞吐设计芯片和软件栈,阿里在为 Token 组织业务和定价逻辑,OpenAI 在为“如何少花 token 完成更多思考”重做系统。

更深层的变化还在发生。AI 产业已经不再只是基于“更强的模型”展开,而是围绕“更高效的推理”重构。

推理成为芯片性能的新锚点

英伟达的动作便是有力佐证。GTC 2026 上让行业震动的,不是又一款更强的训练 GPU,而是两个专门针对推理的产品。

Groq 3 LPU——英伟达通过技术许可协议引入 Groq 推理技术后推出的语言处理专用芯片。注意,这不是 GPU。LPU 的核心设计取舍是:牺牲训练性能,换取推理场景下的极致吞吐和极低延迟。单芯片拥有 500saMB 片上 SRAM,内存带宽 150TB/s,专攻 token 生成环节。与 Vera Rubin GPU 协同,将推理吞吐量从当下的每秒 100 token 推向 1500+——一个数量级的提升。

Vera Rubin 平台——台积电 3nm 制程,推理性能较上一代 Blackwell 提升 5 倍,训练性能提升 3.5 倍。注意优先级:推理提升幅度远超训练。配套发布的 Dynamo 开源推理框架,通过分离式推理、KV-Cache 智能路由等技术,在大规模集群上可使 DeepSeek-R1 等模型的吞吐量提升 30 倍以上。

一家以训练芯片起家的公司,把最重磅的发布留给了“推理”。方向已经很清楚了。

模型追求用更少的 Token,做更难的事

模型研发的方向同样指向推理效率。

去年底,DeepSeek V3.2 是一个标志性节点——这是该公司旗下首个将"思考"融入工具调用的开源模型,Agent 基准测试成绩最高。官方明确表示,V3.2 的核心设计目标是"平衡推理能力与输出长度",也就是用更少的 Token,完成更复杂的推理。

梁文锋近半年署名的两篇论文,一篇做"条件记忆",一篇优化底层架构,都在解决同一个瓶颈:Transformer 在记忆、稳定性和长上下文上的局限——而这些,恰恰是 Agent 场景下推理效率的核心卡点。据多方消息,即将于 4 月发布的 V4,核心突破方向包括长期记忆和多模态。技术路线始终指向同一个问题:如何让模型在 Agent 场景下更高效地"思考"。

OpenAI 的路径类似但更激进。其在GPT-5系列之后,最核心的升级不是参数堆叠,而是将快速响应、深度推理和实时路由器整合进一个统一系统——根据任务复杂度,自动决定"花多少 Token 来思考"。简单问题浅层推理,复杂问题深层推理链。这背后是对推理成本的精算,也是对 Agent 大规模部署的提前布局。

电有瓦特,数据有比特,AI有TokeAI时代

训练时代的云服务模式简单——按 GPU 小时计费,本质是"租设备"。

推理时代完全不同。一个部署在全球的 Agent 服务,调用量可能在工作时段飙升十倍,凌晨又跌至谷底。这种极端的波动性催生了全新的计价方式:按 Token 计费、按请求计费、甚至按"Agent 任务"计费。

阿里巴巴的动作最具信号意义。GTC 2026 开幕同日,阿里宣布成立 Alibaba Token Hub(ATH)事业群,由集团 CEO 吴泳铭直接挂帅,平行于阿里云和电商事业群。旗下囊括通义实验室、千问、悟空等核心 AI 业务,组织目标被提炼为三句话:创造 Token、输送 Token、应用 Token。

这是一个清晰的判断:Token 将扮演类似电力在工业时代的角色——基础性的、持续消耗的、可以被计量和交易的资源。 云服务的竞争,正在从"谁的 GPU 多"变成"谁的 Token 更便宜、更快、更稳"。

编排智能体的能力,成为新的应用护城河

Token 经济学不仅改变了基础设施,也在重塑应用开发的底层逻辑。

最显著的变化是推理路由的普及。简单交互交给低成本小模型,复杂推理流转至大模型——开发者不再只是"调一个 API",而是要设计一套精密的路由策略,在成本和效果之间找到最优解。OpenRouter 这类模型路由平台的崛起,正是这一趋势的产物。

更深层的变化在于:一个好的 Agent 应用,本质上是一套智能体编排系统。它决定哪些任务用什么模型、交给哪些 Agent、走什么路径、在哪个节点做决策。编排能力本身,正在成为这一轮竞争中最核心的壁垒。

这个逻辑已经在产品层面落地。Anthropic 公开的多智能体架构中,一个 Claude Opus 4 担任"主管",多个 Claude Sonnet 4 充当"执行者",系统性能比单用 Opus 4 高出 90%。微软 Copilot Studio、Salesforce Agentforce 也在押注同一件事——让企业用户自己编排智能体工作流。

腾讯最新财报会上,马化腾也表达了类似判断:AI的入口不应该只是聊天机器人,未来每个小程序都可以智能化改造,通过API完成调用——本质上,是把产品矩阵变成一张可编排的智能体网络。

过去三年,AI 行业争夺的是“谁能训练出更强的模型”,接下来竞争的核心,更可能变成:谁能把推理做得更便宜、更快、更可控。

芯片在为 token 吞吐重写架构,模型在为更少 token 完成更复杂任务重做系统,云厂商开始直接经营 token,应用层则把胜负手押在智能体编排。

推理,不再只是模型输出前的最后一步,而是正在成为整个 AI 产业的新定价单位。

本文系作者 深流研究所 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

20:24

LME铜价跌破每吨12000美元,金属遭普遍抛售

20:21

普洛药业:2025年净利润同比下降13.62%,拟每10股派2.38元

20:20

潜能恒信:副总经理张卉被留置调查

20:19

美财长说美未攻击伊朗能源设施,美或解除对海上伊朗石油制裁

20:19

欣龙控股:股东海南筑华拟减持不超3%股份

20:18

深华发A:股票交易异常波动,无应披露未披露事项

20:17

博瑞医药:2025年净利润5451.47万元,同比下降71.18%

20:15

3月19日新闻联播速览22条

20:12

RIVIAN美股盘前上涨近10%

20:11

真爱美家:广州探迹远擎拟以27.74元/股要约收购15%股份

20:10

现货黄金日内跌幅扩大至4%,报4623.57美元/盎司

20:03

现货黄金向下跌破4650美元,日内下跌3.66%

20:01

英国央行将基准利率维持在3.75%不变,符合市场预期

20:01

地平线机器人2025年营收37.6亿元,中高阶智驾芯片出货量增长近5倍

19:53

吴泳铭宣布阿里AI战略商业目标:未来五年,云和AI商业化收入超1000亿美元

19:51

佛塑科技:拟公开挂牌转让控股子公司成都东盛包装材料有限公司51%股权

19:41

阿里巴巴:百炼MaaS平台Token消耗3个月升6倍,将成阿里云最大收入产品

19:39

顺钠股份:持股5%以上股东张明园减持0.9988%股份,减持计划完成

19:28

中国人民银行行长潘功胜会见香港特别行政区政府财政司司长陈茂波一行

19:27

江波龙:董事李志雄、副总经理高喜春拟合计减持不超242.3万股

扫描下载App