全球推理计算量暴涨一万倍背后-钛媒体官方网站

文| 深流研究所，作者 | 绛枫

站在GTC 2026 的主舞台上，黄仁勋抛出了一句几乎可以定义这轮AI产业变化的论断——“推理的拐点已经到来。”

他随即给出了一组更有分量的数字：过去两年，AI 推理的计算量增长了约一万倍，使用量增长了约一百倍。Openclaw 在全球范围内的爆发，又进一步放大了这一趋势。

当 AI 从聊天框走进真实工作流，开始自主拆解、规划、执行任务。推理就从一次回答，变成持续消耗、持续结算、持续优化的生产过程。

过去，衡量模型输出长度、上下文容量的单位token ，也变成了 AI 产业链真正的流通单位。英伟达在为 token 高效吞吐设计芯片和软件栈，阿里在为 Token 组织业务和定价逻辑，OpenAI 在为“如何少花 token 完成更多思考”重做系统。

更深层的变化还在发生。AI 产业已经不再只是基于“更强的模型”展开，而是围绕“更高效的推理”重构。

推理成为芯片性能的新锚点

英伟达的动作便是有力佐证。GTC 2026 上让行业震动的，不是又一款更强的训练 GPU，而是两个专门针对推理的产品。

Groq 3 LPU——英伟达通过技术许可协议引入 Groq 推理技术后推出的语言处理专用芯片。注意，这不是 GPU。LPU 的核心设计取舍是：牺牲训练性能，换取推理场景下的极致吞吐和极低延迟。单芯片拥有 500saMB 片上 SRAM，内存带宽 150TB/s，专攻 token 生成环节。与 Vera Rubin GPU 协同，将推理吞吐量从当下的每秒 100 token 推向 1500+——一个数量级的提升。

Vera Rubin 平台——台积电 3nm 制程，推理性能较上一代 Blackwell 提升 5 倍，训练性能提升 3.5 倍。注意优先级：推理提升幅度远超训练。配套发布的 Dynamo 开源推理框架，通过分离式推理、KV-Cache 智能路由等技术，在大规模集群上可使 DeepSeek-R1 等模型的吞吐量提升 30 倍以上。

一家以训练芯片起家的公司，把最重磅的发布留给了“推理”。方向已经很清楚了。

模型追求用更少的 Token，做更难的事

模型研发的方向同样指向推理效率。

去年底，DeepSeek V3.2 是一个标志性节点——这是该公司旗下首个将"思考"融入工具调用的开源模型，Agent 基准测试成绩最高。官方明确表示，V3.2 的核心设计目标是"平衡推理能力与输出长度"，也就是用更少的 Token，完成更复杂的推理。

梁文锋近半年署名的两篇论文，一篇做"条件记忆"，一篇优化底层架构，都在解决同一个瓶颈：Transformer 在记忆、稳定性和长上下文上的局限——而这些，恰恰是 Agent 场景下推理效率的核心卡点。据多方消息，即将于 4 月发布的 V4，核心突破方向包括长期记忆和多模态。技术路线始终指向同一个问题：如何让模型在 Agent 场景下更高效地"思考"。

OpenAI 的路径类似但更激进。其在GPT-5系列之后，最核心的升级不是参数堆叠，而是将快速响应、深度推理和实时路由器整合进一个统一系统——根据任务复杂度，自动决定"花多少 Token 来思考"。简单问题浅层推理，复杂问题深层推理链。这背后是对推理成本的精算，也是对 Agent 大规模部署的提前布局。

电有瓦特，数据有比特，AI有TokeAI时代

训练时代的云服务模式简单——按 GPU 小时计费，本质是"租设备"。

推理时代完全不同。一个部署在全球的 Agent 服务，调用量可能在工作时段飙升十倍，凌晨又跌至谷底。这种极端的波动性催生了全新的计价方式：按 Token 计费、按请求计费、甚至按"Agent 任务"计费。

阿里巴巴的动作最具信号意义。GTC 2026 开幕同日，阿里宣布成立 Alibaba Token Hub（ATH）事业群，由集团 CEO 吴泳铭直接挂帅，平行于阿里云和电商事业群。旗下囊括通义实验室、千问、悟空等核心 AI 业务，组织目标被提炼为三句话：创造 Token、输送 Token、应用 Token。

这是一个清晰的判断：Token 将扮演类似电力在工业时代的角色——基础性的、持续消耗的、可以被计量和交易的资源。云服务的竞争，正在从"谁的 GPU 多"变成"谁的 Token 更便宜、更快、更稳"。

编排智能体的能力，成为新的应用护城河

Token 经济学不仅改变了基础设施，也在重塑应用开发的底层逻辑。

最显著的变化是推理路由的普及。简单交互交给低成本小模型，复杂推理流转至大模型——开发者不再只是"调一个 API"，而是要设计一套精密的路由策略，在成本和效果之间找到最优解。OpenRouter 这类模型路由平台的崛起，正是这一趋势的产物。

更深层的变化在于：一个好的 Agent 应用，本质上是一套智能体编排系统。它决定哪些任务用什么模型、交给哪些 Agent、走什么路径、在哪个节点做决策。编排能力本身，正在成为这一轮竞争中最核心的壁垒。

这个逻辑已经在产品层面落地。Anthropic 公开的多智能体架构中，一个 Claude Opus 4 担任"主管"，多个 Claude Sonnet 4 充当"执行者"，系统性能比单用 Opus 4 高出 90%。微软 Copilot Studio、Salesforce Agentforce 也在押注同一件事——让企业用户自己编排智能体工作流。

腾讯最新财报会上，马化腾也表达了类似判断：AI的入口不应该只是聊天机器人，未来每个小程序都可以智能化改造，通过API完成调用——本质上，是把产品矩阵变成一张可编排的智能体网络。

过去三年，AI 行业争夺的是“谁能训练出更强的模型”，接下来竞争的核心，更可能变成：谁能把推理做得更便宜、更快、更可控。

芯片在为 token 吞吐重写架构，模型在为更少 token 完成更复杂任务重做系统，云厂商开始直接经营 token，应用层则把胜负手押在智能体编排。

推理，不再只是模型输出前的最后一步，而是正在成为整个 AI 产业的新定价单位。