Token管够的时代结束了-钛媒体官方网站

文 | 世界模型工场

曾经Token管够的公司，现在集体开始学过日子了。

最近，美国Agent公司Lindy把100%的托管Agent流量，从Claude搬到了DeepSeek V4。

理由是，这能节省数百万美元推理成本，迁移流量成本下降约90%。

这不是个例。

一些美国开发者和中小公司正在转向中国模型，因为它们在大量日常任务上“够用且便宜”。

据外媒报道，Siemens、Renault、Orange、ChapsVision等欧洲企业，也开始混用美国、中国、欧洲的模型了。

回想过去一年，很多企业都在鼓励员工多用AI，仿佛Token烧得越多，就越能证明公司“AI-first”。

但随着Token账单摆到桌上，全球公司仿佛约好了一样开始集体反省，主打一个“该省省该花花”。

一场小模型经济学的风潮悄然兴起。

Token最大化的反噬

所谓小模型经济学，就是别什么活都请最贵的专家。

过去企业接入AI，往往默认用最强模型。

写代码上Claude，做Agent上Claude，复杂不复杂都先上前沿模型。

但问题是，前沿模型堪称Token碎钞机，每多读一段上下文、多跑一轮Agent，账单都贵得让人想流泪。

于是大家开始琢磨，是不是每件事都得上最贵的旗舰模型？

结果发现，简单活分给便宜模型，复杂活上贵模型，效果也不错。

这一套省钱“小妙招”，慢慢就被叫成了"小模型经济学"。

要知道这套Token经济学不是凭空想出来的，而是被一堆账单逼出来的。

Uber就是一个典型案例。

这家公司曾经鼓励工程师多用AI编程工具，Claude Code、Cursor这类工具都被当成提效神器。

结果仅用几个月，Uber就烧穿了全年的AI编程预算。

Uber COO Andrew Macdonald 后来公开质疑，表示很难把Claude Code使用量和“多交付25%有用消费者功能”直接挂钩。

紧接着，公司开始给员工设Token限额。每人、每个工具，每月1500美元Token花费，超额需要获批。

亚马逊的故事同样黑色幽默。

之前为了响应公司AI号召，员工自发做了一个KiroRank排行榜，专门看谁用Token用得多。

结果很快有人摸到了漏洞，根本不用真解决问题，派Agent去干一堆没意义的活，排名照样往上。

高级副总裁Dave Treadwell最后只能亲自下场喊话："别为了用AI而用AI"，排行榜随后悄悄下线。

Meta内部也搞过类似的东西，名字起得更狂，叫"Claudeonomics"，连"经济学"都用上了，结果栽在同一个坑里。

目前，大公司都开始收紧Token用量了。

微软被曝大量取消Claude Code直接许可，转向GitHub Copilot CLI，Copilot从固定订阅走向按量计费。

Meta也从“Token最大化”转向了“Token最小化”策略。

据外媒报道，Meta计划限制员工Token使用，原因是内部AI使用成本预计达到数十亿美元级别。

这些变化表明，企业开始意识到，Token花费和有用产出不成正比，乱烧Token的时代结束了。

小模型经济学变成一门生意

光靠企业自己抠预算还不够，真正让"小模型经济学"成立的，是供给侧也跟着变了，便宜模型开始好用了。

DeepSeek V4系列是最直接的代表。

同样干活，DeepSeek V4 Flash价格比Anthropic模型低约20-50倍。

在Ramp的企业软件采购趋势榜上，DeepSeek一度冲到第一。

Vercel的AI网关数据更夸张。

在Vercel AI Gateway的生产流量中，DeepSeek的Token份额一个月从不到1%升至17%。

连微软都在认真考虑，用DeepSeek V4的微调版，去顶替Copilot Cowork里原本跑Anthropic、OpenAI的位置。

这也催生出一套行业里心照不宣的分层逻辑：

不差钱或者任务难的时候，照旧用OpenAI、Anthropic的旗舰模型；

真要算性价比，转头就去用DeepSeek、Kimi、智谱GLM、MiniMax这一档"够用且便宜"的模型。

两条价格带并行，按需分配。

开源项目ClawRouter数据显示，用这种分层组合，平均成本能从每百万Token 25美元，压到约2美元。

在这套逻辑下，OpenRouter这样的模型路由公司突然就开始值钱了。

OpenRouter不训练模型，它做的是模型调度台，帮助企业和开发者在OpenAI、Anthropic、Google、DeepSeek、Mistral等数百个模型之间调度。

价格、延迟、稳定性、上下文长度，都是OpenRouter考虑的调度因素。

据外媒报道，OpenRouter今年完成1.13亿美元B轮融资，估值约13亿美元；周处理Token量涨了5倍到25万亿，拥有800万用户。

Vercel的数据也显示，大规模AI应用早就不是一个模型打天下。

在Vercel AI Gateway上，月请求量超过1000万次的团队，平均会同时使用35个模型。

有的模型负责意图识别，有的模型负责检索，有的模型负责摘要，有的模型负责复杂推理，AI的使用变得像一条分工明确的流水线。

还有LiteLLM、Helicone 这类工具，把模型路由做成了财务系统。

按团队、项目、模型设置预算，监控每个接口烧了多少Token，一旦哪家Provider变贵了、变慢了，就把流量切走。

与此同时，云厂商也开始跟进。

AWS Bedrock的Intelligent Prompt Routing已经能在同一模型家族里自动分配请求。

AWS内部测试显示，在Claude Haiku和Sonnet之间做路由，可以在保持质量的同时节省48%到56%成本。

在这样的产业变化下，帮企业省钱的“小模型经济学”，正在成为一门新生意。

企业如何落地？

虽说"该省省该花花"的道理都懂，但真正落地时，企业面对的是具体的技术活儿：

这次请求，到底该派给便宜模型还是贵模型？

这个过程，不是简单地把Claude换成DeepSeek，而是要把一个AI任务拆成很多小步骤。

比如一个客服Agent，用户问“我的订单到哪了”，模型之间的工作流大致是：

先让便宜模型判断意图，是查物流，不是投诉，也不是退货；

再用便宜模型抽出订单号，直接调用物流API。

最后，只需要一个中等模型把结果润色成一句人话。

用户看到的还是“您的包裹已到达杭州转运中心”，但企业已经少跑了一大段昂贵推理。

AI编程也是一样。

一个coding agent不需要每一步都用最贵模型。

读取目录、总结文件结构、生成简单测试、写PR摘要，可以交给便宜模型；

大型重构计划、跨文件依赖分析、安全敏感代码审查，再交给Claude、GPT这类强模型。

从技术上看，企业要实现模型路由方式，通常有几种做法。

最简单的是规则路由，比如：订单查询走小模型加API，法律问题直接走强模型加人审。

更常见的是级联路由，先让便宜模型回答，格式校验、事实校验、置信度过不了，再升级给贵模型。

再往后，就是学习型路由。系统根据提示词难度、历史表现、预算和延迟，自动判断该用哪个模型。

近两年，这套工程化的手艺，也从工程师的经验之谈，变成了正经的研究课题。

比如，ParetoBandit研究的是动态环境里的预算路由。

模型价格在变，模型质量会悄悄退化，新模型会不断加入，系统如何一边控制预算，一边在线调整路由？

Budget-Aware Agentic Routing专门研究Agent场景。

长任务里每一步都调用强模型，在经济上不可持续，所以要在每一步决定，是该省钱，还是该上强模型？

当企业去掉了"Token管够"的幻觉，转向更加务实的“小模型经济学”，这恰恰是企业继续扩大AI使用的前提。