Token管够的时代结束了

AGI
企业的钱也不是大风刮来的

文 | 世界模型工场

曾经Token管够的公司,现在集体开始学过日子了。 

最近,美国Agent公司Lindy把100%的托管Agent流量,从Claude搬到了DeepSeek V4。

理由是,这能节省数百万美元推理成本,迁移流量成本下降约90%。

这不是个例。

一些美国开发者和中小公司正在转向中国模型,因为它们在大量日常任务上“够用且便宜”。

据外媒报道,Siemens、Renault、Orange、ChapsVision等欧洲企业,也开始混用美国、中国、欧洲的模型了。

回想过去一年,很多企业都在鼓励员工多用AI,仿佛Token烧得越多,就越能证明公司“AI-first”。

但随着Token账单摆到桌上,全球公司仿佛约好了一样开始集体反省,主打一个“该省省该花花”。

一场小模型经济学的风潮悄然兴起。

Token最大化的反噬

所谓小模型经济学,就是别什么活都请最贵的专家。

过去企业接入AI,往往默认用最强模型。

写代码上Claude,做Agent上Claude,复杂不复杂都先上前沿模型。

但问题是,前沿模型堪称Token碎钞机,每多读一段上下文、多跑一轮Agent,账单都贵得让人想流泪。

于是大家开始琢磨,是不是每件事都得上最贵的旗舰模型?

结果发现,简单活分给便宜模型,复杂活上贵模型,效果也不错。

这一套省钱“小妙招”,慢慢就被叫成了"小模型经济学"。

要知道这套Token经济学不是凭空想出来的,而是被一堆账单逼出来的。

Uber就是一个典型案例。

这家公司曾经鼓励工程师多用AI编程工具,Claude Code、Cursor这类工具都被当成提效神器。

结果仅用几个月,Uber就烧穿了全年的AI编程预算。

Uber COO Andrew Macdonald 后来公开质疑,表示很难把Claude Code使用量和“多交付25%有用消费者功能”直接挂钩。

紧接着,公司开始给员工设Token限额。每人、每个工具,每月1500美元Token花费,超额需要获批。

亚马逊的故事同样黑色幽默。

之前为了响应公司AI号召,员工自发做了一个KiroRank排行榜,专门看谁用Token用得多。

结果很快有人摸到了漏洞,根本不用真解决问题,派Agent去干一堆没意义的活,排名照样往上。

高级副总裁Dave Treadwell最后只能亲自下场喊话:"别为了用AI而用AI",排行榜随后悄悄下线。

Meta内部也搞过类似的东西,名字起得更狂,叫"Claudeonomics",连"经济学"都用上了,结果栽在同一个坑里。

目前,大公司都开始收紧Token用量了。

微软被曝大量取消Claude Code直接许可,转向GitHub Copilot CLI,Copilot从固定订阅走向按量计费。

Meta也从“Token最大化”转向了“Token最小化”策略。

据外媒报道,Meta计划限制员工Token使用,原因是内部AI使用成本预计达到数十亿美元级别。

这些变化表明,企业开始意识到,Token花费和有用产出不成正比,乱烧Token的时代结束了。

小模型经济学变成一门生意

光靠企业自己抠预算还不够,真正让"小模型经济学"成立的,是供给侧也跟着变了,便宜模型开始好用了。

DeepSeek V4系列是最直接的代表。

同样干活,DeepSeek V4 Flash价格比Anthropic模型低约20-50倍。

在Ramp的企业软件采购趋势榜上,DeepSeek一度冲到第一。

Vercel的AI网关数据更夸张。

在Vercel AI Gateway的生产流量中,DeepSeek的Token份额一个月从不到1%升至17%。

连微软都在认真考虑,用DeepSeek V4的微调版,去顶替Copilot Cowork里原本跑Anthropic、OpenAI的位置。

这也催生出一套行业里心照不宣的分层逻辑:

不差钱或者任务难的时候,照旧用OpenAI、Anthropic的旗舰模型;

真要算性价比,转头就去用DeepSeek、Kimi、智谱GLM、MiniMax这一档"够用且便宜"的模型。

两条价格带并行,按需分配。

开源项目ClawRouter数据显示,用这种分层组合,平均成本能从每百万Token 25美元,压到约2美元。

在这套逻辑下,OpenRouter这样的模型路由公司突然就开始值钱了。

OpenRouter不训练模型,它做的是模型调度台,帮助企业和开发者在OpenAI、Anthropic、Google、DeepSeek、Mistral等数百个模型之间调度。

价格、延迟、稳定性、上下文长度,都是OpenRouter考虑的调度因素。

据外媒报道,OpenRouter今年完成1.13亿美元B轮融资,估值约13亿美元;周处理Token量涨了5倍到25万亿,拥有800万用户。

Vercel的数据也显示,大规模AI应用早就不是一个模型打天下。

在Vercel AI Gateway上,月请求量超过1000万次的团队,平均会同时使用35个模型。

有的模型负责意图识别,有的模型负责检索,有的模型负责摘要,有的模型负责复杂推理,AI的使用变得像一条分工明确的流水线。

还有LiteLLM、Helicone 这类工具,把模型路由做成了财务系统。

按团队、项目、模型设置预算,监控每个接口烧了多少Token,一旦哪家Provider变贵了、变慢了,就把流量切走。

与此同时,云厂商也开始跟进。

AWS Bedrock的Intelligent Prompt Routing已经能在同一模型家族里自动分配请求。

AWS内部测试显示,在Claude Haiku和Sonnet之间做路由,可以在保持质量的同时节省48%到56%成本。

在这样的产业变化下,帮企业省钱的“小模型经济学”,正在成为一门新生意。

企业如何落地?

虽说"该省省该花花"的道理都懂,但真正落地时,企业面对的是具体的技术活儿:

这次请求,到底该派给便宜模型还是贵模型?

这个过程,不是简单地把Claude换成DeepSeek,而是要把一个AI任务拆成很多小步骤。

比如一个客服Agent,用户问“我的订单到哪了”,模型之间的工作流大致是:

先让便宜模型判断意图,是查物流,不是投诉,也不是退货;

再用便宜模型抽出订单号,直接调用物流API。

最后,只需要一个中等模型把结果润色成一句人话。

用户看到的还是“您的包裹已到达杭州转运中心”,但企业已经少跑了一大段昂贵推理。

AI编程也是一样。

一个coding agent不需要每一步都用最贵模型。

读取目录、总结文件结构、生成简单测试、写PR摘要,可以交给便宜模型;

大型重构计划、跨文件依赖分析、安全敏感代码审查,再交给Claude、GPT这类强模型。

从技术上看,企业要实现模型路由方式,通常有几种做法。

最简单的是规则路由,比如:订单查询走小模型加API,法律问题直接走强模型加人审。

更常见的是级联路由,先让便宜模型回答,格式校验、事实校验、置信度过不了,再升级给贵模型。

再往后,就是学习型路由。系统根据提示词难度、历史表现、预算和延迟,自动判断该用哪个模型。

近两年,这套工程化的手艺,也从工程师的经验之谈,变成了正经的研究课题。

比如,ParetoBandit研究的是动态环境里的预算路由。

模型价格在变,模型质量会悄悄退化,新模型会不断加入,系统如何一边控制预算,一边在线调整路由?

Budget-Aware Agentic Routing专门研究Agent场景。

长任务里每一步都调用强模型,在经济上不可持续,所以要在每一步决定,是该省钱,还是该上强模型?

当企业去掉了"Token管够"的幻觉,转向更加务实的“小模型经济学”,这恰恰是企业继续扩大AI使用的前提。

本文系作者 世界模型工场 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App