巨头开始“烧不动Token”了

AGI
科技巨头们正在收缩Token支出

文 | 影子备忘录

一家未具名的科技巨头,因为忘了给员工的Claude使用许可证设置上限,短短一个月内在AI上的支出高达5亿美元——折合人民币约33亿元,相当于每天烧掉超1亿元。

这家公司是谁,至今没人确认,但社交媒体上的猜测几乎都指向了亚马逊,一个在2026年资本支出高达约两千亿美元的庞然大物。

五亿美元意味着什么?足够一家中等规模科技公司干一整年营收的钱,只够这家巨头在AI大模型上点一个月“外卖”。

更令人咋舌的是,这并非孤例。Uber的CTO在内部备忘录中坦承,公司将Claude Code部署给约5000名工程师后,短短四个月内就用光了全年的AI预算。

单个工程师每月产生的API成本高达500到2000美元,即便对于这家市值1500亿美元的企业,账单依然让高管措手不及。

微软也在同一时间紧急收紧了内部AI工具的使用权限,逐步关停大部分Claude Code授权,要求数以千计的工程师强制迁移回自家的GitHub Copilot。

Meta、亚马逊同样在最近几周收紧了内部AI Token消耗指标——数以十亿美元计的计算资源被消耗,却几乎没有可衡量的业务产出。

如果说此前市场上关于AI泡沫的讨论还停留在口头辩论,那么此时此刻,真金白银的账单已经给出了答案:巨头真的烧不动Token了。

Token是如何从“白菜价”变成“奢侈品”的

两年前,Token还不是个问题。

2024年,大模型厂商疯狂烧钱训练更大的模型,通过免费送Token、低价倾销抢占市场。当时甚至有人说“卖Token不如卖矿泉水”——百万元级的输入Token只要几毛钱,贵一点的模型不过一两美元。

整个行业沉浸在“成本将持续下降”的叙事里,所有人都相信规模效应会像互联网一样将边际成本无限摊薄。

然而,2025年下半年开始,风向变了。

根据OpenRouter的统计,过去一年全球周度Token消耗量从2.1T激增至24.5T,2026年以来周度消耗同比增幅达280%。

在国内,日均Token调用量从2024年初的1000亿飙升至2026年3月的140万亿,两年增长超1000倍,仅2026年第一季度就较2025年底增长了40%。

需求端的急剧膨胀,瞬间撕开了供给端的缺口。

Epoch AI发布的报告算了一笔简单的账:全球Blackwell芯片的算力增速是每年约3.4倍,而全球Token需求增速是每年约10倍。3.4对10,差距在逐年撕裂。

更致命的是,一旦上下文窗口拉长到128k,吞吐量会暴跌50倍。而当企业级应用普及后,绝大多数任务恰恰需要处理海量上下文,这就意味着有效供给比理论值还要紧俏。

供给端的瓶颈是结构性且短中期无解的。HBM高带宽内存是AI服务器的“心脏”,三星、SK海力士和美光三家占据了全球95%以上的产能,其扩产周期长达24到36个月。

2025年下半年以来,HBM价格涨幅超过50%,直接推高了AI芯片的成本。CoWoS封装产能同样严重不足,台积电即便在2025年将产能翻倍,2026年的订单依然排到了年底。

受此挤压,普通DDR5内存半年的涨价幅度高达300%,256G服务器内存单条报价已突破4万元。

算力租赁市场率先反映了这种紧张。自2026年2月以来,租用英伟达最先进的B200芯片的费用已翻了一番,接近每小时6美元。

即使是旧款的H100,一年期租赁合约价格也从2025年10月的约1.7美元/小时,上涨至2026年3月的2.35美元/小时,涨幅近四成。

一台8卡的英伟达B300服务器,报价从3月份前的不到400万元,飙升至约700万元,而且“到货就被扫光”。

传导到模型层,结果就是全线涨价。GPT-5.5定价翻倍,Gemini部分场景涨价3倍,Claude的API价格水涨船高。曾几何时被津津乐道的“AI成本将持续下降”的神话,已经被现实击得粉碎。

为什么越烧Token,产出越少?

如果说成本上涨是外部环境的“天灾”,那么企业内部的管理问题,则是让账单更加触目惊心的“人祸”。

亚马逊、Meta等巨头此前推崇的AI使用量内部排行榜,催生了一个被称为“Tokenmaxxing”的现象——员工通过AI代理执行毫无意义的任务来消耗Token,目的只是为了在排行榜上获得更高的排名。亚马逊工程高级副总裁事后不得不公开告诫员工:“请不要为了用AI而用AI”。

Meta类似的管理指标催生了几乎同样的问题。该公司约8.5万名员工每月消耗60万亿Token,换算下来每位员工每天烧掉约100万输出Token。

部分工程团队被允许每天在Token上花费300美元,够一个人一天生成2500万输出Token。

苹果的案例更让人咋舌,部分工程团队被允许每天在Token上花费300美元——按当时的价格算,够一个人一天生成2500万输出Token。

最荒谬的是那笔5亿美元的账单——由于没有设置使用上限,导致AI工具被毫无节制地滥用。高额Token账单迅速堆积,财务部门收到时,数据甚至已经过时了三天。

但比管理失控更值得追问的是:这些烧掉的Token,到底创造了多少真实价值?

开发者生产力平台Entelligence.AI汇总了2444家企业的数据,给出了一个令人警醒的答案:每投入1美元AI Token费用,只有18美分产生了触达用户的实际价值。

高达44美分被用来修复AI自身引入的Bug,27美分流向返工,11美分被审查摩擦所消耗。这意味着大部分Token不仅没有提升效率,反而成为了效率的损耗源。

洋葱集团创始人甚至直言:“很多员工,其实在拿公司的Token摸鱼,甚至接私活。白天在公司上班,同时接外面的私活——开发单、设计单、运营单”。

甚至闲鱼等二手平台上,大量卖家正在利用公司配发的模型额度对外接单。AI还没淘汰人类,人类倒先把公司的AI预算给报销了。

Uber的遭遇同样揭示了这种困局。该公司将Claude Code部署给约5000名工程师后,月使用率飙升至95%,全员AI素养得到了极大提升,但单月成本却超出了全年的预算规划。

Uber不得不紧急制定严苛的分级管理制度,像当年节省纸张一样精打细算每一个Token的成本。

一个更加反常识的结论正在被越来越多的企业意识到:在某些场景下,AI不仅没有提升效率,甚至反而拖慢了效率。

METR的最新研究显示,Claude Code在实测中让资深开发者的完成速度慢了19%。投入Token,修复Bug,返工,审查摩擦——这个循环正在吞噬原本应该被创造出来的效率空间。

当巨头们把Token使用量纳入KPI考核,员工们唯一能理性做的事情,就是无限制地消耗Token来刷分数。这套激励机制本身就是对“效率最大化”最大的讽刺。

效率越高,烧钱越快

当人们谈论AI的效率提升时,通常谈论的是“单位Token产出的价值”。但这个公式存在一个被有意无意忽略的前提——Token总量是有限的。

实际上,随着AI性能的提升,用户的使用频率和单次任务的复杂度只会越来越高。这是一个内在的、不可调和的悖论。

中信证券的报告数据显示,AI计算需求已呈指数级扩张。从核心厂商的消耗数据来看,国内字节跳动(豆包)2025年12月的日均Token消耗量达到63万亿,与OpenAI的52万亿、谷歌的65万亿处于同一量级。

到2026年3月,这一数字突破120万亿,三个月内实现了翻倍增长。豆包日均Token调用量相比2024年5月增长了整整1000倍。

仅2026年前四个月,部分企业就已经耗尽了全年的Token预算。

谷歌在I/O大会上宣布,Gemini的使用量已从2025年5月的每月480万亿Token跃升至2026年5月的每月3200万亿Token,增幅超过6倍,主要驱动因素正是代理型AI(Agent)和编码工具——这两者消耗的计算资源远超基本的聊天机器人查询。

在英伟达内部的一次交流中,甚至有员工坦率地提出担忧:“对我的团队而言,AI成本已超过了人力成本”。

当AI比人还贵的时候,“用AI替代人力”的逻辑起点就不复存在了。

这就引出了一个根本性的问题:AI的边际成本结构,和传统工业是截然不同的。

过去工业革命的底层逻辑是“买断制”——建工厂、买设备需要极高的初始投入,但一旦机器运转起来,多生产一件产品的边际成本几乎为零。机器不需要按时薪结算,产量越大,平摊到单件上的成本就越低。

而到了AI时代,逻辑变成了“租赁制”。初始成本几乎为零,你只需要按Token付费来“租赁”AI的思考能力。

但这种模式的致命弱点在于:当任务变得复杂时,Token消耗会呈指数级爆炸。一个朴素的算术题摆在了所有人面前:AI省下的那点人力成本,未必填得上Token的账单。

具体来看技术维度的错配也相当明显。在大模型的推理成本结构中,约60%到70%来自工具调用和上下文处理,这一比例在复杂Agent任务中会更高。

以“订机票+酒店+租车”的复合任务为例:用户输入占比不足1%,模型内部推理(思考链)约占5%到10%,工具调用(API交互)约占85%到90%,最终输出不足5%。这意味着仅仅通过优化模型推理来降本的空间极为有限,真正的大头消耗来自Agent与外部环境的反复交互。

当AI从“一问一答”变为“自主执行”,消耗的Token量级从几百跃升到几十万甚至上百万,这就是为什么开源模型和闭源模型之间曾经的价格差距,在企业级用量面前几乎毫无意义——问题是用了多少,而不是单价多便宜。

就连微软这样拥有充沛云资源和完整AI产业链的巨头,也开始反思这一悖论。微软停用了内部对Anthropic旗下Claude Code的使用授权,因为按照Token按量计费的模式,哪怕是自家云资源配合使用,依然觉得成本高到难以承受。

这释放了一个危险的信号:当基础设施的提供者自己都烧不起Token的时候,第三方企业用户的日子只会更难过。

成本剧烈增加,趋势不可逆增加

AI行业曾以一种近乎天真的乐观主义坚信“摩尔定律”能持续适用于大模型成本。但事实正在给出不同的答案。

尽管技术优化一直在路上,但在需求爆发的浪潮面前,一切优化都被稀释了。NVIDIA在2025年GTC大会上公布的公开数据显示,通过量化和KV Cache优化,推理成本理论上可以降低50%到70%。

但同期,GPT-4到GPT-4o的推理成本下降了约50%,而用户调用量增长了5倍。技术优化的幅度远远追不上需求膨胀的速度。

更进一步的数据显示,自2024年以来,谷歌处理的Token量年增10倍,其他供应商的增速也差不多。而全球AI算力每年只增长3.4倍,芯片内存带宽每年增长4.1倍。

3.4对10的巨大鸿沟,意味着算力需求的增长在可预见的未来都将领先于供给,而这将不可避免地推动Token价格继续走高。

从整个产业来看,Token成本正在重构AI经济的底层逻辑。中信证券指出,供需失衡将推动云产业链进入量价齐升周期。

优刻得因硬件成本结构性上涨上调服务价格;阿里云宣布AI算力、存储产品最高涨价34%。国内头部大模型企业单月收入突破10亿元,部分企业20天的收入就超过了2025年全年。

这组数据的背后,是Token已经从“获客成本”变成了企业必须严肃对待的“硬成本”。

算力需求的全球竞争也在加速推高成本。据统计,美国四大云服务商(微软、亚马逊、谷歌、Meta)2025至2026年计划资本开支合计分别达到4002亿、6500亿美元。

国内阿里、腾讯、百度、字节同期合计投入507.16亿、669.71亿美元。全球范围内的算力军备竞赛,使得任何一家企业都难以独善其身。

在成本端,高盛预计到2030年,AI Agent所消耗的Token用量将增长24倍,达每月120千万亿个Token。

每日数亿元的Token“燃烧”,意味着Token已经从一个技术细节,上升为企业财务模型中最不可忽视的变量。AI的推理成本,正在成为这个时代最昂贵的账单之一。

技术的进步还带来了另一重悖论:模型变得更强大,意味着单次调用消耗更多资源。

以Anthropic最新开放的百万级上下文窗口为例,一个90万Token的请求与一个9千Token的请求单价完全一致。

表面上看这似乎是降价,但前提是你确实需要90万Token。当多模态处理和完整代码库分析成为标准配置,单次请求的Token消耗自然水涨船高。技术的发展并未减少Token消耗,反而在功能上为更大量的消耗提供了空间。

这一现实的连锁反应已经开始显现,据IT桔子数据,2026年第一季度,已有超过10家AI应用初创公司停止运营或转型。

纯API创业公司既无自有流量生态,也无算力囤货,更无私有化部署能力,它们成为Token成本上涨冲击下最先倒下的群体。这并非短期的价格波动,而是AI产业结构性洗牌的开始。

出路在哪里?

面对天价Token账单,整个行业正在经历一场深刻的反思。

第一条出路,是技术层面的降本。以DeepSeek为代表的新一代开源模型,正在用稀疏注意力等架构创新大幅压低推理成本。

DeepSeek R1的API调用价格低至$0.001/千token,仅为GPT-4 Turbo的十分之一,成本来源于三大技术优化:量化压缩使模型体积缩减75%;动态批处理算法将GPU利用率提升至92%;架构级优化使计算量减少50%。

这种“性能不减、成本腰斩”的技术路径,为整个行业提供了可借鉴的降本范式。DeepSeek V3的训练成本仅为前沿模型的十分之一到二十分之一,API价格低至同类的十六分之一,在Hacker News等开发者社区引发了广泛讨论。这也说明,AI算力的普及并不必然等同于高成本,关键在于技术架构的革新。

第二条出路,是企业内部的管理重构。亚马逊已经在行动,他们关闭了鼓励Tokenmaxxing的内部排行榜KiroRank,转而采用名为“标准化部署”的指标,衡量的是实际交付的AI辅助代码,而非消耗的Token数量。

Uber也制定了严格的分级管理制度,限制工程师的AI工具使用流量。从“用量考核”到“结果考核”,这一转变意味着企业对AI的态度已经从“追求普及率”转向“追求投资回报率”。

正如Uber的遭遇所揭示的那样,让全员用上AI并不难,难的是让AI为业务创造价值。

第三条出路,是商业模式的重构。国内豆包开始推出付费订阅,从每月68元到500元不等;百度文心一言也推出49.9元/月会员;Kimi试水每月49元至199元档位。

虽然用户对收费反应不一,但一个事实已经明确:靠资本输血维持免费模式的阶段已经走到了尽头。

同时,Anthropic将Claude企业版的定价模式从固定订阅转向“基础费+按实际算力消耗付费”的混合模式。

旧模式下最高需为每位授权用户支付每月200美元,新模式下则在每用户每月20美元的基础费之上额外按实际消耗的算力付费。在此背景下,AI成本的最终承担者,将从风险投资和企业IT预算,逐渐转移至最终用户。

技术降本、管理增效、商业变现——这三条路没有一条是轻松的,但它们合在一起,构成了AI经济走向可持续的唯一路径。

结语

当人们回顾2026年的这个夏天,很可能会发现,这是AI从神话回归常识的转折点。

“AI一定比人便宜”,这句过去两年被无数次重复的信念,如今终于迎来了审视。

简单任务上AI确实远比人工廉价,但当任务变得复杂、当循环思考上线、当Agent开始“永不下班”,昂贵的API账单终将反超人类薪资。

Token的稀缺不是技术问题,而是经济问题。它提醒所有人:算力虽大,但不是无限的;效率虽高,但不是免费的;创新虽好,但不是无代价的。

AI带来的效率提升是真实的,但同时伴随着成本的剧烈增加——这才是完整的、不被有意忽略的经济账。

巨头们收缩AI预算并不意味着放弃AI,而是一次健康的回调。

从“烧Token竞赛”回归到“价值创造”,从“为了用AI而用AI”回到“AI是工具不是目的”——这些判断虽然听起来像是常识,但在狂热的市场中,常识往往是最容易被遗忘的东西。

下一次,当你打开对话框问AI一个简单的问题,消耗几百个Token时,不妨想一想那些在后台循环思考数万次的Agent,那些反复调用外部工具去完成一个任务的自动化流程,那些为了一个代码Bug而绕了无数弯路的复杂推理——每一个Token的背后,都是一笔真实账。

AI的账,终究要有人来付。

本文系作者 影子备忘录 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App