巨头开始“烧不动Token”了-钛媒体官方网站

文 | 影子备忘录

一家未具名的科技巨头，因为忘了给员工的Claude使用许可证设置上限，短短一个月内在AI上的支出高达5亿美元——折合人民币约33亿元，相当于每天烧掉超1亿元。

这家公司是谁，至今没人确认，但社交媒体上的猜测几乎都指向了亚马逊，一个在2026年资本支出高达约两千亿美元的庞然大物。

五亿美元意味着什么？足够一家中等规模科技公司干一整年营收的钱，只够这家巨头在AI大模型上点一个月“外卖”。

更令人咋舌的是，这并非孤例。Uber的CTO在内部备忘录中坦承，公司将Claude Code部署给约5000名工程师后，短短四个月内就用光了全年的AI预算。

单个工程师每月产生的API成本高达500到2000美元，即便对于这家市值1500亿美元的企业，账单依然让高管措手不及。

微软也在同一时间紧急收紧了内部AI工具的使用权限，逐步关停大部分Claude Code授权，要求数以千计的工程师强制迁移回自家的GitHub Copilot。

Meta、亚马逊同样在最近几周收紧了内部AI Token消耗指标——数以十亿美元计的计算资源被消耗，却几乎没有可衡量的业务产出。

如果说此前市场上关于AI泡沫的讨论还停留在口头辩论，那么此时此刻，真金白银的账单已经给出了答案：巨头真的烧不动Token了。

Token是如何从“白菜价”变成“奢侈品”的

两年前，Token还不是个问题。

2024年，大模型厂商疯狂烧钱训练更大的模型，通过免费送Token、低价倾销抢占市场。当时甚至有人说“卖Token不如卖矿泉水”——百万元级的输入Token只要几毛钱，贵一点的模型不过一两美元。

整个行业沉浸在“成本将持续下降”的叙事里，所有人都相信规模效应会像互联网一样将边际成本无限摊薄。

然而，2025年下半年开始，风向变了。

根据OpenRouter的统计，过去一年全球周度Token消耗量从2.1T激增至24.5T，2026年以来周度消耗同比增幅达280%。

在国内，日均Token调用量从2024年初的1000亿飙升至2026年3月的140万亿，两年增长超1000倍，仅2026年第一季度就较2025年底增长了40%。

需求端的急剧膨胀，瞬间撕开了供给端的缺口。

Epoch AI发布的报告算了一笔简单的账：全球Blackwell芯片的算力增速是每年约3.4倍，而全球Token需求增速是每年约10倍。3.4对10，差距在逐年撕裂。

更致命的是，一旦上下文窗口拉长到128k，吞吐量会暴跌50倍。而当企业级应用普及后，绝大多数任务恰恰需要处理海量上下文，这就意味着有效供给比理论值还要紧俏。

供给端的瓶颈是结构性且短中期无解的。HBM高带宽内存是AI服务器的“心脏”，三星、SK海力士和美光三家占据了全球95%以上的产能，其扩产周期长达24到36个月。

2025年下半年以来，HBM价格涨幅超过50%，直接推高了AI芯片的成本。CoWoS封装产能同样严重不足，台积电即便在2025年将产能翻倍，2026年的订单依然排到了年底。

受此挤压，普通DDR5内存半年的涨价幅度高达300%，256G服务器内存单条报价已突破4万元。

算力租赁市场率先反映了这种紧张。自2026年2月以来，租用英伟达最先进的B200芯片的费用已翻了一番，接近每小时6美元。

即使是旧款的H100，一年期租赁合约价格也从2025年10月的约1.7美元/小时，上涨至2026年3月的2.35美元/小时，涨幅近四成。

一台8卡的英伟达B300服务器，报价从3月份前的不到400万元，飙升至约700万元，而且“到货就被扫光”。

传导到模型层，结果就是全线涨价。GPT-5.5定价翻倍，Gemini部分场景涨价3倍，Claude的API价格水涨船高。曾几何时被津津乐道的“AI成本将持续下降”的神话，已经被现实击得粉碎。

为什么越烧Token，产出越少？

如果说成本上涨是外部环境的“天灾”，那么企业内部的管理问题，则是让账单更加触目惊心的“人祸”。

亚马逊、Meta等巨头此前推崇的AI使用量内部排行榜，催生了一个被称为“Tokenmaxxing”的现象——员工通过AI代理执行毫无意义的任务来消耗Token，目的只是为了在排行榜上获得更高的排名。亚马逊工程高级副总裁事后不得不公开告诫员工：“请不要为了用AI而用AI”。

Meta类似的管理指标催生了几乎同样的问题。该公司约8.5万名员工每月消耗60万亿Token，换算下来每位员工每天烧掉约100万输出Token。

部分工程团队被允许每天在Token上花费300美元，够一个人一天生成2500万输出Token。

苹果的案例更让人咋舌，部分工程团队被允许每天在Token上花费300美元——按当时的价格算，够一个人一天生成2500万输出Token。

最荒谬的是那笔5亿美元的账单——由于没有设置使用上限，导致AI工具被毫无节制地滥用。高额Token账单迅速堆积，财务部门收到时，数据甚至已经过时了三天。

但比管理失控更值得追问的是：这些烧掉的Token，到底创造了多少真实价值？

开发者生产力平台Entelligence.AI汇总了2444家企业的数据，给出了一个令人警醒的答案：每投入1美元AI Token费用，只有18美分产生了触达用户的实际价值。

高达44美分被用来修复AI自身引入的Bug，27美分流向返工，11美分被审查摩擦所消耗。这意味着大部分Token不仅没有提升效率，反而成为了效率的损耗源。

洋葱集团创始人甚至直言：“很多员工，其实在拿公司的Token摸鱼，甚至接私活。白天在公司上班，同时接外面的私活——开发单、设计单、运营单”。

甚至闲鱼等二手平台上，大量卖家正在利用公司配发的模型额度对外接单。AI还没淘汰人类，人类倒先把公司的AI预算给报销了。

Uber的遭遇同样揭示了这种困局。该公司将Claude Code部署给约5000名工程师后，月使用率飙升至95%，全员AI素养得到了极大提升，但单月成本却超出了全年的预算规划。

Uber不得不紧急制定严苛的分级管理制度，像当年节省纸张一样精打细算每一个Token的成本。

一个更加反常识的结论正在被越来越多的企业意识到：在某些场景下，AI不仅没有提升效率，甚至反而拖慢了效率。

METR的最新研究显示，Claude Code在实测中让资深开发者的完成速度慢了19%。投入Token，修复Bug，返工，审查摩擦——这个循环正在吞噬原本应该被创造出来的效率空间。

当巨头们把Token使用量纳入KPI考核，员工们唯一能理性做的事情，就是无限制地消耗Token来刷分数。这套激励机制本身就是对“效率最大化”最大的讽刺。

效率越高，烧钱越快

当人们谈论AI的效率提升时，通常谈论的是“单位Token产出的价值”。但这个公式存在一个被有意无意忽略的前提——Token总量是有限的。

实际上，随着AI性能的提升，用户的使用频率和单次任务的复杂度只会越来越高。这是一个内在的、不可调和的悖论。

中信证券的报告数据显示，AI计算需求已呈指数级扩张。从核心厂商的消耗数据来看，国内字节跳动（豆包）2025年12月的日均Token消耗量达到63万亿，与OpenAI的52万亿、谷歌的65万亿处于同一量级。

到2026年3月，这一数字突破120万亿，三个月内实现了翻倍增长。豆包日均Token调用量相比2024年5月增长了整整1000倍。

仅2026年前四个月，部分企业就已经耗尽了全年的Token预算。

谷歌在I/O大会上宣布，Gemini的使用量已从2025年5月的每月480万亿Token跃升至2026年5月的每月3200万亿Token，增幅超过6倍，主要驱动因素正是代理型AI（Agent）和编码工具——这两者消耗的计算资源远超基本的聊天机器人查询。

在英伟达内部的一次交流中，甚至有员工坦率地提出担忧：“对我的团队而言，AI成本已超过了人力成本”。

当AI比人还贵的时候，“用AI替代人力”的逻辑起点就不复存在了。

这就引出了一个根本性的问题：AI的边际成本结构，和传统工业是截然不同的。

过去工业革命的底层逻辑是“买断制”——建工厂、买设备需要极高的初始投入，但一旦机器运转起来，多生产一件产品的边际成本几乎为零。机器不需要按时薪结算，产量越大，平摊到单件上的成本就越低。

而到了AI时代，逻辑变成了“租赁制”。初始成本几乎为零，你只需要按Token付费来“租赁”AI的思考能力。

但这种模式的致命弱点在于：当任务变得复杂时，Token消耗会呈指数级爆炸。一个朴素的算术题摆在了所有人面前：AI省下的那点人力成本，未必填得上Token的账单。

具体来看技术维度的错配也相当明显。在大模型的推理成本结构中，约60%到70%来自工具调用和上下文处理，这一比例在复杂Agent任务中会更高。

以“订机票+酒店+租车”的复合任务为例：用户输入占比不足1%，模型内部推理（思考链）约占5%到10%，工具调用（API交互）约占85%到90%，最终输出不足5%。这意味着仅仅通过优化模型推理来降本的空间极为有限，真正的大头消耗来自Agent与外部环境的反复交互。

当AI从“一问一答”变为“自主执行”，消耗的Token量级从几百跃升到几十万甚至上百万，这就是为什么开源模型和闭源模型之间曾经的价格差距，在企业级用量面前几乎毫无意义——问题是用了多少，而不是单价多便宜。

就连微软这样拥有充沛云资源和完整AI产业链的巨头，也开始反思这一悖论。微软停用了内部对Anthropic旗下Claude Code的使用授权，因为按照Token按量计费的模式，哪怕是自家云资源配合使用，依然觉得成本高到难以承受。

这释放了一个危险的信号：当基础设施的提供者自己都烧不起Token的时候，第三方企业用户的日子只会更难过。

成本剧烈增加，趋势不可逆增加

AI行业曾以一种近乎天真的乐观主义坚信“摩尔定律”能持续适用于大模型成本。但事实正在给出不同的答案。

尽管技术优化一直在路上，但在需求爆发的浪潮面前，一切优化都被稀释了。NVIDIA在2025年GTC大会上公布的公开数据显示，通过量化和KV Cache优化，推理成本理论上可以降低50%到70%。

但同期，GPT-4到GPT-4o的推理成本下降了约50%，而用户调用量增长了5倍。技术优化的幅度远远追不上需求膨胀的速度。

更进一步的数据显示，自2024年以来，谷歌处理的Token量年增10倍，其他供应商的增速也差不多。而全球AI算力每年只增长3.4倍，芯片内存带宽每年增长4.1倍。

3.4对10的巨大鸿沟，意味着算力需求的增长在可预见的未来都将领先于供给，而这将不可避免地推动Token价格继续走高。

从整个产业来看，Token成本正在重构AI经济的底层逻辑。中信证券指出，供需失衡将推动云产业链进入量价齐升周期。

优刻得因硬件成本结构性上涨上调服务价格；阿里云宣布AI算力、存储产品最高涨价34%。国内头部大模型企业单月收入突破10亿元，部分企业20天的收入就超过了2025年全年。

这组数据的背后，是Token已经从“获客成本”变成了企业必须严肃对待的“硬成本”。

算力需求的全球竞争也在加速推高成本。据统计，美国四大云服务商（微软、亚马逊、谷歌、Meta）2025至2026年计划资本开支合计分别达到4002亿、6500亿美元。

国内阿里、腾讯、百度、字节同期合计投入507.16亿、669.71亿美元。全球范围内的算力军备竞赛，使得任何一家企业都难以独善其身。

在成本端，高盛预计到2030年，AI Agent所消耗的Token用量将增长24倍，达每月120千万亿个Token。

每日数亿元的Token“燃烧”，意味着Token已经从一个技术细节，上升为企业财务模型中最不可忽视的变量。AI的推理成本，正在成为这个时代最昂贵的账单之一。

技术的进步还带来了另一重悖论：模型变得更强大，意味着单次调用消耗更多资源。

以Anthropic最新开放的百万级上下文窗口为例，一个90万Token的请求与一个9千Token的请求单价完全一致。

表面上看这似乎是降价，但前提是你确实需要90万Token。当多模态处理和完整代码库分析成为标准配置，单次请求的Token消耗自然水涨船高。技术的发展并未减少Token消耗，反而在功能上为更大量的消耗提供了空间。

这一现实的连锁反应已经开始显现，据IT桔子数据，2026年第一季度，已有超过10家AI应用初创公司停止运营或转型。

纯API创业公司既无自有流量生态，也无算力囤货，更无私有化部署能力，它们成为Token成本上涨冲击下最先倒下的群体。这并非短期的价格波动，而是AI产业结构性洗牌的开始。

出路在哪里？

面对天价Token账单，整个行业正在经历一场深刻的反思。

第一条出路，是技术层面的降本。以DeepSeek为代表的新一代开源模型，正在用稀疏注意力等架构创新大幅压低推理成本。

DeepSeek R1的API调用价格低至$0.001/千token，仅为GPT-4 Turbo的十分之一，成本来源于三大技术优化：量化压缩使模型体积缩减75%；动态批处理算法将GPU利用率提升至92%；架构级优化使计算量减少50%。

这种“性能不减、成本腰斩”的技术路径，为整个行业提供了可借鉴的降本范式。DeepSeek V3的训练成本仅为前沿模型的十分之一到二十分之一，API价格低至同类的十六分之一，在Hacker News等开发者社区引发了广泛讨论。这也说明，AI算力的普及并不必然等同于高成本，关键在于技术架构的革新。

第二条出路，是企业内部的管理重构。亚马逊已经在行动，他们关闭了鼓励Tokenmaxxing的内部排行榜KiroRank，转而采用名为“标准化部署”的指标，衡量的是实际交付的AI辅助代码，而非消耗的Token数量。

Uber也制定了严格的分级管理制度，限制工程师的AI工具使用流量。从“用量考核”到“结果考核”，这一转变意味着企业对AI的态度已经从“追求普及率”转向“追求投资回报率”。

正如Uber的遭遇所揭示的那样，让全员用上AI并不难，难的是让AI为业务创造价值。

第三条出路，是商业模式的重构。国内豆包开始推出付费订阅，从每月68元到500元不等；百度文心一言也推出49.9元/月会员；Kimi试水每月49元至199元档位。

虽然用户对收费反应不一，但一个事实已经明确：靠资本输血维持免费模式的阶段已经走到了尽头。

同时，Anthropic将Claude企业版的定价模式从固定订阅转向“基础费+按实际算力消耗付费”的混合模式。

旧模式下最高需为每位授权用户支付每月200美元，新模式下则在每用户每月20美元的基础费之上额外按实际消耗的算力付费。在此背景下，AI成本的最终承担者，将从风险投资和企业IT预算，逐渐转移至最终用户。

技术降本、管理增效、商业变现——这三条路没有一条是轻松的，但它们合在一起，构成了AI经济走向可持续的唯一路径。

结语

当人们回顾2026年的这个夏天，很可能会发现，这是AI从神话回归常识的转折点。

“AI一定比人便宜”，这句过去两年被无数次重复的信念，如今终于迎来了审视。

简单任务上AI确实远比人工廉价，但当任务变得复杂、当循环思考上线、当Agent开始“永不下班”，昂贵的API账单终将反超人类薪资。

Token的稀缺不是技术问题，而是经济问题。它提醒所有人：算力虽大，但不是无限的；效率虽高，但不是免费的；创新虽好，但不是无代价的。

AI带来的效率提升是真实的，但同时伴随着成本的剧烈增加——这才是完整的、不被有意忽略的经济账。

巨头们收缩AI预算并不意味着放弃AI，而是一次健康的回调。

从“烧Token竞赛”回归到“价值创造”，从“为了用AI而用AI”回到“AI是工具不是目的”——这些判断虽然听起来像是常识，但在狂热的市场中，常识往往是最容易被遗忘的东西。

下一次，当你打开对话框问AI一个简单的问题，消耗几百个Token时，不妨想一想那些在后台循环思考数万次的Agent，那些反复调用外部工具去完成一个任务的自动化流程，那些为了一个代码Bug而绕了无数弯路的复杂推理——每一个Token的背后，都是一笔真实账。

AI的账，终究要有人来付。