建议所有 MaaS厂商开通疯狂星期四套餐-钛媒体官方网站

文 | 象先志

周四是我一周消耗 token 最多的一天，得盘工作进度了吧，得review了吧，得写周报了吧。

打开 Claude Code，输入“帮我总结一下这周的工作”——额度先疯狂了。写完周报33%额度没了。别的活儿还没干呢， token 限额了。

200 刀的套餐，3.5 小时就用完。一个任务恨不得扣掉 30%。

问题是：不知道Token 都花在哪儿了。

前几天，Claude code的代码被乌龙打包上传之后，经 Reddit 用户逆向工程发现，Anthropic 终于承认了：Claude Code 确实在乱扣费。Anthropic 官方终于承认了——在 Reddit 用户爆破式吐槽并甩出逆向工程证据后，官方账号回应：“正在紧急排查，目前是最高优先级问题”。

这是一个工程问题，一方面是Harness 架构虽然能让 AI 能搞定复杂任务，但代价是开销远高于单模型对话；另一方面是 Claude 本身的流量算法确实存在疏漏。

我知道了，agent 在疯狂偷吃我的 token 。要是想得到好的结果，肯定要多喂 token 。

所以国产的 MaaS 们是不是也面临同样情况呢？是不是至少可以保证在AI 们的高峰使用额度提供一个可解决的方案呢？

所以我建议MaaS们每周四开通 token 疯狂星期四，token 畅用，V 我五十助我智能飞升。

应用层的黑箱里藏着什么？

Claude Code 为什么好用？因为他不是单一模型，是一套多智能体流水线。写代码的、评审的、审核的，各跑各的。这些子智能体的 token 消耗，被打包进“一次对话”里。

Harness 架构让 AI 能搞定复杂任务，但是token 开销确实爆炸。据社区测试，复杂任务下的 token 消耗可能是直接调用模型的数倍甚至十倍以上。这个 overhead，被厂商打包进“一次对话”的账单，用户完全感知不到。

更隐蔽的是 Coding Plan 内部的模型调控。Plan Mode、Reviewer、Debugger 这些角色，每次切换都是隐性调用。你以为自己在和“一个 AI”对话，实际上后台可能在五六个子智能体之间来回跳转。

然后是那个被 Reddit 大神逆向出来的真相：两个独立的 cache bug，让 prompt cache 完全失效。这其中存在两个比较要命的 bug 。

Bug 1：Sentinel 替换机制破坏缓存

Claude Code 为了在不同平台（Windows/macOS/Linux）分发，使用了独立的二进制文件。当对话内容涉及计费内部逻辑时，系统会用 sentinel 值替换敏感字段。但问题就出在这里——这种替换破坏了 prompt cache 的哈希一致性，导致缓存明明应该命中，却被判定为未命中，重复计算 token。

Bug 2：Resume 参数强制刷新缓存

从 v2.1.69 版本开始，resume 参数（用于恢复中断的对话）会强制让缓存失效。这意味着只要你中途退出或切换设备，之前的上下文缓存就全部作废，系统会重新计算整个对话历史的 token。对于长上下文的重度用户，这是致命的——每次“继续刚才的对话”，都是在烧钱。

这两个 bug 的叠加效应是灾难性的。假设你让 Claude Code 读一个 GitHub PR，正常情况下缓存应该帮你节省 90% 的重复计算费用。但因为 bug，你每次都按全额付费，成本膨胀 10-20 倍。

所以 harness 结构不仅有着爆炸的消耗，还会因为算法问题，加速计费。

更有意思的是，官方是在用户逆向工程发现 bug 后才出来回应的。正如网友吐槽：“你们拥有世界最好的模型和开发者，却无视成千上万投诉，直到被人拆解了才承认。”

这种“用户先发现，厂商后承认”的模式，在 AI 行业已成惯例。ChatGPT Plus 的历史额度从没退还过，Gemini Advanced 的“变慢”也从不提前通知。Anthropic 的问题不在于出了 bug，而在于缺乏基本的计费可观测性（Observability）——当用户质疑账单时，他们拿不出数据证明自己没错。

对比隔壁的 OpenClaw，几乎是每周一到两更，有问题连夜修。而 Anthropic 的回应速度，暴露了一个残酷现实：当模型能力成为护城河，用户体验和计费透明度就成了可以牺牲的代价。

技术债务被转嫁给了用户。你付的钱里，多少是“真的在用 AI”，多少是“系统在浪费”？没人知道。

国内 MaaS 厂商做的如何？

既然 Claude Code 的应用层是黑箱，那回到国内 MaaS 厂商，他们做得如何？

说实话，国内的 MaaS 们普遍良心多了。至少在 API 层，国内厂商确实拆得更细。但在应用层，大家依然把 Harness/Agent 调度成本藏在黑箱里：

基于 token 本身，可以发现大家的收费都是透明可追溯的，但到了应用层，也就是实际解决问题的时候，似乎还不能做到完全透明，也许是因为大家还基本都在 Openclaw 的框架中没有推陈出新。

从 OpenClaw 的火热开始，各家都开始部署定制的 token 套餐。不过设置限额以及“灵活调配”老旧模型的情况在这些套餐里确实经常发生，以及高峰时段配额不足导致卡顿也是家常便饭，倒闭用户有时候只能通过API按量付费，其实这样会有些本末倒置：定额套餐不能满足用户，回头又转向了按量付费的旧模式。

可以说，收费透明只停留在 API 层。当你使用agent 调取 token 的时候的 AI 应用，调度成本基本是黑箱。虽然现在如 Kimi 、火山等也在通过额度限制 agent 的使用次数，但是套餐中额度使用完毕后就就能等到刷新。

API 层透明适合开发者，应用层透明适合企业采购——当你需要向老板解释“为什么这个月 AI 花了 2 万块”时，“调用了 500 次深度研究 Agent”比“消耗了 100 万 token”更有说服力。而有意思的是，在这六家中，只有百度将 Agent 成本显性化，其他五家仍把 Harness 调度成本打包在 Token 中。

这不是钱的问题，是“用户是否拥有对自己计算资源的知情权”。

云计算时代，没人会接受“一台服务器 $200/月，但不知道 CPU 和带宽各多少”。

AWS 的账单可以精确到毫秒级的计算时长、字节数的流量消耗、甚至不同可用区的价格差异。可观测性才是云计算成熟的基础。

AI 应用还在蛮荒时代。厂商们把 Harness 调度、多智能体协作包装成“魔法”，把技术债务包装成“使用量”，本质是在剥夺用户的知情权。

用户需要一张明细清晰的账单，至少给一个“调试模式”开关，让开发者可选查看 Harness 调用链；至少对因 bug 导致的计费错误，承诺自动退费而非“正在调查”；至少把“你花了多少钱”和“你应该花多少钱”区分开来。

鉴于现在的 MaaS 厂商的进步步调如此之快，下周疯狂星期四，我希望至少知道我的 Token 是怎么被吃掉的。V 我50，让我多吃两块原味鸡。

建议所有 MaaS厂商开通疯狂星期四套餐

应用层的黑箱里藏着什么？

国内 MaaS 厂商做的如何？

敬原创，有钛度，得赞赏