建议所有 MaaS厂商开通疯狂星期四套餐

AGI
V 我五十,助我智能飞升。

文 | 象先志

周四是我一周消耗 token 最多的一天,得盘工作进度了吧,得review了吧,得写周报了吧。

打开 Claude Code,输入“帮我总结一下这周的工作”——额度先疯狂了。写完周报33%额度没了。别的活儿还没干呢, token 限额了。

200 刀的套餐,3.5 小时就用完。一个任务恨不得扣掉 30%。

问题是:不知道Token 都花在哪儿了

前几天,Claude code的代码被乌龙打包上传之后,经 Reddit 用户逆向工程发现,Anthropic 终于承认了:Claude Code 确实在乱扣费。Anthropic 官方终于承认了——在 Reddit 用户爆破式吐槽并甩出逆向工程证据后,官方账号回应:“正在紧急排查,目前是最高优先级问题”。

这是一个工程问题,一方面是Harness 架构虽然能让 AI 能搞定复杂任务,但代价是开销远高于单模型对话;另一方面是 Claude 本身的流量算法确实存在疏漏。

我知道了,agent 在疯狂偷吃我的 token 。要是想得到好的结果,肯定要多喂 token 。

所以国产的 MaaS 们是不是也面临同样情况呢?是不是至少可以保证在AI 们的高峰使用额度提供一个可解决的方案呢?

所以我建议MaaS们每周四开通 token 疯狂星期四,token 畅用,V 我五十助我智能飞升。

应用层的黑箱里藏着什么?

Claude Code 为什么好用?因为他不是单一模型,是一套多智能体流水线。写代码的、评审的、审核的,各跑各的。这些子智能体的 token 消耗,被打包进“一次对话”里。

Harness 架构让 AI 能搞定复杂任务,但是token 开销确实爆炸。据社区测试,复杂任务下的 token 消耗可能是直接调用模型的数倍甚至十倍以上。这个 overhead,被厂商打包进“一次对话”的账单,用户完全感知不到。

更隐蔽的是 Coding Plan 内部的模型调控。Plan Mode、Reviewer、Debugger 这些角色,每次切换都是隐性调用。你以为自己在和“一个 AI”对话,实际上后台可能在五六个子智能体之间来回跳转。

然后是那个被 Reddit 大神逆向出来的真相:两个独立的 cache bug,让 prompt cache 完全失效。这其中存在两个比较要命的 bug 。

  • Bug 1:Sentinel 替换机制破坏缓存

Claude Code 为了在不同平台(Windows/macOS/Linux)分发,使用了独立的二进制文件。当对话内容涉及计费内部逻辑时,系统会用 sentinel 值替换敏感字段。但问题就出在这里——这种替换破坏了 prompt cache 的哈希一致性,导致缓存明明应该命中,却被判定为未命中,重复计算 token。

  • Bug 2:Resume 参数强制刷新缓存

从 v2.1.69 版本开始,resume 参数(用于恢复中断的对话)会强制让缓存失效。这意味着只要你中途退出或切换设备,之前的上下文缓存就全部作废,系统会重新计算整个对话历史的 token。对于长上下文的重度用户,这是致命的——每次“继续刚才的对话”,都是在烧钱。

这两个 bug 的叠加效应是灾难性的。假设你让 Claude Code 读一个 GitHub PR,正常情况下缓存应该帮你节省 90% 的重复计算费用。但因为 bug,你每次都按全额付费,成本膨胀 10-20 倍。

所以 harness 结构不仅有着爆炸的消耗,还会因为算法问题,加速计费。

更有意思的是,官方是在用户逆向工程发现 bug 后才出来回应的。正如网友吐槽:“你们拥有世界最好的模型和开发者,却无视成千上万投诉,直到被人拆解了才承认。”

这种“用户先发现,厂商后承认”的模式,在 AI 行业已成惯例。ChatGPT Plus 的历史额度从没退还过,Gemini Advanced 的“变慢”也从不提前通知。Anthropic 的问题不在于出了 bug,而在于缺乏基本的计费可观测性(Observability)——当用户质疑账单时,他们拿不出数据证明自己没错。

对比隔壁的 OpenClaw,几乎是每周一到两更,有问题连夜修。而 Anthropic 的回应速度,暴露了一个残酷现实:当模型能力成为护城河,用户体验和计费透明度就成了可以牺牲的代价。

技术债务被转嫁给了用户。你付的钱里,多少是“真的在用 AI”,多少是“系统在浪费”?没人知道。

国内 MaaS 厂商做的如何?

既然 Claude Code 的应用层是黑箱,那回到国内 MaaS 厂商,他们做得如何?

说实话,国内的 MaaS 们普遍良心多了。至少在 API 层,国内厂商确实拆得更细。但在应用层,大家依然把 Harness/Agent 调度成本藏在黑箱里:

基于 token 本身,可以发现大家的收费都是透明可追溯的,但到了应用层,也就是实际解决问题的时候,似乎还不能做到完全透明,也许是因为大家还基本都在 Openclaw 的框架中没有推陈出新。

从 OpenClaw 的火热开始,各家都开始部署定制的 token 套餐。不过设置限额以及“灵活调配”老旧模型的情况在这些套餐里确实经常发生,以及高峰时段配额不足导致卡顿也是家常便饭,倒闭用户有时候只能通过API按量付费,其实这样会有些本末倒置: 定额套餐不能满足用户,回头又转向了按量付费的旧模式。

可以说,收费透明只停留在 API 层。当你使用agent 调取 token 的时候的 AI 应用,调度成本基本是黑箱。虽然现在如 Kimi 、火山等也在通过额度限制 agent 的使用次数,但是套餐中额度使用完毕后就就能等到刷新。

API 层透明适合开发者,应用层透明适合企业采购——当你需要向老板解释“为什么这个月 AI 花了 2 万块”时,“调用了 500 次深度研究 Agent”比“消耗了 100 万 token”更有说服力。而有意思的是,在这六家中,只有百度将 Agent 成本显性化,其他五家仍把 Harness 调度成本打包在 Token 中。

这不是钱的问题,是“用户是否拥有对自己计算资源的知情权”

云计算时代,没人会接受“一台服务器 $200/月,但不知道 CPU 和带宽各多少”。

AWS 的账单可以精确到毫秒级的计算时长、字节数的流量消耗、甚至不同可用区的价格差异。可观测性才是云计算成熟的基础。

AI 应用还在蛮荒时代。厂商们把 Harness 调度、多智能体协作包装成“魔法”,把技术债务包装成“使用量”,本质是在剥夺用户的知情权。

用户需要一张明细清晰的账单,至少给一个“调试模式”开关,让开发者可选查看 Harness 调用链;至少对因 bug 导致的计费错误,承诺自动退费而非“正在调查”;至少把“你花了多少钱”和“你应该花多少钱”区分开来。

鉴于现在的 MaaS 厂商的进步步调如此之快,下周疯狂星期四,我希望至少知道我的 Token 是怎么被吃掉的。V 我50,让我多吃两块原味鸡。

本文系作者 象先志 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App