AI Agent越复杂,亏损可能越稳定

钛度号
AI Agent的真实成本,常藏在用户下一次追问里。

文 | 舒泽品牌手记

Token消耗越多,不代表AI用得越深。有时候,只是任务一直没有被解决。

一家企业上线客服Agent处理退款。系统先识别意图,再调订单系统,查售后规则,生成解释话术,最后调用工单工具。六步推理,三个工具,约2000个Token跑完,用户得到的结果和人工客服的标准回复差不多。

按公开API价格粗算,用低价模型处理这一次,成本可能只是几分钱人民币。它看起来比人工客服处理三分钟便宜很多。接下来用户又追问了两轮,系统继续解释、检索、生成,Token消耗涨到8000到10000,最后还是转人工。

产品后台会把这次服务记录成一次AI接待。用户看到的是另一个结果:问题绕了一圈,还是回到人工。

很多AI项目的误判从这里开始。系统确实更忙了,调用量、会话数、平均响应时间、自动化率都能写进周报。可同一任务的重试次数和转人工率也在上升时,“使用增长”里就混进了用户被迫多问。

用户继续问一句,后台多一次调用,模型多消耗一段Token,产品数据也多一条互动记录。表面看,AI还在服务用户;换到任务结果里,可能只是上一轮没有解决。

过去一年,很多团队习惯用调用次数、使用量、Agent执行步数证明AI进了工作流。一个Agent能规划、检索、调用工具、生成报告、发起工单,演示起来确实比普通聊天机器人更像一个能干活的系统。

可一个系统做了很多动作,和它把事情办成,差得很远。

英伟达把Token成本推到了基础设施层面。DSX平台把新一代AI基础设施称为AI factories,官方表述里出现了lowest token cost、token performance per megawatt这些指标。它谈的是芯片、系统、软件、设施和合作伙伴技术,落到企业采购侧,就是更低Token成本、更快投产、更高单位能源产出。

Google也把AI产品推到更大规模。I/O 2026上,AI Mode超过10亿月活,AI Overviews超过25亿月活,Gemini App月活超过9亿,Google每月处理的Token超过3.2 quadrillion,模型API每分钟处理约190亿Token。

Token离开了工程师和模型厂商之间的技术语境,开始进入云账单、企业预算和投资人对AI公司的判断里。

传统工厂里,一个零件不合格,一颗芯片坏了,一辆车检测不过,损耗会被标出来。AI系统没这么清楚。一段回答很长,可能是充分解释,也可能是啰嗦;一次多工具调用可能是在校验风险,也可能是在绕路;用户继续追问,可能是深入协作,也可能是前面没有解决。

废Token经常藏在用户下一次追问里。

Token良率如果要成为一个有用指标,就不能按生成量算,也不能按调用量算。它要从任务结果往回看:用户有没有停止追问,工单有没有关闭,代码有没有通过测试,内容有没有被直接采用,客服有没有减少二次投诉。

一个文档摘要不长,用户拿去就能开会,比一篇漂亮但不能用的长文更有效。一个代码助手输出不多,但一次通过测试,比反复解释设计思路更有效。一个客服Agent回答三轮,用户还是转人工,那些看起来便宜的Token就没有那么便宜。

追问本身还要再拆一层。用户补充条件,要求AI继续加工,拿上一轮结果往下走,这类追问说明AI已经进入协作。比如让代码助手继续处理一个边界条件,让文档助手把摘要压成会议纪要,让投研Agent再补一个竞品口径。

另一类追问更像返工。用户反复解释同一个诉求,要求“重新说一遍”“你没理解我的意思”,最后点了转人工。它在后台也是互动,在用户那里是耐心继续被消耗。

很多AI产品不会认真区分这两件事。它们都能被记成会话延长、调用增加、用户更活跃。对外汇报时,增长曲线不错;对用户来说,他只是多花了一轮耐心。

普通聊天机器人答不出来,用户很快知道它不行。Agent会拆任务、读文件、查数据库、调用工具、写报告、发起工单。它做了很多动作,失败也被拆得更细。一个没有完成的任务,会被分解成很多看起来专业的过程。

法律检索、代码迁移、财务审计、跨系统采购这类任务,很多时候就是要多走几步。少一步,可能漏证据;少一步,可能漏依赖;少一步,可能把风险留给人。法律和代码里的复杂,很多时候是在买确定性。

另一种复杂更像包装。链路很长,工具很多,界面很好看,最后用户还要人工收尾。它没有让任务完成得更好,只让失败过程显得更像产品能力。

把Agent链路缩短一半,任务完成率如果没有明显下降,多出来的那一半就值得重看。它可能只是演示成本。

2026年4月,Longju Bai、Zhemin Huang、Xingyao Wang、Jiao Sun、Rada Mihalcea、Erik Brynjolfsson、Alex Pentland、Jiaxin Pei等人在论文《How Do AI Agents Spend Your Money?》里分析了SWE-bench Verified上的agentic coding任务。论文里几个数字很刺眼:agentic tasks消耗的Token可比code reasoning和code chat高1000倍;同一任务不同运行的Token使用最多相差30倍;更高Token使用不会自然带来更高准确率,准确率常常在中等成本区间达到峰值后趋于饱和。

这项研究只看了代码任务,不能外推到所有Agent场景。客服、法务、销售、投研、财务、采购,每个场景的任务结构都不同。不过代码任务本身边界清楚,结果也相对容易验证:有没有通过测试,有没有修好问题,有没有完成指定任务,都比客服、销售、创意生成这类场景更容易判断。

如果在这种更容易验收的任务里,Token消耗和准确率都没有稳定线性关系,放到边界更模糊的场景里,问题只会更难被看见。很多Agent产品卖的正是“更长的链路”,这也是这组数据值得警惕的地方。

它能查资料、分步骤、调工具、写结论,还能自我检查。用户看见的是一个系统在工作,团队看见的是功能更完整,投资人看见的是更像工作流的产品形态。可完成率没有提高时,复杂度不会替公司创造利润。它会稳定地产生Token,稳定制造重试,稳定把一部分问题送回人工。

一家电商公司把这类Agent接进退款流程以后,每天都有相似请求进来。每天都有几轮解释,每天都有工具调用,每天都有一部分用户转人工。单次成本看着不大,乘上日请求量、重试率和人工兜底,原本看起来轻的自动化,慢慢会变成固定运营成本。

低完成率Agent被嵌进日常流程后,成本就有了稳定入口。调用量越高,重试越多,转人工越多,自动化率越容易给人一种项目正在推进的错觉。

移动互联网时代,DAU曾经很容易讲故事。用户来了,打开了,用了,增长曲线就能画出来。后来大家还是要回到LTV、CAC、留存和毛利。DAU是真实使用信号,但它从来不是商业质量的终点。

Token调用量也有类似风险。它证明有人在用,证明系统在跑,证明账单在增长。它不能证明任务被解决。调用量涨了,任务完成率也涨,这是增长。调用量涨了,重试率、转人工率、二次提问率也涨,说明用户可能只是被迫多问。

以后看AI公司,只问“调用量涨了多少”会越来越粗。

一个任务平均消耗多少Token,同一任务平均重试几次,最后有没有转人工,AI生成的结果有没有被人重写,代码有没有通过测试,这些数字会比“我们服务了多少次请求”更接近公司质量。

靠复杂Agent链路包装估值的公司,下一轮融资时就要解释自己的Token良率。

Google能看到AI回答之后的动作:用户继续搜索,还是完成了邮件、购物、导航。相比单纯调用量,这些反馈更接近任务完成。

Google有搜索、邮箱、文档、浏览器、移动系统这些高频场景,也有大规模Token处理能力。如果它能把任务反馈接回模型和产品,优化的就不只是模型价格,还有哪些Token在真实场景里更有用。

纯API模型公司能看到调用量、上下文长度和费用账单,却未必知道用户任务最终有没有完成。客户把API接进客服、财务、研发、销售系统,模型公司看到的是消耗,客户看到的是结果。两个视角里的“使用增长”,不一定指向同一件事。

AI复盘会最先拿出来的,通常是使用人数、会话量、平均响应时间、节省工时、自动化率。这些数字有用,但还不够。客服解释有没有减少二次投诉,AI生成的内容有没有被重写,代码有没有通过测试,用户那句“你没理解我的意思”出现了多少次,这些数字更接近AI有没有创造价值。

代码能不能通过测试,客服有没有少一次转人工,文档能不能直接拿去开会,这些结果还算容易验收。难的是另一类产品:用户和AI聊了二十分钟,最后发一句“算了,我自己来”,后台记录的是一次深度会话,业务上却很难说它完成了什么。

一家企业上线Agent后,后台很快会多出调用量、会话数、Token消耗和自动化率。更该盯的是,用户有没有反复解释同一个问题,最后有没有回到人工。

AI公司以后绕不开一个问题:这些Token到底办成了多少任务。

回答不上来,Agent越复杂,亏损可能越稳定。

本文系作者 舒泽品牌手记 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App