AI Agent越复杂，亏损可能越稳定-钛媒体官方网站

文 | 舒泽品牌手记

Token消耗越多，不代表AI用得越深。有时候，只是任务一直没有被解决。

一家企业上线客服Agent处理退款。系统先识别意图，再调订单系统，查售后规则，生成解释话术，最后调用工单工具。六步推理，三个工具，约2000个Token跑完，用户得到的结果和人工客服的标准回复差不多。

按公开API价格粗算，用低价模型处理这一次，成本可能只是几分钱人民币。它看起来比人工客服处理三分钟便宜很多。接下来用户又追问了两轮，系统继续解释、检索、生成，Token消耗涨到8000到10000，最后还是转人工。

产品后台会把这次服务记录成一次AI接待。用户看到的是另一个结果：问题绕了一圈，还是回到人工。

很多AI项目的误判从这里开始。系统确实更忙了，调用量、会话数、平均响应时间、自动化率都能写进周报。可同一任务的重试次数和转人工率也在上升时，“使用增长”里就混进了用户被迫多问。

用户继续问一句，后台多一次调用，模型多消耗一段Token，产品数据也多一条互动记录。表面看，AI还在服务用户；换到任务结果里，可能只是上一轮没有解决。

过去一年，很多团队习惯用调用次数、使用量、Agent执行步数证明AI进了工作流。一个Agent能规划、检索、调用工具、生成报告、发起工单，演示起来确实比普通聊天机器人更像一个能干活的系统。

可一个系统做了很多动作，和它把事情办成，差得很远。

英伟达把Token成本推到了基础设施层面。DSX平台把新一代AI基础设施称为AI factories，官方表述里出现了lowest token cost、token performance per megawatt这些指标。它谈的是芯片、系统、软件、设施和合作伙伴技术，落到企业采购侧，就是更低Token成本、更快投产、更高单位能源产出。

Google也把AI产品推到更大规模。I/O 2026上，AI Mode超过10亿月活，AI Overviews超过25亿月活，Gemini App月活超过9亿，Google每月处理的Token超过3.2 quadrillion，模型API每分钟处理约190亿Token。

Token离开了工程师和模型厂商之间的技术语境，开始进入云账单、企业预算和投资人对AI公司的判断里。

传统工厂里，一个零件不合格，一颗芯片坏了，一辆车检测不过，损耗会被标出来。AI系统没这么清楚。一段回答很长，可能是充分解释，也可能是啰嗦；一次多工具调用可能是在校验风险，也可能是在绕路；用户继续追问，可能是深入协作，也可能是前面没有解决。

废Token经常藏在用户下一次追问里。

Token良率如果要成为一个有用指标，就不能按生成量算，也不能按调用量算。它要从任务结果往回看：用户有没有停止追问，工单有没有关闭，代码有没有通过测试，内容有没有被直接采用，客服有没有减少二次投诉。

一个文档摘要不长，用户拿去就能开会，比一篇漂亮但不能用的长文更有效。一个代码助手输出不多，但一次通过测试，比反复解释设计思路更有效。一个客服Agent回答三轮，用户还是转人工，那些看起来便宜的Token就没有那么便宜。

追问本身还要再拆一层。用户补充条件，要求AI继续加工，拿上一轮结果往下走，这类追问说明AI已经进入协作。比如让代码助手继续处理一个边界条件，让文档助手把摘要压成会议纪要，让投研Agent再补一个竞品口径。

另一类追问更像返工。用户反复解释同一个诉求，要求“重新说一遍”“你没理解我的意思”，最后点了转人工。它在后台也是互动，在用户那里是耐心继续被消耗。

很多AI产品不会认真区分这两件事。它们都能被记成会话延长、调用增加、用户更活跃。对外汇报时，增长曲线不错；对用户来说，他只是多花了一轮耐心。

普通聊天机器人答不出来，用户很快知道它不行。Agent会拆任务、读文件、查数据库、调用工具、写报告、发起工单。它做了很多动作，失败也被拆得更细。一个没有完成的任务，会被分解成很多看起来专业的过程。

法律检索、代码迁移、财务审计、跨系统采购这类任务，很多时候就是要多走几步。少一步，可能漏证据；少一步，可能漏依赖；少一步，可能把风险留给人。法律和代码里的复杂，很多时候是在买确定性。

另一种复杂更像包装。链路很长，工具很多，界面很好看，最后用户还要人工收尾。它没有让任务完成得更好，只让失败过程显得更像产品能力。

把Agent链路缩短一半，任务完成率如果没有明显下降，多出来的那一半就值得重看。它可能只是演示成本。

2026年4月，Longju Bai、Zhemin Huang、Xingyao Wang、Jiao Sun、Rada Mihalcea、Erik Brynjolfsson、Alex Pentland、Jiaxin Pei等人在论文《How Do AI Agents Spend Your Money?》里分析了SWE-bench Verified上的agentic coding任务。论文里几个数字很刺眼：agentic tasks消耗的Token可比code reasoning和code chat高1000倍；同一任务不同运行的Token使用最多相差30倍；更高Token使用不会自然带来更高准确率，准确率常常在中等成本区间达到峰值后趋于饱和。

这项研究只看了代码任务，不能外推到所有Agent场景。客服、法务、销售、投研、财务、采购，每个场景的任务结构都不同。不过代码任务本身边界清楚，结果也相对容易验证：有没有通过测试，有没有修好问题，有没有完成指定任务，都比客服、销售、创意生成这类场景更容易判断。

如果在这种更容易验收的任务里，Token消耗和准确率都没有稳定线性关系，放到边界更模糊的场景里，问题只会更难被看见。很多Agent产品卖的正是“更长的链路”，这也是这组数据值得警惕的地方。

它能查资料、分步骤、调工具、写结论，还能自我检查。用户看见的是一个系统在工作，团队看见的是功能更完整，投资人看见的是更像工作流的产品形态。可完成率没有提高时，复杂度不会替公司创造利润。它会稳定地产生Token，稳定制造重试，稳定把一部分问题送回人工。

一家电商公司把这类Agent接进退款流程以后，每天都有相似请求进来。每天都有几轮解释，每天都有工具调用，每天都有一部分用户转人工。单次成本看着不大，乘上日请求量、重试率和人工兜底，原本看起来轻的自动化，慢慢会变成固定运营成本。

低完成率Agent被嵌进日常流程后，成本就有了稳定入口。调用量越高，重试越多，转人工越多，自动化率越容易给人一种项目正在推进的错觉。

移动互联网时代，DAU曾经很容易讲故事。用户来了，打开了，用了，增长曲线就能画出来。后来大家还是要回到LTV、CAC、留存和毛利。DAU是真实使用信号，但它从来不是商业质量的终点。

Token调用量也有类似风险。它证明有人在用，证明系统在跑，证明账单在增长。它不能证明任务被解决。调用量涨了，任务完成率也涨，这是增长。调用量涨了，重试率、转人工率、二次提问率也涨，说明用户可能只是被迫多问。

以后看AI公司，只问“调用量涨了多少”会越来越粗。

一个任务平均消耗多少Token，同一任务平均重试几次，最后有没有转人工，AI生成的结果有没有被人重写，代码有没有通过测试，这些数字会比“我们服务了多少次请求”更接近公司质量。

靠复杂Agent链路包装估值的公司，下一轮融资时就要解释自己的Token良率。

Google能看到AI回答之后的动作：用户继续搜索，还是完成了邮件、购物、导航。相比单纯调用量，这些反馈更接近任务完成。

Google有搜索、邮箱、文档、浏览器、移动系统这些高频场景，也有大规模Token处理能力。如果它能把任务反馈接回模型和产品，优化的就不只是模型价格，还有哪些Token在真实场景里更有用。

纯API模型公司能看到调用量、上下文长度和费用账单，却未必知道用户任务最终有没有完成。客户把API接进客服、财务、研发、销售系统，模型公司看到的是消耗，客户看到的是结果。两个视角里的“使用增长”，不一定指向同一件事。

AI复盘会最先拿出来的，通常是使用人数、会话量、平均响应时间、节省工时、自动化率。这些数字有用，但还不够。客服解释有没有减少二次投诉，AI生成的内容有没有被重写，代码有没有通过测试，用户那句“你没理解我的意思”出现了多少次，这些数字更接近AI有没有创造价值。

代码能不能通过测试，客服有没有少一次转人工，文档能不能直接拿去开会，这些结果还算容易验收。难的是另一类产品：用户和AI聊了二十分钟，最后发一句“算了，我自己来”，后台记录的是一次深度会话，业务上却很难说它完成了什么。

一家企业上线Agent后，后台很快会多出调用量、会话数、Token消耗和自动化率。更该盯的是，用户有没有反复解释同一个问题，最后有没有回到人工。

AI公司以后绕不开一个问题：这些Token到底办成了多少任务。

回答不上来，Agent越复杂，亏损可能越稳定。

AI Agent越复杂，亏损可能越稳定

敬原创，有钛度，得赞赏