文 | 锦缎
检验Agent水平的唯一标准是长任务。
这个判断,建立在一个简单的事实上:短任务可以靠记忆完成,长任务必须靠理解完成。短任务中,模型只需处理当前输入;长任务中,模型需要保持上下文的连贯性,需要在数百步后还记得最初的意图,需要在遇到异常时自主调整策略。
学术基准的残酷数据告诉我们,当前最顶尖的Agent在长任务中的通过率不足20%,而且随着任务迭代,代码质量持续恶化。这不是一个可以通过增加参数量来解决的问题,而是需要重新思考Agent架构,一个从上下文管理到工作流编排、从多智能体协作到纵深防御的系统性工程。
Claude与Codex的竞争,揭示了两种不同的进化路径。Claude强化上下文容量与协作能力,Codex强化超人类调试与自我进化。这两条路径并不互斥。真正能够攻克长任务的Agent,可能同时需要两者的优势。
而Token经济学的兴起,则为长任务提供了商业价值的锚点。当Agent能够完成人类需要数小时甚至数天的复杂任务,消耗百万级Token的成本就变得微不足道。问题在于,如何让Agent的完成率从20%提升到80%,如何让代码质量在迭代中不退化,如何在不确定性中保持稳定。
这些问题没有简单的答案。但有一点是确定的:在这个Agent元年的春天,长任务能力不再是一个技术指标,而是区分“玩具”与“工具”的唯一标准。能完成长任务的Agent,其Token才有价值,其商业模型才有意义,其存在才能重构人类的工作流与生活流。
从短任务到长任务,Agent的成人礼
2026年被多方确认为“智能体元年”。这个判断背后的真实含义是:AI正在从“回答问题的人”变成“完成任务的人”。第三波AI浪潮的核心是自主执行,而不再是辅助性质的Copilot。
这个转变听起来简单,但它在工程层面的含义是颠覆性的。
过去两年,大模型竞争的核心叙事一直是模型能力本身:参数规模有多大,推理深度有多强,复杂任务的单步完成率有多高。这些指标在Chatbot时代是有效的,因为那时候AI的角色是“回答者”,你问一句,它答一句,任务在单轮交互中结束。
但当AI开始扮演“执行者”,规则彻底改变了。一个稍微复杂的任务,比如从零开发一个网页应用,或者跨系统完成一份数据分析报告,需要几十甚至上百个步骤:理解需求、拆解任务、调用工具、处理异常、验证结果、自我修正。每一步都可能出错,每一步的错误都会累积。
这意味着,短任务能力是各家模型都能做到的,它本质上只是披着Agent外衣的编程自动化。而长任务能力,才是Agent真正的入门门槛,它考验的不仅仅是模型的推理能力,更是上下文管理的精度、工作流编排的韧性、以及对不确定性的处理能力。
2026年2月发布的LongCLI-Bench,专门测试Agent在真实开发场景中的长任务能力。评测集涵盖了从零开发、功能添加、错误修复到代码重构四大工程类别,每个任务都需要数十步的连续操作。
结果令人警醒:即使是最先进的Agent,通过率也低于20%。更值得玩味的是失败模式:大部分任务在完成度不到30%的阶段就已停滞,关键失败往往发生在早期阶段。
这意味着当前最顶尖的Agent,在面对真正的长任务时,连“开个好头”都做不到。
它们可以在单步任务中表现出惊人的能力,但当任务的链条拉长、依赖关系变得复杂、需要持续的上下文记忆和策略调整时,它们就会迷失。
![]()
另一项名为SlopCodeBench的研究揭示了更深层的问题。该研究追踪了Agent在迭代式任务中的表现,发现了一个系统性的退化模式:随着任务迭代次数的增加,Agent生成的代码质量持续下降。80%的轨迹中出现了结构侵蚀,近90%的轨迹中冗余代码比例上升。
研究团队对比了Agent代码与48个开源Python仓库中的代码,发现Agent代码的冗余度是人工代码的2.2倍,结构侵蚀程度也明显更严重。当追踪20个代码仓库随时间的演变时,人类代码的质量保持稳定,而Agent代码随着每次迭代都在恶化。
![]()
图表:Agent代码冗余度随迭代次数持续上升,而人类代码保持稳定。数据来源:SlopCodeBench,2026年3月。
这一发现揭示了一个根本性的问题:当前的Agent缺乏那种在复杂任务中保持结构一致性、不被短期需求带偏的能力。而这种能力,恰恰是长任务成功的核心。
Claude与Codex,两条通往长任务的路
在AI编程工具的竞技场上,Claude和Codex的竞争是观察Agent能力演进的最佳窗口。
2026年2月5日,Anthropic与OpenAI同日发布了各自的王牌模型:Claude Opus 4.6与GPT-5.3-Codex。这场正面交锋,表面上是一场性能竞赛,实质上是对Agent核心能力的两种不同理解。
- Claude的路线:长上下文与团队协作
Claude Opus 4.6最关键的升级是上下文窗口从20万token直接跃升至100万token。这意味着你可以把整个项目的代码库一次性喂给它,它能同时看到项目里所有文件,理解整体架构。
但真正的杀手锏并非单纯的长上下文,而是Anthropic在“上下文拆分”上的精细设计。前OpenAI Codex核心研发者Calvin French-Owen在一档播客中直言,Claude Code最厉害的地方,就是其上下文拆分能力。
当面对复杂任务时,Claude Code会自动生成多个探索型子智能体,这些子智能体会通过工具扫描整个文件系统、检索相关内容,而且每个子智能体都有独立的上下文窗口。完成任务后,它们会将关键信息汇总反馈给主智能体。
这种设计的意义在于显著降低了“上下文噪音”。
在代码仓库这样信息密度极高的环境中,不是所有信息都同等重要。Claude的策略是让专门的子智能体去探索、筛选、总结,然后只将最关键的信息传递给主智能体。这种分工协作的模式,使主智能体能够专注于高层决策,而不会被底层细节淹没。
![]()
图表:上下文容量提升5倍,关键信息检索能力提升4倍。(Claude Opus 4.6 vs 前代);数据来源:Anthropic官方技术报告。
- Codex的路线:超人类调试与自我进化
相比之下,OpenAI的GPT-5.3-Codex选择了另一条路。Calvin French-Owen的评价是:Codex很有“个性”,像AlphaGo,在调试复杂问题时的表现堪称超人类,很多Opus模型解决不了的问题,Codex都能搞定。
Codex的核心优势在于其“自我构建”能力。它是OpenAI第一个帮助构建自己的模型。Codex团队用Codex来调试自己的训练过程、管理自己的部署、诊断测试结果和评估。这种“AI自己造AI”的反馈循环,意味着进化速度会越来越快。
在产品理念上,OpenAI更关注做出最强的大模型(即AGI)。这体现在Codex的设计中:它不追求最优雅的交互,不追求最透明的决策过程,它追求的是在最困难的调试场景中,找到人类找不到的解决方案。
- 两种路线的本质
Claude和Codex的竞争,揭示了Agent核心能力的两个维度。
第一个维度是上下文容量。Claude Opus 4.6在MRCR v2测试(专门测试AI在海量文本中找信息的能力)中得分76%,而Sonnet 4.5只有18.5%。这76%对18.5%的差距,不是量变,是质变。它意味着Agent能否在长任务中记住早期阶段的关键信息,能否在任务推进数百步后仍然不丢失最初的目标。
第二个维度是上下文质量。Calvin French-Owen分享了一个非常实用的经验:当上下文token占用超过50%时,他会主动清理。他用一种“金丝雀检测”方法——在上下文里埋入一些无关但可验证的小信息,一旦模型开始遗忘,说明上下文已经被污染。
这两个维度的结合,构成了Agent长任务能力的核心公式:
长任务能力 = 上下文容量 × 上下文质量
仅有容量,没有质量,Agent会在信息的汪洋中迷失;仅有质量,没有容量,Agent无法处理真正的复杂任务。
能完成长任务的Agent,其Token才有价值
当Agent开始执行长任务,Token的角色从技术副产品转变为战略资产。
Token正在成为AI时代的“新大宗商品”,标准化、可计量、可交易。无问芯穹联合创始人夏立雪的体验很有代表性:从2026年1月开始,公司Token消耗每两周翻一番,至今已经翻了10倍。
这种增长速度,上一次出现还是在3G手机流量时代。但两者的含义完全不同:3G流量的增长代表用户行为的迁移,Token消耗的增长代表经济活动本身的AI化。
锦缎研究院早在 2025 年就敏锐地捕捉到了这一趋势,在其文章《Token 将成为未来世界最重要资源》中率先提出了“Token 经济学”的概念框架,指出 Token 将作为衡量智能时代价值的基本单位,重塑资源配置的逻辑。
2026年GTC大会上,黄仁勋正式提出“Token经济学”概念,让这一概念被更广泛地认知。Agent当下已经成为大模型最核心的工作负载,Token则是驱动数字经济的核心生产要素。国家数据局在2026年3月将Token的官方翻译定为“词元”,并指出其是“智能时代的价值锚点”。
Token消耗与任务长度之间存在正相关关系。但更重要的是,Token的价值密度随着任务长度而增加。
![]()
图表4:长任务Token消耗量级对比,长任务Token消耗可达百万级,是短任务的数十甚至数百倍。
在短任务场景中,Token的价值是线性的:1000个Token完成一个问答,价值有限。但在长任务场景中,Token的价值是指数级的:百万级Token完成一个完整的软件开发任务,其产出可能是数万美元的商业价值。
这解释了为什么商业模式正在从订阅制向Token制迁移。
但这同时也带来了新的挑战。一旦Agent高频自动运转,不可控的庞大算力消耗让企业客户难以承受成本压力。
这意味着,长任务的商业价值不仅体现在它能完成什么,还体现在它消耗多少Token——以及这些Token的定价权掌握在谁手中。
AI对SaaS赛道最深远的冲击,是对其底层按坐席收费模式的结构性瓦解。AI作为数字劳动力,客观具备消减人类工作量的属性,这直接威胁了传统SaaS赖以生存的年度经常性收入增长逻辑。
![]()
图表:Agent商业模式迁移:License → Token → 结果付费。长任务的价值锚定是这一迁移的关键。来源:锦缎研究院
行业的终局愿景,是迈向按业务价值或最终结果付费的模式。但这一模式面临一个根本性的度量难题:当任务足够长、足够复杂,AI的贡献与人类的贡献便深度交织、难以分割。这种价值归因的困境,并非某个特定场景下的技术问题,而是智能体商业模式必须面对的核心命题。
这些问题没有现成的答案。
但可以肯定的是,在智能体元年的春天,对长任务能力的探索,不再仅仅是技术指标的角逐,而是决定AI能否从“玩具”蜕变为“工具”的关键一跃。
围绕上下文容量与质量、多智能体协作、纵深防御的编排系统以及Token经济学的持续创新,正共同描绘着这幅从“回答问题”到“完成任务”的宏大图景。这场变革的终局,将深刻地重塑我们与数字世界互动的方式,以及商业价值创造的底层逻辑。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论