长任务是检验Agent水平的唯一标准-钛媒体官方网站

文 | 锦缎

检验Agent水平的唯一标准是长任务。

这个判断，建立在一个简单的事实上：短任务可以靠记忆完成，长任务必须靠理解完成。短任务中，模型只需处理当前输入；长任务中，模型需要保持上下文的连贯性，需要在数百步后还记得最初的意图，需要在遇到异常时自主调整策略。

学术基准的残酷数据告诉我们，当前最顶尖的Agent在长任务中的通过率不足20%，而且随着任务迭代，代码质量持续恶化。这不是一个可以通过增加参数量来解决的问题，而是需要重新思考Agent架构，一个从上下文管理到工作流编排、从多智能体协作到纵深防御的系统性工程。

Claude与Codex的竞争，揭示了两种不同的进化路径。Claude强化上下文容量与协作能力，Codex强化超人类调试与自我进化。这两条路径并不互斥。真正能够攻克长任务的Agent，可能同时需要两者的优势。

而Token经济学的兴起，则为长任务提供了商业价值的锚点。当Agent能够完成人类需要数小时甚至数天的复杂任务，消耗百万级Token的成本就变得微不足道。问题在于，如何让Agent的完成率从20%提升到80%，如何让代码质量在迭代中不退化，如何在不确定性中保持稳定。

这些问题没有简单的答案。但有一点是确定的：在这个Agent元年的春天，长任务能力不再是一个技术指标，而是区分“玩具”与“工具”的唯一标准。能完成长任务的Agent，其Token才有价值，其商业模型才有意义，其存在才能重构人类的工作流与生活流。

从短任务到长任务，Agent的成人礼

2026年被多方确认为“智能体元年”。这个判断背后的真实含义是：AI正在从“回答问题的人”变成“完成任务的人”。第三波AI浪潮的核心是自主执行，而不再是辅助性质的Copilot。

这个转变听起来简单，但它在工程层面的含义是颠覆性的。

过去两年，大模型竞争的核心叙事一直是模型能力本身：参数规模有多大，推理深度有多强，复杂任务的单步完成率有多高。这些指标在Chatbot时代是有效的，因为那时候AI的角色是“回答者”，你问一句，它答一句，任务在单轮交互中结束。

但当AI开始扮演“执行者”，规则彻底改变了。一个稍微复杂的任务，比如从零开发一个网页应用，或者跨系统完成一份数据分析报告，需要几十甚至上百个步骤：理解需求、拆解任务、调用工具、处理异常、验证结果、自我修正。每一步都可能出错，每一步的错误都会累积。

这意味着，短任务能力是各家模型都能做到的，它本质上只是披着Agent外衣的编程自动化。而长任务能力，才是Agent真正的入门门槛，它考验的不仅仅是模型的推理能力，更是上下文管理的精度、工作流编排的韧性、以及对不确定性的处理能力。

2026年2月发布的LongCLI-Bench，专门测试Agent在真实开发场景中的长任务能力。评测集涵盖了从零开发、功能添加、错误修复到代码重构四大工程类别，每个任务都需要数十步的连续操作。

结果令人警醒：即使是最先进的Agent，通过率也低于20%。更值得玩味的是失败模式：大部分任务在完成度不到30%的阶段就已停滞，关键失败往往发生在早期阶段。

这意味着当前最顶尖的Agent，在面对真正的长任务时，连“开个好头”都做不到。

它们可以在单步任务中表现出惊人的能力，但当任务的链条拉长、依赖关系变得复杂、需要持续的上下文记忆和策略调整时，它们就会迷失。

另一项名为SlopCodeBench的研究揭示了更深层的问题。该研究追踪了Agent在迭代式任务中的表现，发现了一个系统性的退化模式：随着任务迭代次数的增加，Agent生成的代码质量持续下降。80%的轨迹中出现了结构侵蚀，近90%的轨迹中冗余代码比例上升。

研究团队对比了Agent代码与48个开源Python仓库中的代码，发现Agent代码的冗余度是人工代码的2.2倍，结构侵蚀程度也明显更严重。当追踪20个代码仓库随时间的演变时，人类代码的质量保持稳定，而Agent代码随着每次迭代都在恶化。

图表：Agent代码冗余度随迭代次数持续上升，而人类代码保持稳定。数据来源：SlopCodeBench，2026年3月。

这一发现揭示了一个根本性的问题：当前的Agent缺乏那种在复杂任务中保持结构一致性、不被短期需求带偏的能力。而这种能力，恰恰是长任务成功的核心。

Claude与Codex，两条通往长任务的路

在AI编程工具的竞技场上，Claude和Codex的竞争是观察Agent能力演进的最佳窗口。

2026年2月5日，Anthropic与OpenAI同日发布了各自的王牌模型：Claude Opus 4.6与GPT-5.3-Codex。这场正面交锋，表面上是一场性能竞赛，实质上是对Agent核心能力的两种不同理解。

Claude的路线：长上下文与团队协作

Claude Opus 4.6最关键的升级是上下文窗口从20万token直接跃升至100万token。这意味着你可以把整个项目的代码库一次性喂给它，它能同时看到项目里所有文件，理解整体架构。

但真正的杀手锏并非单纯的长上下文，而是Anthropic在“上下文拆分”上的精细设计。前OpenAI Codex核心研发者Calvin French-Owen在一档播客中直言，Claude Code最厉害的地方，就是其上下文拆分能力。

当面对复杂任务时，Claude Code会自动生成多个探索型子智能体，这些子智能体会通过工具扫描整个文件系统、检索相关内容，而且每个子智能体都有独立的上下文窗口。完成任务后，它们会将关键信息汇总反馈给主智能体。

这种设计的意义在于显著降低了“上下文噪音”。

在代码仓库这样信息密度极高的环境中，不是所有信息都同等重要。Claude的策略是让专门的子智能体去探索、筛选、总结，然后只将最关键的信息传递给主智能体。这种分工协作的模式，使主智能体能够专注于高层决策，而不会被底层细节淹没。

图表：上下文容量提升5倍，关键信息检索能力提升4倍。（Claude Opus 4.6 vs 前代）；数据来源：Anthropic官方技术报告。

Codex的路线：超人类调试与自我进化

相比之下，OpenAI的GPT-5.3-Codex选择了另一条路。Calvin French-Owen的评价是：Codex很有“个性”，像AlphaGo，在调试复杂问题时的表现堪称超人类，很多Opus模型解决不了的问题，Codex都能搞定。

Codex的核心优势在于其“自我构建”能力。它是OpenAI第一个帮助构建自己的模型。Codex团队用Codex来调试自己的训练过程、管理自己的部署、诊断测试结果和评估。这种“AI自己造AI”的反馈循环，意味着进化速度会越来越快。

在产品理念上，OpenAI更关注做出最强的大模型（即AGI）。这体现在Codex的设计中：它不追求最优雅的交互，不追求最透明的决策过程，它追求的是在最困难的调试场景中，找到人类找不到的解决方案。

两种路线的本质

Claude和Codex的竞争，揭示了Agent核心能力的两个维度。

第一个维度是上下文容量。Claude Opus 4.6在MRCR v2测试（专门测试AI在海量文本中找信息的能力）中得分76%，而Sonnet 4.5只有18.5%。这76%对18.5%的差距，不是量变，是质变。它意味着Agent能否在长任务中记住早期阶段的关键信息，能否在任务推进数百步后仍然不丢失最初的目标。

第二个维度是上下文质量。Calvin French-Owen分享了一个非常实用的经验：当上下文token占用超过50%时，他会主动清理。他用一种“金丝雀检测”方法——在上下文里埋入一些无关但可验证的小信息，一旦模型开始遗忘，说明上下文已经被污染。

这两个维度的结合，构成了Agent长任务能力的核心公式：

长任务能力 = 上下文容量 × 上下文质量

仅有容量，没有质量，Agent会在信息的汪洋中迷失；仅有质量，没有容量，Agent无法处理真正的复杂任务。

能完成长任务的Agent，其Token才有价值

当Agent开始执行长任务，Token的角色从技术副产品转变为战略资产。

Token正在成为AI时代的“新大宗商品”，标准化、可计量、可交易。无问芯穹联合创始人夏立雪的体验很有代表性：从2026年1月开始，公司Token消耗每两周翻一番，至今已经翻了10倍。

这种增长速度，上一次出现还是在3G手机流量时代。但两者的含义完全不同：3G流量的增长代表用户行为的迁移，Token消耗的增长代表经济活动本身的AI化。

锦缎研究院早在 2025 年就敏锐地捕捉到了这一趋势，在其文章《Token 将成为未来世界最重要资源》中率先提出了“Token 经济学”的概念框架，指出 Token 将作为衡量智能时代价值的基本单位，重塑资源配置的逻辑。

2026年GTC大会上，黄仁勋正式提出“Token经济学”概念，让这一概念被更广泛地认知。Agent当下已经成为大模型最核心的工作负载，Token则是驱动数字经济的核心生产要素。国家数据局在2026年3月将Token的官方翻译定为“词元”，并指出其是“智能时代的价值锚点”。

Token消耗与任务长度之间存在正相关关系。但更重要的是，Token的价值密度随着任务长度而增加。

图表4：长任务Token消耗量级对比，长任务Token消耗可达百万级，是短任务的数十甚至数百倍。

在短任务场景中，Token的价值是线性的：1000个Token完成一个问答，价值有限。但在长任务场景中，Token的价值是指数级的：百万级Token完成一个完整的软件开发任务，其产出可能是数万美元的商业价值。

这解释了为什么商业模式正在从订阅制向Token制迁移。

但这同时也带来了新的挑战。一旦Agent高频自动运转，不可控的庞大算力消耗让企业客户难以承受成本压力。

这意味着，长任务的商业价值不仅体现在它能完成什么，还体现在它消耗多少Token——以及这些Token的定价权掌握在谁手中。

AI对SaaS赛道最深远的冲击，是对其底层按坐席收费模式的结构性瓦解。AI作为数字劳动力，客观具备消减人类工作量的属性，这直接威胁了传统SaaS赖以生存的年度经常性收入增长逻辑。

图表：Agent商业模式迁移：License → Token → 结果付费。长任务的价值锚定是这一迁移的关键。来源：锦缎研究院

行业的终局愿景，是迈向按业务价值或最终结果付费的模式。但这一模式面临一个根本性的度量难题：当任务足够长、足够复杂，AI的贡献与人类的贡献便深度交织、难以分割。这种价值归因的困境，并非某个特定场景下的技术问题，而是智能体商业模式必须面对的核心命题。

这些问题没有现成的答案。

但可以肯定的是，在智能体元年的春天，对长任务能力的探索，不再仅仅是技术指标的角逐，而是决定AI能否从“玩具”蜕变为“工具”的关键一跃。

围绕上下文容量与质量、多智能体协作、纵深防御的编排系统以及Token经济学的持续创新，正共同描绘着这幅从“回答问题”到“完成任务”的宏大图景。这场变革的终局，将深刻地重塑我们与数字世界互动的方式，以及商业价值创造的底层逻辑。