一场完整的AI Agent评估,要花多少钱?答案是:数千美元,外加好几天。
这不是夸张。在SWE-bench Verified上跑一个前沿模型,你需要部署完整的代码沙箱环境、构建测试工具链、跑完数百个真实GitHub Issue,每次评测的API费用轻松突破四位数。GAIA也毫不手软:跨工具协作的长周期Agent任务,单次评估数天起步。SWT-bench的测试生成评估同样需要大量计算资源。
与此同时,另一类评测几乎零成本:一道选择题测推理能力,一段代码测生成能力,一条指令测指令遵循能力。这些“原子能力”测试单次调用不到一美分,几分钟就能跑完。
一个尖锐的问题浮出水面:能否用廉价原子能力的评分来预测昂贵的Agent综合能力?来自多所高校的研究团队给出了一个名为PACE的答案,正试图改写Agent评估的底层规则。
一个行业的评估焦虑
算一笔账。假设你是一名大模型研究员,手上有5个候选模型需要在SWE-bench上做横向评测。按每次评估约1000美元的Token消耗和数天的环境搭建时间,这笔投入至少是5000美元加一周时间。想多跑几轮让结论更可靠?预算轻松突破五位数。
Agent基准测试的高昂成本,正在制造一个隐秘但不公平的格局:资金充裕的巨头可以频繁评测、快速迭代;资源有限的高校和初创团队则被迫减少评估频次,甚至跳过某些测试。结果便是:我们看到的模型“进步”,某种程度上反映的是财力排行榜,而非能力排行榜。
这种隐形成本不仅来自API调用。Agent评测需要在模拟环境中长时间运行——模型要理解复杂指令、调用工具、从错误中恢复、在长周期中保持目标一致。每一步都消耗Token,评测环境的运维同样是一笔开销。而大模型在MMLU、HumanEval、GSM8K等传统评测上的表现早已高度透明且廉价——一个模型的推理、代码生成、指令遵循能力,只需几分钟就能完成测量。但这些指标到底能不能反映Agent层面的真实能力?行业内一直缺乏系统性的回答。
PACE怎么做
PACE的核心思路出奇地简洁:从海量廉价的原子能力评测实例中,挑选出少量最能预测Agent基准得分的实例,用它们的加权分数拟合出Agent能力的估计值。
这听起来像个简单的回归问题,但难点在于“选哪些实例”。PACE用了两步策略的组合。第一步是“目标相关局部选择”——找出与目标Agent基准最相似的原子评测实例,通过回归权重判断每个实例的预测力。第二步是“全局信息选择”——在所有模型上表现最稳定的实例,无论它们与哪个Agent基准最相关。两者互补:局部选择确保针对性,全局选择确保鲁棒性。
结果远超预期。论文在14个模型、4个Agent目标基准和19个非Agent基准上完成了全面验证。PACE-Bench的预测平均绝对误差(MAE)仅3.80%,Spearman相关系数达到0.807,对任意两个模型的成对排名准确率达84.37%。而这一切的成本,不到完整Agent评估的1%。
更精确地说:在同等预测质量下,PACE的成本比随机选取目标子集的方法低约100倍。仅需100个精心挑选的非Agent评测实例,就能以小于4%的误差稳准地预测Agent表现。
为什么之前没人这样做
“用简单指标预测复杂能力”并非PACE首创。在AI领域,代理方法由来已久——Scaling Law就是用计算量和参数量预测模型能力。但Agent评估的独特之处在于,Agent能力不是单一维度的线性组合。
一个模型在推理题上拿高分,不代表它在真实软件工程任务中能正确调用API。一个模型的指令遵循能力再强,也不保证它在跨工具协作时不会迷失方向。Agent能力的“组合性”——要求多种原子能力协同调用——才是预测的真正难点。
PACE的突破在于它没有假设所有原子能力同等重要,而是通过数据驱动的方式,自动发现哪些原子能力的组合最能反映Agent表现。论文最重要的发现之一:PlanBench在所有四个目标基准上都是最大的单一贡献者。GAIA选中了34个PlanBench实例,SWE-bench Verified选中了31个,SWE-bench Multimodal选中了22个,SWT-bench更是一口气选中了84个。这意味着规划验证能力是横跨几乎所有Agent场景的通用能力基座。
VisualPuzzles、BFCL(工具调用)和MMMU(多模态理解)也出现在所有目标基准上——揭示了一个深层结论:无论Agent场景如何变化,规划、工具调用和多模态推理构成了能力的“公因数”。
谁来买单
PACE最直接的受益者是模型开发者和选型者。
对于开发者,模型训练过程中需要频繁验证效果,每次跑完整Agent评估显然不现实。PACE提供了一种低成本快照方案——在训练的关键节点做快速验证,只有最终版本才跑完整评估。对于选型者——比如企业采购AI模型——PACE可以作为一个高效率的初筛工具。面对几十个候选模型,先花几美元跑PACE,缩小候选范围后再投入完整评估。
还有一个更具想象力的场景:模型路由。如果一个平台需要实时决定用哪个模型处理Agent任务,PACE的轻量级特性使其可以嵌入推理链路,作为实时模型选择的参考信号。
论文还揭示了另一个隐藏价值:PACE选中的代理实例集合,反过来揭示了每个Agent基准到底在测试什么能力。SWE-bench Verified大量依赖LiveCodeBench和VisualPuzzles的实例,说明它的核心挑战是代码合成和结构化推理。GAIA则被IFEval和PlanBench主导,印证了它基于浏览器的问答风格对指令遵循和多步规划的要求。这种“基准的基准”分析,对整个评估生态的优化都有启示意义。
边界与隐忧
PACE不是万能解药。它依赖一个前提:用于校准的模型集合要足够多样化。如果校准集中都是同一类架构的模型,PACE的预测可能在架构创新出现时失效。Agent能力的快速进化同样可能让PACE的预测模型过时——今天选中的关键实例,半年后可能不再具有区分度。
论文作者诚实地指出了这一点:PACE是一个代理(Proxy),不是一个替代。在需要精确衡量Agent能力的场景——学术竞赛、产品发布前的最终验证——完整评估仍然不可替代。理想的使用方式是PACE做初筛,完整评估做终验。
但从另一个角度看,PACE的使命不是取消Agent评估,而是让Agent评估变得更频繁、更可及、更公平。
当评估一个Agent不再自动等价于一张数千美元的账单和好几天的等待,更多玩家将有机会参与这场能力竞赛。而改变游戏规则的,往往就是这样一个不起眼的“代理指标”。






快报