PACE把Agent评估成本打到1%以下

评估一个AI Agent的真实能力，一次要花数千美元、耗时数天。多所高校联合提出的PACE框架，仅用100道廉价原子能力测试题，就能以不到4%的误差预测Agent基准得分，成本不到完整评估的1%。论文在14个模型、4个Agent基准和19个非Agent基准上完成了验证，Spearman相关系数超过0.80，成对排序准确率达84%。

一场完整的AI Agent评估，要花多少钱？答案是：数千美元，外加好几天。

这不是夸张。在SWE-bench Verified上跑一个前沿模型，你需要部署完整的代码沙箱环境、构建测试工具链、跑完数百个真实GitHub Issue，每次评测的API费用轻松突破四位数。GAIA也毫不手软：跨工具协作的长周期Agent任务，单次评估数天起步。SWT-bench的测试生成评估同样需要大量计算资源。

与此同时，另一类评测几乎零成本：一道选择题测推理能力，一段代码测生成能力，一条指令测指令遵循能力。这些“原子能力”测试单次调用不到一美分，几分钟就能跑完。

一个尖锐的问题浮出水面：能否用廉价原子能力的评分来预测昂贵的Agent综合能力？来自多所高校的研究团队给出了一个名为PACE的答案，正试图改写Agent评估的底层规则。

一个行业的评估焦虑

算一笔账。假设你是一名大模型研究员，手上有5个候选模型需要在SWE-bench上做横向评测。按每次评估约1000美元的Token消耗和数天的环境搭建时间，这笔投入至少是5000美元加一周时间。想多跑几轮让结论更可靠？预算轻松突破五位数。

Agent基准测试的高昂成本，正在制造一个隐秘但不公平的格局：资金充裕的巨头可以频繁评测、快速迭代；资源有限的高校和初创团队则被迫减少评估频次，甚至跳过某些测试。结果便是：我们看到的模型“进步”，某种程度上反映的是财力排行榜，而非能力排行榜。

这种隐形成本不仅来自API调用。Agent评测需要在模拟环境中长时间运行——模型要理解复杂指令、调用工具、从错误中恢复、在长周期中保持目标一致。每一步都消耗Token，评测环境的运维同样是一笔开销。而大模型在MMLU、HumanEval、GSM8K等传统评测上的表现早已高度透明且廉价——一个模型的推理、代码生成、指令遵循能力，只需几分钟就能完成测量。但这些指标到底能不能反映Agent层面的真实能力？行业内一直缺乏系统性的回答。

PACE怎么做

PACE的核心思路出奇地简洁：从海量廉价的原子能力评测实例中，挑选出少量最能预测Agent基准得分的实例，用它们的加权分数拟合出Agent能力的估计值。

这听起来像个简单的回归问题，但难点在于“选哪些实例”。PACE用了两步策略的组合。第一步是“目标相关局部选择”——找出与目标Agent基准最相似的原子评测实例，通过回归权重判断每个实例的预测力。第二步是“全局信息选择”——在所有模型上表现最稳定的实例，无论它们与哪个Agent基准最相关。两者互补：局部选择确保针对性，全局选择确保鲁棒性。

结果远超预期。论文在14个模型、4个Agent目标基准和19个非Agent基准上完成了全面验证。PACE-Bench的预测平均绝对误差（MAE）仅3.80%，Spearman相关系数达到0.807，对任意两个模型的成对排名准确率达84.37%。而这一切的成本，不到完整Agent评估的1%。

更精确地说：在同等预测质量下，PACE的成本比随机选取目标子集的方法低约100倍。仅需100个精心挑选的非Agent评测实例，就能以小于4%的误差稳准地预测Agent表现。

为什么之前没人这样做

“用简单指标预测复杂能力”并非PACE首创。在AI领域，代理方法由来已久——Scaling Law就是用计算量和参数量预测模型能力。但Agent评估的独特之处在于，Agent能力不是单一维度的线性组合。

一个模型在推理题上拿高分，不代表它在真实软件工程任务中能正确调用API。一个模型的指令遵循能力再强，也不保证它在跨工具协作时不会迷失方向。Agent能力的“组合性”——要求多种原子能力协同调用——才是预测的真正难点。

PACE的突破在于它没有假设所有原子能力同等重要，而是通过数据驱动的方式，自动发现哪些原子能力的组合最能反映Agent表现。论文最重要的发现之一：PlanBench在所有四个目标基准上都是最大的单一贡献者。GAIA选中了34个PlanBench实例，SWE-bench Verified选中了31个，SWE-bench Multimodal选中了22个，SWT-bench更是一口气选中了84个。这意味着规划验证能力是横跨几乎所有Agent场景的通用能力基座。

VisualPuzzles、BFCL（工具调用）和MMMU（多模态理解）也出现在所有目标基准上——揭示了一个深层结论：无论Agent场景如何变化，规划、工具调用和多模态推理构成了能力的“公因数”。

谁来买单

PACE最直接的受益者是模型开发者和选型者。

对于开发者，模型训练过程中需要频繁验证效果，每次跑完整Agent评估显然不现实。PACE提供了一种低成本快照方案——在训练的关键节点做快速验证，只有最终版本才跑完整评估。对于选型者——比如企业采购AI模型——PACE可以作为一个高效率的初筛工具。面对几十个候选模型，先花几美元跑PACE，缩小候选范围后再投入完整评估。

还有一个更具想象力的场景：模型路由。如果一个平台需要实时决定用哪个模型处理Agent任务，PACE的轻量级特性使其可以嵌入推理链路，作为实时模型选择的参考信号。

论文还揭示了另一个隐藏价值：PACE选中的代理实例集合，反过来揭示了每个Agent基准到底在测试什么能力。SWE-bench Verified大量依赖LiveCodeBench和VisualPuzzles的实例，说明它的核心挑战是代码合成和结构化推理。GAIA则被IFEval和PlanBench主导，印证了它基于浏览器的问答风格对指令遵循和多步规划的要求。这种“基准的基准”分析，对整个评估生态的优化都有启示意义。

边界与隐忧

PACE不是万能解药。它依赖一个前提：用于校准的模型集合要足够多样化。如果校准集中都是同一类架构的模型，PACE的预测可能在架构创新出现时失效。Agent能力的快速进化同样可能让PACE的预测模型过时——今天选中的关键实例，半年后可能不再具有区分度。

论文作者诚实地指出了这一点：PACE是一个代理（Proxy），不是一个替代。在需要精确衡量Agent能力的场景——学术竞赛、产品发布前的最终验证——完整评估仍然不可替代。理想的使用方式是PACE做初筛，完整评估做终验。

但从另一个角度看，PACE的使命不是取消Agent评估，而是让Agent评估变得更频繁、更可及、更公平。

当评估一个Agent不再自动等价于一张数千美元的账单和好几天的等待，更多玩家将有机会参与这场能力竞赛。而改变游戏规则的，往往就是这样一个不起眼的“代理指标”。