测试时计算量成LLM能力评估核心变量，安全策略需同步革新

2026.06.09 13:22

随着LLM能力提升，基准性能愈发依赖测试时计算量，单数值基准已不足。GPT-5.5案例显示，控制计算量后其优势显著。安全评估常忽略计算量，如Gemini 3 Deep Think发布因无风险评估卡引发争议。文章建议实验室报告性能与计算量关系、基准跟踪计算量、安全框架纳入计算量，以准确评估能力与风险。

随着大语言模型（LLM）能力的持续提升，基准测试性能越来越取决于测试时投入的计算量。事实上，我们可能永远无法真正知晓现代LLM的能力上限——因为测量所需的成本实在太高。因此，LLM的评估方式需要改变，转而测量性能与token数量、成本或时间之间的关联。

GPT-5.5发布当天，最初引发了不少质疑：基准数值虽有提升，但幅度并不显著。然而几小时后，人们在实际使用中发现它较GPT-5.4有了质的飞跃。这说明经典的“基准网格”未能完整反映真实情况：若以token数量为横轴对比两者性能，在控制token数量、成本和延迟变量后，GPT-5.5的优势就变得十分明显。

为何不通过增加测试时的计算量，直到性能达到趋于平稳的平台期？但实际数据表明，这个平台期还很遥远，甚至在现有预算范围内根本无法观察到。比如在autoresearch实验中，性能经过数百次迭代后仍在持续提升；而在cyber评估中，Mythos和GPT-5.5即使在处理1亿token后，改进速度依然很快，且越强的模型，其长期提升效果越显著。

更合理的评估方式，是绘制性能与测试计算量的关系曲线（横轴可设为token数量、成本或时间）。目前已有部分基准测试开始朝这个方向转变，比如ARC-AGI就会测量分数与成本的关系。另一种思路是设定明确的token、时间或成本预算，就像人类考试（比如SAT）那样设定固定的限制条件。

安全评估方面，多数模型发布时都没有将推理阶段的计算量纳入考量。比如Gemini 3 Deep Think发布时，虽然基准分数很高，却缺乏配套的风险评估说明，这引发了不少争议。更深层的问题在于，AI实验室与安全机构尚未就测试计算量的考量标准达成一致——Deep Think的能力其实可以通过其他模型的辅助框架复现，真正的问题是它的系统说明中没有包含与计算量相关的性能数据。

为此，我们向AI社区提出三点建议：首先，实验室发布模型时，应公开性能与计算量的关系数据，至少要说明 scalar 基准结果对应的推理预算；其次，基准测试应跟踪推理过程中的计算用量，或设定明确的预算限制；最后，在制定技术框架和负责任的扩展政策时，需明确纳入推理计算量的考量，评估工作应估算不同预算下的模型能力，包括从小预算数据的合理推演。

自2024年9月o1发布以来，推理计算量对模型性能的影响就已受到关注，但前沿实验室仍习惯只公布单一数值的基准结果。随着模型越来越善于利用计算资源，不考虑计算量的基准测试会变得越来越没有参考价值。因此，有必要将推理预算作为模型能力测量和安全政策制定的核心要素。

作品声明：内容由AI生成