随着大语言模型(LLM)能力的持续提升,基准测试性能越来越取决于测试时投入的计算量。事实上,我们可能永远无法真正知晓现代LLM的能力上限——因为测量所需的成本实在太高。因此,LLM的评估方式需要改变,转而测量性能与token数量、成本或时间之间的关联。
GPT-5.5发布当天,最初引发了不少质疑:基准数值虽有提升,但幅度并不显著。然而几小时后,人们在实际使用中发现它较GPT-5.4有了质的飞跃。这说明经典的“基准网格”未能完整反映真实情况:若以token数量为横轴对比两者性能,在控制token数量、成本和延迟变量后,GPT-5.5的优势就变得十分明显。
为何不通过增加测试时的计算量,直到性能达到趋于平稳的平台期?但实际数据表明,这个平台期还很遥远,甚至在现有预算范围内根本无法观察到。比如在autoresearch实验中,性能经过数百次迭代后仍在持续提升;而在cyber评估中,Mythos和GPT-5.5即使在处理1亿token后,改进速度依然很快,且越强的模型,其长期提升效果越显著。
更合理的评估方式,是绘制性能与测试计算量的关系曲线(横轴可设为token数量、成本或时间)。目前已有部分基准测试开始朝这个方向转变,比如ARC-AGI就会测量分数与成本的关系。另一种思路是设定明确的token、时间或成本预算,就像人类考试(比如SAT)那样设定固定的限制条件。
安全评估方面,多数模型发布时都没有将推理阶段的计算量纳入考量。比如Gemini 3 Deep Think发布时,虽然基准分数很高,却缺乏配套的风险评估说明,这引发了不少争议。更深层的问题在于,AI实验室与安全机构尚未就测试计算量的考量标准达成一致——Deep Think的能力其实可以通过其他模型的辅助框架复现,真正的问题是它的系统说明中没有包含与计算量相关的性能数据。
为此,我们向AI社区提出三点建议:首先,实验室发布模型时,应公开性能与计算量的关系数据,至少要说明 scalar 基准结果对应的推理预算;其次,基准测试应跟踪推理过程中的计算用量,或设定明确的预算限制;最后,在制定技术框架和负责任的扩展政策时,需明确纳入推理计算量的考量,评估工作应估算不同预算下的模型能力,包括从小预算数据的合理推演。
自2024年9月o1发布以来,推理计算量对模型性能的影响就已受到关注,但前沿实验室仍习惯只公布单一数值的基准结果。随着模型越来越善于利用计算资源,不考虑计算量的基准测试会变得越来越没有参考价值。因此,有必要将推理预算作为模型能力测量和安全政策制定的核心要素。






快报