测试时计算量成LLM能力评估核心变量,安全策略需同步革新

2026.06.09 13:22
随着LLM能力提升,基准性能愈发依赖测试时计算量,单数值基准已不足。GPT-5.5案例显示,控制计算量后其优势显著。安全评估常忽略计算量,如Gemini 3 Deep Think发布因无风险评估卡引发争议。文章建议实验室报告性能与计算量关系、基准跟踪计算量、安全框架纳入计算量,以准确评估能力与风险。

随着大语言模型(LLM)能力的持续提升,基准测试性能越来越取决于测试时投入的计算量。事实上,我们可能永远无法真正知晓现代LLM的能力上限——因为测量所需的成本实在太高。因此,LLM的评估方式需要改变,转而测量性能与token数量、成本或时间之间的关联。

GPT-5.5发布当天,最初引发了不少质疑:基准数值虽有提升,但幅度并不显著。然而几小时后,人们在实际使用中发现它较GPT-5.4有了质的飞跃。这说明经典的“基准网格”未能完整反映真实情况:若以token数量为横轴对比两者性能,在控制token数量、成本和延迟变量后,GPT-5.5的优势就变得十分明显。

为何不通过增加测试时的计算量,直到性能达到趋于平稳的平台期?但实际数据表明,这个平台期还很遥远,甚至在现有预算范围内根本无法观察到。比如在autoresearch实验中,性能经过数百次迭代后仍在持续提升;而在cyber评估中,Mythos和GPT-5.5即使在处理1亿token后,改进速度依然很快,且越强的模型,其长期提升效果越显著。

更合理的评估方式,是绘制性能与测试计算量的关系曲线(横轴可设为token数量、成本或时间)。目前已有部分基准测试开始朝这个方向转变,比如ARC-AGI就会测量分数与成本的关系。另一种思路是设定明确的token、时间或成本预算,就像人类考试(比如SAT)那样设定固定的限制条件。

安全评估方面,多数模型发布时都没有将推理阶段的计算量纳入考量。比如Gemini 3 Deep Think发布时,虽然基准分数很高,却缺乏配套的风险评估说明,这引发了不少争议。更深层的问题在于,AI实验室与安全机构尚未就测试计算量的考量标准达成一致——Deep Think的能力其实可以通过其他模型的辅助框架复现,真正的问题是它的系统说明中没有包含与计算量相关的性能数据。

为此,我们向AI社区提出三点建议:首先,实验室发布模型时,应公开性能与计算量的关系数据,至少要说明 scalar 基准结果对应的推理预算;其次,基准测试应跟踪推理过程中的计算用量,或设定明确的预算限制;最后,在制定技术框架和负责任的扩展政策时,需明确纳入推理计算量的考量,评估工作应估算不同预算下的模型能力,包括从小预算数据的合理推演。

自2024年9月o1发布以来,推理计算量对模型性能的影响就已受到关注,但前沿实验室仍习惯只公布单一数值的基准结果。随着模型越来越善于利用计算资源,不考虑计算量的基准测试会变得越来越没有参考价值。因此,有必要将推理预算作为模型能力测量和安全政策制定的核心要素。

作品声明:内容由AI生成

快报

更多

15:08

A股收评:沪指跌0.42%报3993点,煤炭开采加工、元件板块跌幅居前

15:03

欧洲主要股指开盘涨跌不一

15:03

国内商品期货多数收跌,沪银、铂跌超4%

15:02

工信部:提升网络对人工智能业务服务能力,优化家庭/商企无线局域网(WLAN)网络接入时延不大于5ms

15:01

工信部:加强移动通信空口智能化、天基计算网络、智能体互联网等一批关键核心技术攻关

15:00

工信部:围绕原材料、电子信息、装备制造等行业“智改数转网联”需求,建设新型工业网络

14:58

工信部:加强高端光电芯片和器件研发,开展光电混合组网技术试验

14:57

在津布局锂精矿已陆续批量启运?中矿资源、盛新锂能等回应

14:56

工信部:建立完善国家和区域算力平台,强化算力统筹监测和供需对接

14:55

工信部:提升光纤接入网上行带宽配置,推进支持大上行能力的5G-A网络部署

14:53

工信部:加快建设400Gbps/800Gbps等骨干传输网络,优化东中西部国家枢纽节点之间网络传输通道

14:52

工信部:增强网络边缘推理能力,降低推理时延和终端算力需求

14:50

工信部:到2028年,城域算力1毫秒时延圈覆盖率不低于75%

14:49

光伏概念局部异动,爱旭股份涨停

14:46

港股部分新消费股逆势上涨,奈雪的茶涨超8%

14:46

中国研究提出基于微气泡强化淬冷的不溶性硫磺制备技术,萃取后的产品IS含量高达97.33%

14:39

微信官宣朋友圈搜索功能

14:36

美能源信息局下调今年美石油库存预期

14:34

中方代表:武力威胁无法解决伊朗核问题

14:32

日韩股市大幅收跌