2026年6月,OpenAI在X上发了一条异常低调的帖子:"Let's talk about evals."
配文写着:我们一直在寻找更好的方法来衡量和预测模型进展,尤其是在基准测试被饱和或被游戏化的当下。发帖的不是Sam Altman,不是Greg Brockman,而是Tejal Patwardhan——OpenAI前沿评估(Frontier Evals)团队的负责人。
这条帖子链接到她与Andrew Mayne的一场对话。如果你不点进去,它看起来就像一条普通的产品更新。
但它不是。
在一个所有AI公司都在拼命秀肌肉的时刻,OpenAI最想聊的却是尺子。这件事本身就值得你认真看下去。
标尺在熔化
第一个事实:你熟悉的那些基准测试,大部分已经没用了。
2026年初,一项发表在arXiv上的系统性研究分析了60个主流大语言模型基准,结论令人不安——近一半的基准已经饱和,即排名靠前的模型得分趋同,基准失去区分能力。更讽刺的是,研究发现隐藏测试集对防止饱和几乎没有任何保护效果。那些被行业奉为圭臬的"私有测试集",在数据污染和模型过拟合面前形同虚设。
看看具体数字。Math-500,曾被视为数学推理黄金标准的基准,o3已拿到99.2分,Grok-4拿到99.0,DeepSeek R1拿到98.3。三个完全不同架构的模型挤在一个百分点的狭小空间里,这个分数不再告诉你谁更好——只告诉你所有人都已经逼近满分。
MMLU(大规模多任务语言理解),这个过去两年被几乎所有模型发布引用的标杆,当前顶级模型已达到约88%的准确率,而人类专家基线是89.8%。差距不到两个百分点。
SWE-Bench Verified的命运更具象征意义。2026年2月,OpenAI前沿评估团队成员Mia Glaese和Olivia Watkins在Latent Space播客上公开宣布:OpenAI将停止报告SWE-Bench Verified的成绩。原因?饱和、污染、不公平测试。这个基准的起源本身就是一个OpenAI主导的大型清理项目——投入近100名软件工程师,多轮独立审查,从原始Princeton SWE-Bench中精选约500道高质量任务。但团队后来发现,许多所谓"失败"的案例反映的不是模型能力不足,而是测试本身的缺陷——要求特定变量命名、未在题目中说明的实现细节。同时,模型通过训练数据接触到任务标识符和仓库特定信息的迹象越来越明显。
一个由OpenAI自己花大力气清理和策划的基准,最终被OpenAI自己宣布退役。
这不是一个孤立的技术故障。这是一个系统性信号。
为什么以前的评估方式行不通了
要理解这场危机,需要回到一个更基础的问题:我们到底在用基准测试测量什么?
传统AI评估的逻辑接近于标准化考试——固定题目、固定答案、拼分数。MMLU就是这样:57个学科、15908道选择题。你用它对模型说"回答这些问题",然后看谁得分高。
这个范式建立在三个前提之上:(1)题目不会泄漏;(2)高分代表高能力;(3)测试本身不会变成训练目标。
三个前提,到今天已经全部崩塌。
数据污染已成系统性现象。加州大学伯克利分校、卡内基梅隆大学和Vectara的联合研究发现,包括MMLU、GSM8K、HumanEval在内的主流基准测试中,题目和答案广泛存在于GPT-4、Llama 2、Mistral等模型的预训练数据中。这不是偶然泄露——当Common Crawl快照覆盖了互联网的大部分公开文本,任何公开的测试题目早晚会成为训练数据的一部分。
高分不代表高能力。2026年4月Kili Technology发布的报告揭示了一个惊人的差距:企业级AI智能体系统在实验室基准上的表现与真实生产环境之间存在37%的落差。同一任务,不同供应商的完成成本相差50倍,而准确率几乎持平。排行榜上数字的参考价值,在实际部署中可能为零。
Goodhart定律的无情兑现。"当一个指标成为目标时,它就不再是一个好指标。"在AI领域,这已经是铁律。模型训练中主动针对基准优化(benchmark hacking)不是秘密。当每一家实验室盯着同一个排行榜做强化学习调优,最终所有人都逼近了天花板——不是因为模型真的等量齐观,而是测试本身的区分能力已被消耗殆尽。
重建标尺的三条路径
面对评估体系的全面危机,头部AI实验室的反应出奇一致——但路径截然不同。
OpenAI:把评估变成一套持续运行的工程系统。2025年4月,OpenAI发布了Preparedness Framework v2。这份文件将能力评估从一次性快照转变为一个动态多层系统。Tracked Categories覆盖生物/化学、网络安全和AI自我改进三大领域,每个领域都有成熟评估体系和持续更新的防护措施。Research Categories则覆盖长期自主性、沙袋行为(Sandbagging,模型故意隐藏真实能力)、自主复制与适应、破坏安全防护等前沿风险领域。
但最关键的是第三层:可扩展评估。OpenAI在文档中明确写道——推理能力的进步使我们能够更频繁地改进模型,有时甚至不需要大规模训练运行,这意味着评估也必须能够扩展。他们正在构建一套不断增长的自动化评估套件,同时在关键节点保留人类专家主导的"深度潜水"式审查。
2025年夏天,OpenAI更进一步——与Anthropic互测模型。两家公司同意暂时放宽外部安全过滤器,用自己的内部安全和对齐评估工具测试对方的公开模型。随后公开发布了结果。
让竞争对手用自己的尺子量自己,这在任何商业逻辑中都是反常的。放在评估危机的背景下,却是最理性的选择:当内部基准已不可信,唯一的出路是引入外部挑战。
Anthropic:从第一性原理重构评估维度。Anthropic的路径更偏向从底层设计评估体系,而非依赖外部标准基准。"Constitutional AI"是起点,但在过去一年中已演变为一个更系统的多层评估框架。2026年,Anthropic密集发布了多项研究——自动化的沙袋行为检测、化学实验能力评估、通过可解释性研究理解模型内部表征——这些工作指向同一个方向:评估不能只是"出题打分",必须深入模型内部理解它为什么做出某个输出。
第三方评估生态:争夺下一个"裁判权"。Humanity's Last Exam是目前最有雄心的尝试。由Center for AI Safety和Scale AI联合创建,包含2500道题目,覆盖超过100个学科,出题人来自500多家机构的近1000名学科专家。目前最好AI模型的准确率仅为约26.6%(OpenAI Deep Research),前一代模型约9%,而人类领域专家约90%。这个60多个百分点的差距是目前评估体系中最可靠的信号。
但HLE也在被追赶。xAI声称Grok 4达到44.4%。无论这个数字是否完全可信,趋势已经清晰——即使是最难的考试,留给人类领先的时间也在倒计时。
与此同时,Epoch AI、METR、Apollo Research等机构在构建更复杂的评估范式:长周期自主任务(MirrorCode,数周级别的编码挑战)、对抗性红队测试、持续监控取代单次快照。2026年1月的《Frontier AI Auditing》白皮书描绘了未来图景——从碎片化的公开报告到标准化框架,从"依赖公司善意"到"独立于公司财务和决策的安全审查"。
评估的未来形态正在浮现:不是一个排行榜,而是一套持续运行的、多层嵌套的、人机协同的监控系统。
评估即战略武器
表面上,OpenAI谈evals是在说"我们如何确保模型安全"。
更深层的逻辑是:评估能力本身就是一种战略基础设施。
当基准测试普遍失灵,谁能定义新的评估标准,谁就掌握了定义"好模型"的话语权。这解释了一系列看似反常的行为。
OpenAI为什么停止报告SWE-Bench Verified?不是因为成绩差。而是因为继续在一个已污染的基准上竞争,等于默认让对手用同一把坏尺子丈量自己。毁掉旧尺子,建立新标准,是对后来者最有效的拦截。
OpenAI为什么与Anthropic互测?因为这不仅是互相背书——更是双方在共同构建一套只有头部玩家才有的"深层评估能力"。这是一种只有资源充裕、安全团队完备的实验室才能参与的博弈。小公司和开源社区被天然排斥在外。
Preparedness Framework的升级揭示得更直白。文档中有一段容易忽略但极其关键的文字:
如果另一家前沿AI开发者发布了没有相应安全措施的高风险系统,我们可能会调整我们的要求。但我们会首先严格确认风险格局确实发生了变化,公开承认我们在做调整,评估该调整不会实质性增加严重伤害的总体风险,并仍将安全措施保持在更具保护性的水平。
翻译成商业语言:如果竞争对手发布了一个有风险但能力强大的模型,OpenAI可能会放宽自己的安全标准以保持竞争力——但这叫"经过严格评估后做出的负责任调整",不叫"跟风"。
把评估体系武器化。这是AI竞赛的新维度。
Google DeepMind的路径则提供了另一种参照——他们的评估实践更深地嵌入产品逻辑中。Gemini模型的System Card通常覆盖更广泛的安全维度,且与Google Cloud的企业合规体系联动。这意味着DeepMind的评估不只是为了内部风险管理,更是为了在B端市场建立可审计的信任信号。评估在这里变成了一种toB销售基础设施。
三条路径,同一个方向:评估正在从后台支持功能升级为前台竞争力。
但仍然不够
必须指出,OpenAI的评估实践并非毫无争议。
2025年,一篇对Preparedness Framework进行"可负担性分析"的论文指出:该安全政策只要求评估一小部分AI风险,鼓励部署具有"中等"能力水平的系统,且在很多关键场景下并未真正绑定部署决策。论文证明,在框架允许的解读空间内,一个模型可以被评定为"中等风险"并部署——即使它具备了在某些条件下造成严重伤害的能力。
FLI(Future of Life Institute)2025年夏季发布的AI安全指数对七家头部AI公司进行33项指标评估,在第三方评估独立性、吹哨人保护机制、部署前安全测试全面性等维度上,全行业都有显著的提升空间。OpenAI的总分并未显著领先。
Tejal Patwardhan的"Let's talk about evals"之所以重要,恰恰因为它出现在这个充满张力的节点上:一边是评估体系前所未有的重要——它正在从辅助角色升级为战略基础设施;另一边是整个评估体系的根基在动摇——旧基准在失效,新范式尚未确立,而每一次评估框架的调整都可能影响数十亿美元的模型部署决策。
当一家估值数千亿美元的公司说"我们在建立共同的衡量体系"时,你必须追问:这把尺子上刻的是谁的名字?
三个信号
从这个节点往前看,三个信号值得密切关注。
第一,评估将成为监管的代理战场。欧盟AI法案第51条已要求对通用AI模型进行系统风险评估。美国的行政命令和各州立法也在快速推进。当政府开始要求第三方评估,谁制定标准谁就掌握了规则红利。OpenAI构建Preparedness Framework、发布System Card、公开与Anthropic的交叉测试——这些动作的监管意图不亚于技术意图。
第二,"评估即服务"正在成为一个真正的产业。Scale AI的SWE-Bench Pro、Epoch AI的基准数据库、METR的长周期任务评估、Kili Technology的企业级评测平台——一个围绕AI评估的B2B生态正在成形。这个赛道的底层逻辑和云计算早期的"第三方安全审计"如出一辙:当系统复杂到内部团队无法自证清白,外部评估就成了刚需。
第三,下一波模型的竞争焦点将从"能力"转向"可测量性"。一个模型声称自己"更强大",但无法在可信基准上证明——这个声称在市场意义上就不存在。评估不仅是验证,它正在成为定义。未来的模型发布会,可能不再是"我们在XX基准上取得YY分",而是"我们在一个尚未饱和的、由独立第三方设计的新评估范式下,展示了ZZ能力"。
当你无法衡量进步时,进步本身会变得可疑。
这就是为什么在AI竞赛最激烈的2026年,OpenAI最想讨论的不是新模型,而是评估。
因为掌握了尺子的人,才能定义什么叫快。






快报