一个模型强不强,取决于谁来问这个问题。
如果你问 OpenAI,GPT-5.6 Sol 的回答是:编码更强了,生物学推理更进一步,网络安全的 agent 能力前所未有,而且仅用 Anthropic Mythos 预览版三分之一的输出 token 就达到了相近水平。三个维度,三个勾,完美符合一家 AI 公司在大模型发布日的标准叙事。
但如果你问 Wharton 教授 Ethan Mollick,他看到的却是另一份答卷上明晃晃的空白。
“烦人,OpenAI 似乎没有为 GPT 5.6 提供任何 GDPval 指标。”6 月 27 日晚间,Mollick 在 X 上发了一条不到 20 个单词的推文,“它是衡量经济价值工作的最佳指标之一。”
这不是一个学者的无端挑剔。GDPval 是当下 AI 评测体系中最接近“真金白银”的标尺。任务由各行业资深专家设计,平均 14 年从业经验,每项任务需要人类专家 4 到 7 小时完成,由独立评审盲测打分。它不测模型会不会做奥数题,它测模型能不能干正事。
而这个数字,在 GPT-5.6 的发布中,消失得干干净净。
一条断裂的曲线
回溯 GDPval 的历史,OpenAI 曾经是这条曲线最积极的推手。
2025 年 9 月,OpenAI 研究团队发布了一个非同寻常的基准测试。根据 Mollick 在其 Newsletter“One Useful Thing”中的详细介绍,测试流程精确而严格。来自金融、法律、零售等行业的专家设计“真正有经济价值的任务”,AI 和人类专家同场竞技,第三组专家盲测打分,不知道哪个答案来自 AI、哪个来自人类。
GPT-5 当时拿到了 40.6% 的胜率和平局率。然后这条曲线开始陡峭上升。
GPT-5.2 在 Mollick 的追踪中达到了 71%。当时他在 LinkedIn 上写道:“在需要人类专家 4 到 8 小时完成的任务中,GPT-5.2 赢了 71% 的场次。GDPval 可能是最具经济相关性的 AI 能力衡量标准。”
到 GPT-5.4 发布时,Mollick 用同一套方法更新了图表。新模型在专业任务中与人类专家持平或胜出的比率跃升至 82%。他算了一笔账:如果交给 AI 一个 7 小时的任务,即使算上失败率和检查结果的时间,你平均能省下 4 小时 38 分钟。
71%、82%。每一代都有 GDPval 数据,曲线清晰公开。这是 OpenAI 能够向世界证明“我们的模型不仅更聪明,而且更值钱”的最有力证据。
然后,这条曲线在 GPT-5.6 这里断掉了。
三个相悖的推测
推测一:分数太好了,高到不敢说
这听起来反直觉,但在当前的地缘政治背景下完全自洽。
GPT-5.6 的发布不是正常的产品发布。特朗普政府以网络安全为由,要求 OpenAI 将模型限制在约 20 家经批准的“可信合作伙伴”范围内。Anthropic 更惨。Fable 5 和 Mythos 5 被直接要求下架。
如果 Sol 在 GDPval 上接近 100%,也就是说 AI 在所有经济价值任务上与人类专家持平或超越,这个结论的破坏力远超商业价值。它会立即引爆公众恐慌、加速监管风暴。OpenAI 刚刚争取到有限预览的资格,此刻最不需要的就是公开证明“AI 在所有经济价值的工作上已经能替代人类”。
推测二:分数不够好,公开了反而丢脸
另一种可能性同样合理。GPT-5.6 的开发周期被安全审查严重挤压。OpenAI 公开承认,Sol 在网络安全拒绝被越狱方面做了大量训练,称“GPT-5.6 经过训练,可以在用户试图伪装意图或越狱模型时拒绝提供被禁止的网络协助”。
Mollick 在 2025 年 9 月的文章中就已经发现了一个反直觉的规律。AI 输给人类的主要原因是“格式不当”和“未准确遵循指令”,而非幻觉或错误。当模型被过度训练成“保守安全官”时,它在经济任务上的灵活性必然受损。如果 Sol 的 GDPval 分数不升反降,回避这个数字就成了唯一理性的选择。
推测三:衡量标准本身就是答案
这可能是最深层的解释。OpenAI 正在系统性地将叙事重心从“通用智能”转向“安全能力”。Sol 的三个核心宣传点,编码、生物学、网络安全,全部是与国家安全高度相关的领域。
GDPval 衡量的是经济价值工作。做报表、写分析、做 presentation、排日程。这些恰恰是企业日常运营中最需要 AI 完成的事情,但对政府来说却排在安全之后。当你的最大客户是美国政府时,你的评测体系自然也会跟着客户走。
“烦人”背后的系统性问题
Mollick 的“annoying”之所以值得认真对待,不是因为 OpenAI 某一次的产品发布疏忽,而是因为它指向了整个行业正在面临的一场“度量危机”。
传统 GDP 早已跟不上数字经济的节奏。斯坦福大学教授 Erik Brynjolfsson 多年来致力于建立“GDP-B”框架,一个包含免费数字商品和服务的补充指标体系。他领导的斯坦福数字经济实验室与 ADP Research 合作推出的 Canaries Dashboard,覆盖了 460 万工人、730 多个职业,是当前最接近实时追踪 AI 经济影响的公共工具。
该仪表盘揭示的图景令人不安。22 到 25 岁的年轻工人在高 AI 暴露职业中的就业率正在以每年 3.8% 的速度收缩,而低 AI 暴露的职业却在以 2% 的速度增长。“无论是什么原因,它都不会消失,”Brynjolfsson 告诉 Fortune,“我们正闭着眼睛飞入世界历史上最具决定性的时期之一。”
AI 正在系统性地吃掉入门级工作。而在这个事实面前,OpenAI 最强大的模型却不公布它在经济价值任务上的表现分数。
这就像一家药厂发布了一种新药,大量宣传它的保质期和副作用控制,却拒绝公开临床试验的有效率。
GDPval 的身世悖论
GDPval 最尴尬的地方在于它是 OpenAI 自己创立的。
这是好事,也是坏事。好事是 OpenAI 内部比任何人都清楚这个测试的意义和价值。坏事是,正因为它是内部基准,它可以被选择性公布。
从 GPT-5 的 40.6% 到 GPT-5.2 的 71% 到 GPT-5.4 的 82%,OpenAI 曾经愿意公开 GDPval 的进展曲线,因为这些数据展示了令人振奋的进步。但 GPT-5.6 的沉默表明了一个残酷的事实:当经济价值证明不再有利于商业叙事时,它就会变成第一个被牺牲的指标。
Mollick 显然已经意识到了这个困境。这位 Wharton 教授在 AI 经济价值测评方面做了大量独立工作,他的 One Useful Thing Newsletter 已有超过 44.8 万订阅者。但他也无法强迫 OpenAI 公布一个它不想公布的分数。事实上,Mollick 已经开始用 GPT-5.2 Pro 自行推算 GPT-5.6 的 GDPval 图表,既然 OpenAI 不愿意更新 Figure 7。
整个行业的评测体系正在经历一场信任危机。传统的 MMLU、HumanEval、GSM8K 等基准已经接近饱和,所有主流模型都能拿到 90% 以上,失去了区分度。新基准要么太学术,要么太封闭,要么太容易被刷榜。GDPval 的独特价值在于,它试图回答一个所有企业最关心的问题:这个模型能帮我的员工省多少时间,能为我的业务创造多少价值。
但正因为这个问题太有价值,掌握了答案的人反而不愿意轻易分享。
被牺牲的第一块拼图
回看这个时间线。2025 年 9 月,OpenAI 满怀自豪地发布 GDPval,宣称要评估 AI 在真实世界经济价值任务上的能力。2026 年 6 月,GPT-5.6 发布,所有关于经济价值的测量被静默删除。
不是没时间做测试。GDPval 的方法论已经成熟,220 个任务全部开源,自动评分服务已上线。如果 OpenAI 想做,一周之内就能跑完。
也不是团队不知道其重要性。Mollick 的推文被广泛转发和讨论,整个 AI 社区都在关注这个缺失的数字。
唯一的解释是,GDPval 的数据和政策安全叙事产生了冲突。
这不仅仅是 OpenAI 的问题。当 AI 从“炫技”进入“落地”阶段,市场比任何时候都更需要一个统一的经济价值度量衡。没有它,企业不知道怎么为 GPT-5.6 的 API 定价和付费,政府不知道怎么制定劳动力政策,而每一个被 AI 冲击岗位的年轻人,只能从 Brynjolfsson 仪表盘上 3.8% 的就业收缩率中,反推出自己面对的未来。
OpenAI 可以公布 Sol 在编码、生物学和网络安全上的所有漂亮分数,但拒绝提及 GDPval 的那一刻,它已经回答了那个自己不想回答的问题。最刺眼的,从来不是那些糟糕的数字,而是那些被选择性遗忘的空白格。






快报