GPT-5.6 Sol 什么都能做，唯独不肯证明自己值多少钱

OpenAI 发布 GPT-5.6 Sol，在编码、生物学、网络安全上全面突破，却刻意回避了 GDPval 指标——这一由 OpenAI 自己创立、被 Wharton 教授 Ethan Mollick 誉为最能衡量经济价值工作的基准。从 GPT-5 的 40.6% 到 GPT-5.4 的 82%，GDPval 曲线一直透明公开；到了 GPT-5.6，这条线断了。这不是疏忽，而是安全叙事碾压经济价值证明的信号。

一个模型强不强，取决于谁来问这个问题。

如果你问 OpenAI，GPT-5.6 Sol 的回答是：编码更强了，生物学推理更进一步，网络安全的 agent 能力前所未有，而且仅用 Anthropic Mythos 预览版三分之一的输出 token 就达到了相近水平。三个维度，三个勾，完美符合一家 AI 公司在大模型发布日的标准叙事。

但如果你问 Wharton 教授 Ethan Mollick，他看到的却是另一份答卷上明晃晃的空白。

“烦人，OpenAI 似乎没有为 GPT 5.6 提供任何 GDPval 指标。”6 月 27 日晚间，Mollick 在 X 上发了一条不到 20 个单词的推文，“它是衡量经济价值工作的最佳指标之一。”

这不是一个学者的无端挑剔。GDPval 是当下 AI 评测体系中最接近“真金白银”的标尺。任务由各行业资深专家设计，平均 14 年从业经验，每项任务需要人类专家 4 到 7 小时完成，由独立评审盲测打分。它不测模型会不会做奥数题，它测模型能不能干正事。

而这个数字，在 GPT-5.6 的发布中，消失得干干净净。

一条断裂的曲线

回溯 GDPval 的历史，OpenAI 曾经是这条曲线最积极的推手。

2025 年 9 月，OpenAI 研究团队发布了一个非同寻常的基准测试。根据 Mollick 在其 Newsletter“One Useful Thing”中的详细介绍，测试流程精确而严格。来自金融、法律、零售等行业的专家设计“真正有经济价值的任务”，AI 和人类专家同场竞技，第三组专家盲测打分，不知道哪个答案来自 AI、哪个来自人类。

GPT-5 当时拿到了 40.6% 的胜率和平局率。然后这条曲线开始陡峭上升。

GPT-5.2 在 Mollick 的追踪中达到了 71%。当时他在 LinkedIn 上写道：“在需要人类专家 4 到 8 小时完成的任务中，GPT-5.2 赢了 71% 的场次。GDPval 可能是最具经济相关性的 AI 能力衡量标准。”

到 GPT-5.4 发布时，Mollick 用同一套方法更新了图表。新模型在专业任务中与人类专家持平或胜出的比率跃升至 82%。他算了一笔账：如果交给 AI 一个 7 小时的任务，即使算上失败率和检查结果的时间，你平均能省下 4 小时 38 分钟。

71%、82%。每一代都有 GDPval 数据，曲线清晰公开。这是 OpenAI 能够向世界证明“我们的模型不仅更聪明，而且更值钱”的最有力证据。

然后，这条曲线在 GPT-5.6 这里断掉了。

三个相悖的推测

推测一：分数太好了，高到不敢说

这听起来反直觉，但在当前的地缘政治背景下完全自洽。

GPT-5.6 的发布不是正常的产品发布。特朗普政府以网络安全为由，要求 OpenAI 将模型限制在约 20 家经批准的“可信合作伙伴”范围内。Anthropic 更惨。Fable 5 和 Mythos 5 被直接要求下架。

如果 Sol 在 GDPval 上接近 100%，也就是说 AI 在所有经济价值任务上与人类专家持平或超越，这个结论的破坏力远超商业价值。它会立即引爆公众恐慌、加速监管风暴。OpenAI 刚刚争取到有限预览的资格，此刻最不需要的就是公开证明“AI 在所有经济价值的工作上已经能替代人类”。

推测二：分数不够好，公开了反而丢脸

另一种可能性同样合理。GPT-5.6 的开发周期被安全审查严重挤压。OpenAI 公开承认，Sol 在网络安全拒绝被越狱方面做了大量训练，称“GPT-5.6 经过训练，可以在用户试图伪装意图或越狱模型时拒绝提供被禁止的网络协助”。

Mollick 在 2025 年 9 月的文章中就已经发现了一个反直觉的规律。AI 输给人类的主要原因是“格式不当”和“未准确遵循指令”，而非幻觉或错误。当模型被过度训练成“保守安全官”时，它在经济任务上的灵活性必然受损。如果 Sol 的 GDPval 分数不升反降，回避这个数字就成了唯一理性的选择。

推测三：衡量标准本身就是答案

这可能是最深层的解释。OpenAI 正在系统性地将叙事重心从“通用智能”转向“安全能力”。Sol 的三个核心宣传点，编码、生物学、网络安全，全部是与国家安全高度相关的领域。

GDPval 衡量的是经济价值工作。做报表、写分析、做 presentation、排日程。这些恰恰是企业日常运营中最需要 AI 完成的事情，但对政府来说却排在安全之后。当你的最大客户是美国政府时，你的评测体系自然也会跟着客户走。

“烦人”背后的系统性问题

Mollick 的“annoying”之所以值得认真对待，不是因为 OpenAI 某一次的产品发布疏忽，而是因为它指向了整个行业正在面临的一场“度量危机”。

传统 GDP 早已跟不上数字经济的节奏。斯坦福大学教授 Erik Brynjolfsson 多年来致力于建立“GDP-B”框架，一个包含免费数字商品和服务的补充指标体系。他领导的斯坦福数字经济实验室与 ADP Research 合作推出的 Canaries Dashboard，覆盖了 460 万工人、730 多个职业，是当前最接近实时追踪 AI 经济影响的公共工具。

该仪表盘揭示的图景令人不安。22 到 25 岁的年轻工人在高 AI 暴露职业中的就业率正在以每年 3.8% 的速度收缩，而低 AI 暴露的职业却在以 2% 的速度增长。“无论是什么原因，它都不会消失，”Brynjolfsson 告诉 Fortune，“我们正闭着眼睛飞入世界历史上最具决定性的时期之一。”

AI 正在系统性地吃掉入门级工作。而在这个事实面前，OpenAI 最强大的模型却不公布它在经济价值任务上的表现分数。

这就像一家药厂发布了一种新药，大量宣传它的保质期和副作用控制，却拒绝公开临床试验的有效率。

GDPval 的身世悖论

GDPval 最尴尬的地方在于它是 OpenAI 自己创立的。

这是好事，也是坏事。好事是 OpenAI 内部比任何人都清楚这个测试的意义和价值。坏事是，正因为它是内部基准，它可以被选择性公布。

从 GPT-5 的 40.6% 到 GPT-5.2 的 71% 到 GPT-5.4 的 82%，OpenAI 曾经愿意公开 GDPval 的进展曲线，因为这些数据展示了令人振奋的进步。但 GPT-5.6 的沉默表明了一个残酷的事实：当经济价值证明不再有利于商业叙事时，它就会变成第一个被牺牲的指标。

Mollick 显然已经意识到了这个困境。这位 Wharton 教授在 AI 经济价值测评方面做了大量独立工作，他的 One Useful Thing Newsletter 已有超过 44.8 万订阅者。但他也无法强迫 OpenAI 公布一个它不想公布的分数。事实上，Mollick 已经开始用 GPT-5.2 Pro 自行推算 GPT-5.6 的 GDPval 图表，既然 OpenAI 不愿意更新 Figure 7。

整个行业的评测体系正在经历一场信任危机。传统的 MMLU、HumanEval、GSM8K 等基准已经接近饱和，所有主流模型都能拿到 90% 以上，失去了区分度。新基准要么太学术，要么太封闭，要么太容易被刷榜。GDPval 的独特价值在于，它试图回答一个所有企业最关心的问题：这个模型能帮我的员工省多少时间，能为我的业务创造多少价值。

但正因为这个问题太有价值，掌握了答案的人反而不愿意轻易分享。

被牺牲的第一块拼图

回看这个时间线。2025 年 9 月，OpenAI 满怀自豪地发布 GDPval，宣称要评估 AI 在真实世界经济价值任务上的能力。2026 年 6 月，GPT-5.6 发布，所有关于经济价值的测量被静默删除。

不是没时间做测试。GDPval 的方法论已经成熟，220 个任务全部开源，自动评分服务已上线。如果 OpenAI 想做，一周之内就能跑完。

也不是团队不知道其重要性。Mollick 的推文被广泛转发和讨论，整个 AI 社区都在关注这个缺失的数字。

唯一的解释是，GDPval 的数据和政策安全叙事产生了冲突。

这不仅仅是 OpenAI 的问题。当 AI 从“炫技”进入“落地”阶段，市场比任何时候都更需要一个统一的经济价值度量衡。没有它，企业不知道怎么为 GPT-5.6 的 API 定价和付费，政府不知道怎么制定劳动力政策，而每一个被 AI 冲击岗位的年轻人，只能从 Brynjolfsson 仪表盘上 3.8% 的就业收缩率中，反推出自己面对的未来。

OpenAI 可以公布 Sol 在编码、生物学和网络安全上的所有漂亮分数，但拒绝提及 GDPval 的那一刻，它已经回答了那个自己不想回答的问题。最刺眼的，从来不是那些糟糕的数字，而是那些被选择性遗忘的空白格。