AI一夜攻克9个数学难题，全世界媒体都沉默了

2026年6月27日，哥伦比亚大学校友彭炳辉团队利用GPT 5.5 Pro和Claude Opus 4.8构建的prover-verifier流水线，一口气解决了9个理论计算机科学和交换代数的未解开放问题。然而这一足以改写AI叙事的突破，却几乎没有获得任何主流媒体报道。本文从传播学、技术演进和产业格局三个维度，解析为何AI数学能力已从「解决单一难题」跃迁至「批量发现新定理」，以及媒体沉默背后的深层信号。

2026年6月27日，马里兰大学助理教授彭炳辉在X上发了一条帖子。没有发布会，没有新闻稿，没有记者提问。

他写的是：「我们设计了一个简单的流水线，使用GPT 5.5 Pro和Claude Opus 4.8，解决了9个有挑战性的开放问题，包括4个来自COLT开放问题列表的难题、1个来自FOCS的难题，以及4个来自交换代数的开放问题。」

数学界为之一震。但大多数人，包括你和我，在此之前对此一无所知。

9个难题，一条流水线

这不是AI第一次攻克数学难题。但这是第一次用如此轻量的方式批量解决开放问题。

回顾2026年上半年，AI在数学领域的突破已经密集到令人麻木。GPT-5.2 Pro自主解决了多个Erdős开放问题，包括#397、#728和#729。菲尔兹奖得主陶哲轩亲自验证并接受。OpenAI的模型找到了Erdős在1946年提出的单位距离问题的反例，一个让数学家苦战了80年的猜想。HarmonicMath的AI数学家「亚里士多德」仅用6小时独立完成了Erdős Problem #124的完整证明。据Dwarkesh Patel在X上的统计，过去一年AI已经累计解决了约50个Erdős问题。

但彭炳辉团队的突破在方法上完全不同。他们没有用特制的数学AI，没有用数十万小时的训练数据。他们构建了一个prover-verifier LLM循环：GPT 5.5 Pro扮演「证明者」生成候选证明，Claude Opus 4.8扮演「验证者」交叉检查，两者互相博弈、迭代优化。最终用Lean形式化验证系统完成了机器可查的证明。

这条简单的流水线，一口气拿下了9个开放问题。其中4个来自理论计算机科学顶级会议COLT的官方开放问题列表，1个来自FOCS（计算机科学基础研讨会），还有4个来自交换代数领域。

团队阵容也值得关注：彭炳辉、陶润舟（Runzhou Tao）、Steven Wang、Hantao Yu、Diyi Liu。五人中有博士生、有研究员，没有一位是职业数学家。

哥伦比亚大学教授Omri Weinstein的反应最有说服力：「连OpenAI最近的Erdős突破都没有让我确信LLM能做通用的数学研究。但这次改变了我的想法。这个流水线解决了9个理论计算科学中的实质性开放问题。其中一个困扰了我整整两年。」

一个困扰顶级学者两年的问题，被一个五人团队用一条简单流水线解决了。这在任何正常世界里都应该是头版头条新闻。但消息几乎消失了。

@AISafetyMemes在X上发出了灵魂质问：「AI刚刚解决了不是1个，而是9个未解数学难题。再一次，这没有成为全球新闻。地球上没有一个记者认为这件事值得报道。」这条帖子获得了约3000次浏览。同期任何一家AI公司的产品发布，都能轻松获得数百万级曝光。

为什么媒体集体失声？

要理解这个悖论，首先要理解「AI数学突破」这个叙事在过去半年里已经被透支到什么程度。

1月，GPT-5.2解决Erdős #397，陶哲轩验证。3月，GPT-5.2继续攻克#728、#729。4月，OpenAI推翻Erdős单位距离猜想。5月，HarmonicMath的「亚里士多德」6小时攻破#124。到5月底，AI已累计解决约50个Erdős问题。

当一个领域在半年内连续发生里程碑级事件，每个单独事件的新闻价值就会急剧稀释。记者患上了「AI数学突破疲劳症」。今天的头条是「AI攻克80年难题」，明天的头条可能就是「AI又攻克了另一个」。

但这次不一样。彭炳辉团队的突破在两个维度上有本质不同。

它不是针对单一问题的攻坚，而是一种可规模化复制的「解题流水线」。证明者在前面走，验证者在后面查，模型自己迭代、自己纠错。这种范式一旦成熟，批量解决开放问题就不再是奇迹，而是流水线操作。

同时，它证明了通用LLM，而非特制数学模型，已经可以在理论计算机科学最硬的骨头上啃出缺口。OpenAI的Erdős突破用的是特化模型，但彭炳辉用的就是货架产品。任何有API访问权限的研究团队，理论上都可以复现这一成果。

媒体错过了这两个信号。它们报道了「AI打败了人类数学家」，但没有报道「AI学会了如何系统性地批量打败人类数学家」。

从做题家到系统发现者

当前AI在数学上的能力演进，可以用一条渐进的路径来透视。

最早期是刷题阶段，在已知数据集上超越人类基准。2023年到2024年的AI处于这个阶段，代表作是GPT-4在MATH数据集上拿高分。

然后是解题阶段，解决已知但困难的竞赛题。2024年到2025年的前沿模型进入这个阶段，AI开始在IMO级别的问题上与人类顶尖选手竞争。

再到问题攻克阶段，独立解决未解决的开放问题。2026年初开始，AI突破这一层级。GPT-5.2解决Erdős #397、OpenAI推翻单位距离猜想、HarmonicMath的「亚里士多德」攻克#124，都属于这一阶段。

最后是系统发现阶段，不仅解决问题，还能发现新问题方向、提出新数学结构、建立跨领域联系。这是人类菲尔兹奖得主所在的层级。

彭炳辉团队的工作标志着AI从第三阶段向第四阶段的关键跨越。不是因为解决了一个问题，而是因为构建了一个可以批量解决问题的系统。这就像从「一个拳手打赢了一场比赛」到「建了一个训练营，可以批量培养冠军」之间的区别。

为什么是理论计算机科学？

彭炳辉团队解决的9个问题中，4个来自COLT开放问题列表，1个来自FOCS。这两个都是理论计算机科学领域最顶级的学术会议。

这个领域之所以成为AI证明能力的绝佳舞台，有几个原因。

问题表述精确且形式化。不同于生物学或医学中需要复杂实验验证的开放问题，理论计算机科学的开放问题通常可以用数学语言精确描述，这正是LLM最擅长的输入格式。

验证成本极低。一个数学证明的验证不需要实验室、不需要昂贵设备，只需要另一双眼睛。Claude Opus 4.8作为验证者，可以快速评估GPT 5.5 Pro的输出质量。

开放问题数量庞大但研究人力有限。Erdős一个人就留下超过1000个开放问题，其中许多在数十年间只被少数人认真尝试过。AI的加入相当于给了一个海量并行处理方案。

媒体的沉默本身就是信号

如果这9个问题被解决的新闻被广泛报道，公众会意识到什么？

人类知识边界正在被AI以前所未有的速度扩展。过去，一个数学难题从提出到解决可能需要几十年，跨越多代数学家。现在，一个周末的工作就够了。

「可验证的创造性工作」不再是人类专属。数学证明长期以来被视为人类智力的最高成就之一，是「纯理性的巅峰」。当AI开始批量生产正确的新定理，那种「人类独特性」的防御线又后退了一大步。

媒体的选择性报道正在制造系统性的认知偏差。AI发新功能，全球媒体同步轰炸。AI做出根本性的科学贡献，资讯却石沉大海。公众对AI真实能力的认知，正在被这种偏差扭曲。

Marc Andreessen在X上转发了彭炳辉团队的成果，只写了两个字：「Wow。」这个「Wow」来自硅谷最懂技术的投资人之一，但这条转发也没有成为新闻。

这场变革的前夜

彭炳辉在帖子末尾写道：「我们计划把这套方法扩展到所有科学领域。敬请期待。」

这不是一句空洞的口号。一套可以批量解决数学开放问题的流水线，稍微调整就可以应用于理论物理学、计算生物学、密码学、算法设计，任何可以用精确语言定义「猜想」和「验证」的领域。

更大的信号是：AI正从「工具」变成「协作者」，再变成「发现者」。2023年，AI帮你写代码。2024年，AI帮你做研究。2025年，AI开始自己发论文。2026年，AI批量解决人类数学家几十年没解决的问题。

受益者显而易见：数学和理论科学本身。大量被搁置数十年的冷门难题有望被快速清理。不是因为AI更聪明，而是因为AI不知疲倦、不挑食、不需要grant funding。

危险的一方则是「专业壁垒」作为一种社会结构的终结。当一个本科生团队可以用LLM流水线解决困扰教授两年的问题时，「专家」的定义本身正在被重写。

AI正在悄无声息地改写人类知识的边界。而媒体之所以没有报道，可能只是因为这场革命已经快到了连新闻周期都追不上的地步。