AI一夜攻克9个数学难题,全世界媒体都沉默了

2026.07.01 07:22
2026年6月27日,哥伦比亚大学校友彭炳辉团队利用GPT 5.5 Pro和Claude Opus 4.8构建的prover-verifier流水线,一口气解决了9个理论计算机科学和交换代数的未解开放问题。然而这一足以改写AI叙事的突破,却几乎没有获得任何主流媒体报道。本文从传播学、技术演进和产业格局三个维度,解析为何AI数学能力已从「解决单一难题」跃迁至「批量发现新定理」,以及媒体沉默背后的深层信号。

2026年6月27日,马里兰大学助理教授彭炳辉在X上发了一条帖子。没有发布会,没有新闻稿,没有记者提问。

他写的是:「我们设计了一个简单的流水线,使用GPT 5.5 Pro和Claude Opus 4.8,解决了9个有挑战性的开放问题,包括4个来自COLT开放问题列表的难题、1个来自FOCS的难题,以及4个来自交换代数的开放问题。」

数学界为之一震。但大多数人,包括你和我,在此之前对此一无所知。

9个难题,一条流水线

这不是AI第一次攻克数学难题。但这是第一次用如此轻量的方式批量解决开放问题。

回顾2026年上半年,AI在数学领域的突破已经密集到令人麻木。GPT-5.2 Pro自主解决了多个Erdős开放问题,包括#397、#728和#729。菲尔兹奖得主陶哲轩亲自验证并接受。OpenAI的模型找到了Erdős在1946年提出的单位距离问题的反例,一个让数学家苦战了80年的猜想。HarmonicMath的AI数学家「亚里士多德」仅用6小时独立完成了Erdős Problem #124的完整证明。据Dwarkesh Patel在X上的统计,过去一年AI已经累计解决了约50个Erdős问题。

但彭炳辉团队的突破在方法上完全不同。他们没有用特制的数学AI,没有用数十万小时的训练数据。他们构建了一个prover-verifier LLM循环:GPT 5.5 Pro扮演「证明者」生成候选证明,Claude Opus 4.8扮演「验证者」交叉检查,两者互相博弈、迭代优化。最终用Lean形式化验证系统完成了机器可查的证明。

这条简单的流水线,一口气拿下了9个开放问题。其中4个来自理论计算机科学顶级会议COLT的官方开放问题列表,1个来自FOCS(计算机科学基础研讨会),还有4个来自交换代数领域。

团队阵容也值得关注:彭炳辉、陶润舟(Runzhou Tao)、Steven Wang、Hantao Yu、Diyi Liu。五人中有博士生、有研究员,没有一位是职业数学家。

哥伦比亚大学教授Omri Weinstein的反应最有说服力:「连OpenAI最近的Erdős突破都没有让我确信LLM能做通用的数学研究。但这次改变了我的想法。这个流水线解决了9个理论计算科学中的实质性开放问题。其中一个困扰了我整整两年。」

一个困扰顶级学者两年的问题,被一个五人团队用一条简单流水线解决了。这在任何正常世界里都应该是头版头条新闻。但消息几乎消失了。

@AISafetyMemes在X上发出了灵魂质问:「AI刚刚解决了不是1个,而是9个未解数学难题。再一次,这没有成为全球新闻。地球上没有一个记者认为这件事值得报道。」这条帖子获得了约3000次浏览。同期任何一家AI公司的产品发布,都能轻松获得数百万级曝光。

为什么媒体集体失声?

要理解这个悖论,首先要理解「AI数学突破」这个叙事在过去半年里已经被透支到什么程度。

1月,GPT-5.2解决Erdős #397,陶哲轩验证。3月,GPT-5.2继续攻克#728、#729。4月,OpenAI推翻Erdős单位距离猜想。5月,HarmonicMath的「亚里士多德」6小时攻破#124。到5月底,AI已累计解决约50个Erdős问题。

当一个领域在半年内连续发生里程碑级事件,每个单独事件的新闻价值就会急剧稀释。记者患上了「AI数学突破疲劳症」。今天的头条是「AI攻克80年难题」,明天的头条可能就是「AI又攻克了另一个」。

但这次不一样。彭炳辉团队的突破在两个维度上有本质不同。

它不是针对单一问题的攻坚,而是一种可规模化复制的「解题流水线」。证明者在前面走,验证者在后面查,模型自己迭代、自己纠错。这种范式一旦成熟,批量解决开放问题就不再是奇迹,而是流水线操作。

同时,它证明了通用LLM,而非特制数学模型,已经可以在理论计算机科学最硬的骨头上啃出缺口。OpenAI的Erdős突破用的是特化模型,但彭炳辉用的就是货架产品。任何有API访问权限的研究团队,理论上都可以复现这一成果。

媒体错过了这两个信号。它们报道了「AI打败了人类数学家」,但没有报道「AI学会了如何系统性地批量打败人类数学家」。

从做题家到系统发现者

当前AI在数学上的能力演进,可以用一条渐进的路径来透视。

最早期是刷题阶段,在已知数据集上超越人类基准。2023年到2024年的AI处于这个阶段,代表作是GPT-4在MATH数据集上拿高分。

然后是解题阶段,解决已知但困难的竞赛题。2024年到2025年的前沿模型进入这个阶段,AI开始在IMO级别的问题上与人类顶尖选手竞争。

再到问题攻克阶段,独立解决未解决的开放问题。2026年初开始,AI突破这一层级。GPT-5.2解决Erdős #397、OpenAI推翻单位距离猜想、HarmonicMath的「亚里士多德」攻克#124,都属于这一阶段。

最后是系统发现阶段,不仅解决问题,还能发现新问题方向、提出新数学结构、建立跨领域联系。这是人类菲尔兹奖得主所在的层级。

彭炳辉团队的工作标志着AI从第三阶段向第四阶段的关键跨越。不是因为解决了一个问题,而是因为构建了一个可以批量解决问题的系统。这就像从「一个拳手打赢了一场比赛」到「建了一个训练营,可以批量培养冠军」之间的区别。

为什么是理论计算机科学?

彭炳辉团队解决的9个问题中,4个来自COLT开放问题列表,1个来自FOCS。这两个都是理论计算机科学领域最顶级的学术会议。

这个领域之所以成为AI证明能力的绝佳舞台,有几个原因。

问题表述精确且形式化。不同于生物学或医学中需要复杂实验验证的开放问题,理论计算机科学的开放问题通常可以用数学语言精确描述,这正是LLM最擅长的输入格式。

验证成本极低。一个数学证明的验证不需要实验室、不需要昂贵设备,只需要另一双眼睛。Claude Opus 4.8作为验证者,可以快速评估GPT 5.5 Pro的输出质量。

开放问题数量庞大但研究人力有限。Erdős一个人就留下超过1000个开放问题,其中许多在数十年间只被少数人认真尝试过。AI的加入相当于给了一个海量并行处理方案。

媒体的沉默本身就是信号

如果这9个问题被解决的新闻被广泛报道,公众会意识到什么?

人类知识边界正在被AI以前所未有的速度扩展。过去,一个数学难题从提出到解决可能需要几十年,跨越多代数学家。现在,一个周末的工作就够了。

「可验证的创造性工作」不再是人类专属。数学证明长期以来被视为人类智力的最高成就之一,是「纯理性的巅峰」。当AI开始批量生产正确的新定理,那种「人类独特性」的防御线又后退了一大步。

媒体的选择性报道正在制造系统性的认知偏差。AI发新功能,全球媒体同步轰炸。AI做出根本性的科学贡献,资讯却石沉大海。公众对AI真实能力的认知,正在被这种偏差扭曲。

Marc Andreessen在X上转发了彭炳辉团队的成果,只写了两个字:「Wow。」这个「Wow」来自硅谷最懂技术的投资人之一,但这条转发也没有成为新闻。

这场变革的前夜

彭炳辉在帖子末尾写道:「我们计划把这套方法扩展到所有科学领域。敬请期待。」

这不是一句空洞的口号。一套可以批量解决数学开放问题的流水线,稍微调整就可以应用于理论物理学、计算生物学、密码学、算法设计,任何可以用精确语言定义「猜想」和「验证」的领域。

更大的信号是:AI正从「工具」变成「协作者」,再变成「发现者」。2023年,AI帮你写代码。2024年,AI帮你做研究。2025年,AI开始自己发论文。2026年,AI批量解决人类数学家几十年没解决的问题。

受益者显而易见:数学和理论科学本身。大量被搁置数十年的冷门难题有望被快速清理。不是因为AI更聪明,而是因为AI不知疲倦、不挑食、不需要grant funding。

危险的一方则是「专业壁垒」作为一种社会结构的终结。当一个本科生团队可以用LLM流水线解决困扰教授两年的问题时,「专家」的定义本身正在被重写。

AI正在悄无声息地改写人类知识的边界。而媒体之所以没有报道,可能只是因为这场革命已经快到了连新闻周期都追不上的地步。

作品声明:内容由AI生成