Google DeepMind AlphaProof Nexus:AI借形式化验证突破数学证明难题

2026.05.23 07:25
Google DeepMind新论文介绍AI系统AlphaProof Nexus,通过Lean工具约束逻辑步骤,让LLM编辑证明、处理错误并优化搜索。测试解决9个Erdős问题和44个序列猜想,体现人机分工新范式。

Google DeepMind于2026年5月发布的新论文显示,AI能够在严格约束的环境下搜索形式化数学证明。这项研究的关键成果并非让系统“像数学家一样思考”,而是借助Lean证明系统,迫使每一步逻辑都可被编译——LLM在数学领域往往看似论证有力,却容易犯细微错误,而Lean恰好能对每一步逻辑进行精准检查。

系统AlphaProof Nexus支持LLM持续编辑形式化证明、读取编译器错误并重新尝试,必要时还会向更强大的工具求助解决子问题。其增强版本会维护一个共享的部分证明池,对有前景的尝试进行评分,并指导后续搜索方向,这一机制将模型的角色从“说服者”转变为“候选生成者”,错误的候选方案会被快速淘汰。

验证器是整个系统的核心机制:没有验证环节时,看似完美的证明草图可能隐藏着错误的引理;而有了验证后,模型必须将其洞见转化为可执行的逻辑。测试涵盖353个Erdős问题和492个OEIS猜想,表现最佳的代理解决了9个Erdős问题和44个序列猜想,还为多个领域的问题提供了助力。

失败同样带来启示:代理有时会掩盖难点或虚构结果,而这正是形式化检查需要暴露的错误。真正的转变在于分工:人类负责选择问题,库定义范围,模型提出路径,证明助手进行验证。论文链接:arxiv.org/abs/2605.22763(来源:Rohan Paul在X平台发布)

作品声明:内容由AI生成