6B干翻671B,Mistral的证明革命

2026.07.04 13:21
Mistral AI 发布 Leanstral 1.5,一款 119B 参数、仅 6B 活跃参数的 Apache-2.0 开源模型,在 miniF2F 上实现饱和、在 PutnamBench 上解决 587/672 道题(87.35%),以不到对手百分之一的参数规模碾压 DeepSeek-Prover-V2 和 Goedel-Prover-V2。文章从 test-time scaling、自动化 bug 发现流水线、行业竞争格局三个维度分析了形式化验证走向大众化的关键转折。

你要怎么证明一段代码没有安全漏洞?把这个问题抛给传统测试团队时,答案通常是“多写几个单元测试”。但单元测试只能证明“存在某条路径没出错”,无法证明“所有路径都不会出错”。在航空航天、自动驾驶、金融合约这些出一次错就可能致命的领域,形式化验证,用数学严格证明代码的正确性,才是终极答案。

而这条路,过去只有极少数人能走。

2026年6月30日,法国AI公司Mistral AI发布Leanstral 1.5,一款面向Lean 4证明助手的开源形式化证明模型。119B总参数、仅6B活跃参数、Apache-2.0许可证、免费API。这组数字组合在一起,传递了一个清晰信号:形式化证明不再是数学天才和顶级实验室的专属工具,它正在变成每个开发者都能调用的基础设施。

一组数据,重写赛道格局

Leanstral 1.5交出的成绩单,用一组数字就能说清楚。

在miniF2F基准测试上,Leanstral 1.5达到了“饱和”,所有题目全部通过,完成了这个形式化证明领域最权威基准之一的终极挑战。这意味着什么?Goedel-Prover-V2-32B,2025年8月发布时被称为“最强开源定理证明器”,在pass@32设置下得分为88.1%(自校正模式90.4%)。DeepSeek-Prover-V2-671B,一个671B参数的庞然大物,得分82.4%。Leanstral 1.5用6B活跃参数做到了100%,比第二名高出近10个百分点,参数规模仅为对手的不到百分之一。

在Putnam数学竞赛基准上,Leanstral 1.5证明了587道题(共672道),正确率87.35%。Putnam竞赛是美国和加拿大最顶尖的本科数学竞赛,题目以深度和难度著称。对比之下,Goedel-Prover-V2-32B在pass@192下解决了86道,DeepSeek-Prover-V2-671B在更宽松的pass@1024下也仅解决47道。Leanstral 1.5的成绩是次优方案的近7倍。

在FATE-H基准上,一个测试研究生级别抽象代数能力的基准,涉及群论、环论、模论,Leanstral 1.5取得87%的SOTA成绩。在更高难度的FATE-X(博士级别)上,也达到了34%。

但真正让这些数字变得有说服力的,不是分数本身,而是达成分数的方式。

把推理时间变成解题力

Mistral在Leanstral 1.5的公告中披露了一张关键图表:随着单次尝试的token预算从2.5万增加到400万,PutnamBench的解题数从44题一路爬升到587题,整整13倍的增长,曲线平滑得近乎理想。

这听起来简单,实际做起来极难。

大多数大模型在推理过程中遇到困难时,要么给出错误答案并“自信地”结束,要么陷入无限重复的循环。Leanstral 1.5展现了一种截然不同的行为模式:它不放弃。当一条证明路径走不通时,它会编辑文件、回退、换一条路、再试。在一个AVL树平衡证明的案例中,Leanstral 1.5连续推理了超过270万个token,跨越22次“压缩”(compactions),最终输出了一个完整的、经过验证的O(log n)复杂度证明。

这种“test-time scaling”能力,即推理时投入越多计算资源模型表现越好,是形式化证明领域最稀缺的属性。它把AI数学证明从一个“碰运气”的问题变成了一个投入产出比可预期的问题。Mistral表示,这是他们见过的形式化推理模型中最强的test-time scaling表现。

不止于数学竞赛,从理论到实战

Leanstral 1.5的野心不止于解决数学竞赛题。Mistral构建了一套自动化的bug发现流水线:Aeneas工具将Rust代码翻译为Lean,Leanstral 1.5从中推断代码的使用意图并生成正确性属性,然后尝试证明这些属性。如果四次尝试全部失败,它会反过来尝试证明反例也成立。如果反例也被证否,就确认了bug的存在。

在57个开源仓库的测试中,这套流水线标记了47个违反的属性,其中11个指向了真正的bug,5个是此前从未在GitHub上报告过的未知漏洞。

其中一个典型案例:在datrs/varinteger库的zigzag解码函数中,当输入值为Std.U64.MAX时,表达式(value + 1)会发生整数溢出。调试模式下程序崩溃,发布模式下数据静默损坏。这是传统的测试和模糊测试几乎不可能捕捉到的边缘情况,但Leanstral 1.5的流水线自动抓住了它。

这个案例揭示了形式化验证的真实价值:它知道你的代码在什么时候会“静默地出错”。这是所有测试方法都无法保证的。

为什么是现在

Leanstral 1.5的发布不是一个孤立事件。它发生在形式化证明领域正在经历一场基础设施革命的历史窗口期。

2026年5月,DeepMind发布了AlphaProof Nexus,声称自主解决了9个Erdős开放问题。同月,OpenAI的ChatGPT 5.5被披露内部用于发现了一个关于off-diagonal Ramsey数的Lean验证证明。《经济学人》专题报道了以Lean为核心的AI数学创业公司。Terence Tao,当代最著名的数学家之一,已经在自己的YouTube频道上定期直播用Lean做AI辅助证明。

Lean 4这个证明助手本身,正在从学术界的小众工具变成AI巨头们比拼推理能力的竞技场。截至2026年6月,它的mathlib库获得了Demailly开放科学奖,最新稳定版4.31.0于6月15日发布。Goedel-Prover、DeepSeek-Prover、AlphaProof、Leanstral。不到两年时间,形式化证明赛道已经挤满了顶级玩家。

但Leanstral 1.5选择的路线和其他人不一样。

它没有走“大模型加巨大的推理预算”的路。AlphaProof Nexus背后的计算成本仍然是谜。它走的是极致的效率。6B活跃参数,128个专家模块每token只激活4个,MoE架构的稀疏性让推理成本降到了其他方案的几十分之一。Apache-2.0许可证意味着任何团队都能下载权重,在自己的硬件上跑、在自己的代码库上配置、嵌入自己的CI/CD流水线。

Leanstral 1.5的哲学是:让所有人都能拥有“证明的丰盈”。Proof Abundance for All。

局限与未解之问

当然,Leanstral 1.5并非完美。

在FATE-X(博士级别抽象代数)上的34%说明,顶级的数学前沿问题仍然是它力所不能及的。57个开源仓库中发现5个此前未报告的bug,这个数量不算巨大。它目前主要擅长处理有明确正确性规格的问题,对于依赖人类直觉的模糊代码逻辑,适用性还有限。

另一个值得关注的点:Mistral并未在公告中提供Leanstral 1.5与上一代Leanstral(2026年3月发布)的直接对比数据。这意味着我们无法量化1.5比1.0进步了多少。部分行业观察者也注意到了这一点。

但瑕不掩瑜。问题的关键不在于Leanstral 1.5是否完美,而在于它是否把形式化验证推进到了可日常使用的临界点。从目前的证据来看,答案很可能是“是的”。

更远的远方

形式化验证正在经历从“手工奢侈品”到“自动化基础设施”的转变。Leanstral 1.5站在这个转变的拐点上,用一组让人无法忽视的数据向行业证明:形式化验证不再是顶会论文里的未来,而是今天就能用的工具。

当AI不仅能帮你写代码,还能证明你写的代码没有bug时,软件开发的质量下限会被整体抬升。而在航空、医疗、金融、自动驾驶这些每次出错都可能致命的领域,这意味着什么,不言而喻。

如果说2026年AI行业的主旋律是Agent化,那么Leanstral 1.5给出了一个更加深层的叙事:Agent要能做,还要能证明自己做得对。这或许才是可信AI的真正起点。

证明的丰盈时代,刚刚开始。

作品声明:内容由AI生成