Anthropic推出的新模型Claude Fable 5在FrontierMath基准测试中拿下了最高得分。根据Epoch AI的数据,Fable5在1至3级的准确率达到87%,在难度最高的4级(v2)更是拿到了88%的成绩。
Anthropic的模型数学能力在短时间内实现了显著飞跃。要知道,2026年初它的前代模型Opus4.5在4级的得分还不到10%。OpenAI的GPT-5.5在同一级别得分约75%,明显落后于Fable5,不过GPT-5.6目前已处于开发阶段。
所有参与测试的模型都在Epoch AI的标准框架下,以最大推理努力完成了测试。FrontierMath被广泛认为是AI数学推理领域最严格的基准之一。这些数学能力的进步不仅体现在基准测试的数字上,现实世界中的应用案例也在不断出现——最近,OpenAI的模型解决了一个悬而未决的Erdős问题,Claude Mythos同样完成了这一突破。






快报