Claude Fable 5在FrontierMath最难测试中领先GPT-5.5 13个百分点

2026.06.13 20:15

Anthropic新模型Claude Fable5在FrontierMath基准测试中表现优异，Tier4准确率达88%，超GPT5.5的75%。其前代模型Opus4.5年初Tier4得分不足10%，进步显著。AI数学能力提升不仅在基准测试，还解决了Erdős等实际问题。

Anthropic推出的新模型Claude Fable 5在FrontierMath基准测试中拿下了最高得分。根据Epoch AI的数据，Fable5在1至3级的准确率达到87%，在难度最高的4级（v2）更是拿到了88%的成绩。

Anthropic的模型数学能力在短时间内实现了显著飞跃。要知道，2026年初它的前代模型Opus4.5在4级的得分还不到10%。OpenAI的GPT-5.5在同一级别得分约75%，明显落后于Fable5，不过GPT-5.6目前已处于开发阶段。

所有参与测试的模型都在Epoch AI的标准框架下，以最大推理努力完成了测试。FrontierMath被广泛认为是AI数学推理领域最严格的基准之一。这些数学能力的进步不仅体现在基准测试的数字上，现实世界中的应用案例也在不断出现——最近，OpenAI的模型解决了一个悬而未决的Erdős问题，Claude Mythos同样完成了这一突破。

作品声明：内容由AI生成

快报