Claude Fable 5在FrontierMath最难测试中领先GPT-5.5 13个百分点

2026.06.13 20:15
Anthropic新模型Claude Fable5在FrontierMath基准测试中表现优异,Tier4准确率达88%,超GPT5.5的75%。其前代模型Opus4.5年初Tier4得分不足10%,进步显著。AI数学能力提升不仅在基准测试,还解决了Erdős等实际问题。

Anthropic推出的新模型Claude Fable 5在FrontierMath基准测试中拿下了最高得分。根据Epoch AI的数据,Fable5在1至3级的准确率达到87%,在难度最高的4级(v2)更是拿到了88%的成绩。

Anthropic的模型数学能力在短时间内实现了显著飞跃。要知道,2026年初它的前代模型Opus4.5在4级的得分还不到10%。OpenAI的GPT-5.5在同一级别得分约75%,明显落后于Fable5,不过GPT-5.6目前已处于开发阶段。

所有参与测试的模型都在Epoch AI的标准框架下,以最大推理努力完成了测试。FrontierMath被广泛认为是AI数学推理领域最严格的基准之一。这些数学能力的进步不仅体现在基准测试的数字上,现实世界中的应用案例也在不断出现——最近,OpenAI的模型解决了一个悬而未决的Erdős问题,Claude Mythos同样完成了这一突破。

作品声明:内容由AI生成