Anthropic推出的Claude Fable 5今日在人工智能分析指数中登顶,得分为64.9分,领先最接近的非Anthropic模型GPT-5.5近5分——Anthropic旗下模型更包揽了该指数前两名。
Claude Fable 5基于Claude Mythos 5模型打造,针对网络安全、生物、化学及蒸馏领域的潜在有害查询新增了安全护栏。该模型引入了全新的“fallback”机制,能将标记为安全风险的消息路由至Claude Opus 4.8;Anthropic透露,平均会话中的fallback发生率不到5%,但在指数评估中,约8%的任务(以GPQA、AA-Omniscience和人类终极考试等科学类问题为主)触发了这一机制。
Claude Fable 5在10项基准测试中拿下5项第一,其中AA-Omniscience知识与幻觉基准得分达40分,比此前的领先者Gemini 3.1 Pro Preview高出7分——这一优势主要来自更高的回答准确性。值得注意的是,开放权重模型的AA-Omniscience准确性与模型大小存在强相关性,这暗示Fable 5可能比Anthropic此前发布的公开模型规模更大。
在指数涵盖的三项代理能力评估中(包括GDPval-AA真实工作任务、Terminal-Bench Hard代理编码、Tau2-bench Telecom客服工具使用),Claude Fable 5均表现出前沿水平。其中GDPval-AA Elo得分为1932,较此前的领先者Claude Opus4.8有明显提升,这进一步巩固了Anthropic在代理能力领域的领先地位。
Claude Fable 5在人类终极考试(HLE)中获得53%的得分,比第二名Claude Opus4.8(max)高出7分以上;不过,有9%的HLE任务触发了安全护栏,并fallback至Opus4.8。值得一提的是,包含fallback机制的HLE运行成本约为2200美元,是所有参与评估模型中最高的。
模型细节上,Claude Fable 5保留了与Opus4.8一致的100万token上下文窗口;定价方面,输入/输出每百万token分别为10美元和50美元,是Opus4.8的两倍;缓存写入/读取价格则为每百万token12.5美元和1美元。在6月22日(具体年份待确认)之前,该模型包含在Pro、Max、Team及按席位计费的企业计划中,使用时消耗的Opus用量为普通模型的两倍;6月23日(具体年份待确认)起,用户需使用credits支付,Anthropic表示将在产能充足后恢复订阅访问权限。






快报