GPT-5.6位置引发热议,Claude Opus4.8在DeepSWE Bench排名第二

2026.05.31 07:15
Elvis在X平台发文询问GPT-5.6在效率前沿的位置。CHOI回复称Claude Opus4.8在DeepSWE Bench获58%Pass@1,排名第二仅次于GPT-5.5,虽分数稍低但可靠高效。推文发布于2026年5月30日。

Elvis在X平台发文问道:“效率前沿!你认为GPT-5.6会落在哪个位置?”并附上了相关链接。

用户CHOI在这条推文下回复,提到Claude Opus 4.8已在DeepSWE Bench测试中亮相,取得58%的Pass@1成绩,总排名第二,仅次于GPT-5.5。这一表现延续了Claude系列的一贯趋势——尽管原始分数略逊一筹,但它仍是近期基准测试中最可靠且高效的编码模型之一。

这条推文发布于2026年5月30日晚8点39分,截至目前已有6062次浏览。

作品声明:内容由AI生成