Elvis在X平台发文问道:“效率前沿!你认为GPT-5.6会落在哪个位置?”并附上了相关链接。
用户CHOI在这条推文下回复,提到Claude Opus 4.8已在DeepSWE Bench测试中亮相,取得58%的Pass@1成绩,总排名第二,仅次于GPT-5.5。这一表现延续了Claude系列的一贯趋势——尽管原始分数略逊一筹,但它仍是近期基准测试中最可靠且高效的编码模型之一。
这条推文发布于2026年5月30日晚8点39分,截至目前已有6062次浏览。
Elvis在X平台发文问道:“效率前沿!你认为GPT-5.6会落在哪个位置?”并附上了相关链接。
用户CHOI在这条推文下回复,提到Claude Opus 4.8已在DeepSWE Bench测试中亮相,取得58%的Pass@1成绩,总排名第二,仅次于GPT-5.5。这一表现延续了Claude系列的一贯趋势——尽管原始分数略逊一筹,但它仍是近期基准测试中最可靠且高效的编码模型之一。
这条推文发布于2026年5月30日晚8点39分,截至目前已有6062次浏览。
快报