Python刷榜第一,换门语言就崩盘:Multi-LCB撕开LLM代码能力的集体幻觉

2026.06.19 20:18
ICLR 2026发表的Multi-LCB将LiveCodeBench从单语言扩展至12种编程语言,评测24个LLM后发现:Python平均Pass@1为48.2%,而Scala不到29%。研究团队揭示了Python过拟合、语言专属污染信号和系统性跨语言性能差距,证明Python-only基准测试正在严重高估LLM的真实编程能力。

当一家AI公司放出“代码能力超越GPT-4”的战报时,你看到的数字几乎毫无例外来自Python。但一个残酷事实正在被揭开:绝大多数LLM的“编程能力”——本质上只是“Python编程能力”。

ICLR 2026上发表的《Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages》给出了第一份系统性答案。

一套考卷,十二种语言

LiveCodeBench(LCB)近年已成为评估LLM代码能力的事实标准。它从LeetCode、AtCoder、CodeForces持续收集新题,按发布日期过滤,有效规避数据污染。头部模型得分已突破80%甚至90%——O4-Mini(High)达80.2%,Qwen3.7 Max达91.6%。然而LCB有一个致命盲区:它只支持Python。

由Maria Ivanova等八位研究者开发的Multi-LCB,将LCB从单语言扩展到12种语言——Python、Java、C++、C#、Ruby、PHP、Go、Rust、Kotlin、JavaScript、TypeScript和Scala。团队将LCB任务转换为统一STDIN/STDOUT评测管线,评估了24个公开LLM,覆盖7B到685B参数规模。论文已被ICLR 2026接收。

结果揭示了Python基准测试背后隐藏的巨大裂缝。

48.2% vs 29%:系统性差距

在Dataset v6(2025年2至5月)子集上,Pass@1(t=0.2)呈现出清晰的难度梯度:Python以0.482的均值领跑;Java和C++约0.44紧随其后;C#、Ruby、PHP、Go、Rust、Kotlin、JavaScript、TypeScript形成中部集团,均值0.33至0.39;Scala孤悬队尾,不到0.29。

![Multi-LCB Pass@1分布](output/multi_lcb_pass1_distribution.png)

这意味着一个模型在Python上每100题做对48道,换到Scala只剩29道——性能接近腰斩,而这是在同一组算法题目上的表现。

Python过拟合:语料红利制造的假象

研究团队明确提出“Python overfitting”。模型在Python上的表现系统性高于其他语言,差距无法用“理解了算法”解释。原因在于互联网代码语料中Python占比惊人——GitHub仓库常年前三,所有AI训练数据集几乎都以Python代码为主。模型积累了海量Python模式、标准库用法和解题套路,评测切换到另一种语言时,这些“语料红利”瞬间消失。

多语言环境才是真正的照妖镜:一个模型Python刷90分、Go只拿60分——它究竟是“会编程”还是“擅长Python”?答案不言自明。

语言专属污染:记忆效应的不均匀分布

通过post-cutoff time slicing分析,团队发现部分模型在训练截止日期后发布的新题上性能骤降——暴露了对旧题的记忆效应。关键点是:记忆衰减速度在不同语言间并不均匀。模型在Python上记忆衰减最慢(因为题解在预训练数据中最丰富),在Scala、Rust上衰减最快。这意味着Python高分相当一部分来自“见过类似解法”而非“真正理解算法”。

跨越50%门槛:只有少数做到了

在所有24个模型中,跨语言平均Pass@1突破50%的只有GPT-OSS-120B*(Medium)、Qwen3-235B-A22B-Thinking-2507*和DeepSeek-R1-0528*等少数推理增强型模型,且远未饱和。大多数模型低于40%。论文直言:"Strong Python ability is not necessarily a reliable proxy for true cross-lingual code generation competence."

三个必须正视的信号

信号一:Python-only基准正在系统性高估LLM的编程能力。技术选型决策者如果团队主力语言是Go或TypeScript,Python评测高分几乎无参考价值。

信号二:跨语言评测正在成为区分“真推理”和“语料匹配”的关键试金石。在Python表现优异但在其他语言大幅滑坡的模型,更多是看过解法而非真正具备泛化能力。

信号三:Multi-LCB提供一份清晰的“路障地图”。Scala、Rust和Kotlin是当前模型最薄弱的语言方向,是模型开发团队必须重点突破的领域。企业选型时应优先考察模型在主力语言上的真实表现。

诚实的局限

Multi-LCB并非没有争议。OpenReview审稿人指出:所有任务从Python转换而来,部分语言的语法特性差异(如Unicode长度计算、负数取模)可能导致评测不公平。团队坦承了这一点,但坚持衡量“同一问题用不同语言解决”的核心能力。更重要的是Multi-LCB完全兼容LCB数据格式,未来可持续追踪新题。

当行业还在用Python成绩单丈量编程能力时,Multi-LCB撕开的不仅仅是一张榜单——它戳破了一个集体幻觉。真正的代码智能,不是在一种语言里做题,而是在十二种语言里生存。

作品声明:内容由AI生成