Python刷榜第一，换门语言就崩盘：Multi-LCB撕开LLM代码能力的集体幻觉

ICLR 2026发表的Multi-LCB将LiveCodeBench从单语言扩展至12种编程语言，评测24个LLM后发现：Python平均Pass@1为48.2%，而Scala不到29%。研究团队揭示了Python过拟合、语言专属污染信号和系统性跨语言性能差距，证明Python-only基准测试正在严重高估LLM的真实编程能力。

当一家AI公司放出“代码能力超越GPT-4”的战报时，你看到的数字几乎毫无例外来自Python。但一个残酷事实正在被揭开：绝大多数LLM的“编程能力”——本质上只是“Python编程能力”。

ICLR 2026上发表的《Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages》给出了第一份系统性答案。

一套考卷，十二种语言

LiveCodeBench（LCB）近年已成为评估LLM代码能力的事实标准。它从LeetCode、AtCoder、CodeForces持续收集新题，按发布日期过滤，有效规避数据污染。头部模型得分已突破80%甚至90%——O4-Mini(High)达80.2%，Qwen3.7 Max达91.6%。然而LCB有一个致命盲区：它只支持Python。

由Maria Ivanova等八位研究者开发的Multi-LCB，将LCB从单语言扩展到12种语言——Python、Java、C++、C#、Ruby、PHP、Go、Rust、Kotlin、JavaScript、TypeScript和Scala。团队将LCB任务转换为统一STDIN/STDOUT评测管线，评估了24个公开LLM，覆盖7B到685B参数规模。论文已被ICLR 2026接收。

结果揭示了Python基准测试背后隐藏的巨大裂缝。

48.2% vs 29%：系统性差距

在Dataset v6（2025年2至5月）子集上，Pass@1（t=0.2）呈现出清晰的难度梯度：Python以0.482的均值领跑；Java和C++约0.44紧随其后；C#、Ruby、PHP、Go、Rust、Kotlin、JavaScript、TypeScript形成中部集团，均值0.33至0.39；Scala孤悬队尾，不到0.29。

![Multi-LCB Pass@1分布](output/multi_lcb_pass1_distribution.png)

这意味着一个模型在Python上每100题做对48道，换到Scala只剩29道——性能接近腰斩，而这是在同一组算法题目上的表现。

Python过拟合：语料红利制造的假象

研究团队明确提出“Python overfitting”。模型在Python上的表现系统性高于其他语言，差距无法用“理解了算法”解释。原因在于互联网代码语料中Python占比惊人——GitHub仓库常年前三，所有AI训练数据集几乎都以Python代码为主。模型积累了海量Python模式、标准库用法和解题套路，评测切换到另一种语言时，这些“语料红利”瞬间消失。

多语言环境才是真正的照妖镜：一个模型Python刷90分、Go只拿60分——它究竟是“会编程”还是“擅长Python”？答案不言自明。

语言专属污染：记忆效应的不均匀分布

通过post-cutoff time slicing分析，团队发现部分模型在训练截止日期后发布的新题上性能骤降——暴露了对旧题的记忆效应。关键点是：记忆衰减速度在不同语言间并不均匀。模型在Python上记忆衰减最慢（因为题解在预训练数据中最丰富），在Scala、Rust上衰减最快。这意味着Python高分相当一部分来自“见过类似解法”而非“真正理解算法”。

跨越50%门槛：只有少数做到了

在所有24个模型中，跨语言平均Pass@1突破50%的只有GPT-OSS-120B*(Medium)、Qwen3-235B-A22B-Thinking-2507*和DeepSeek-R1-0528*等少数推理增强型模型，且远未饱和。大多数模型低于40%。论文直言："Strong Python ability is not necessarily a reliable proxy for true cross-lingual code generation competence."

三个必须正视的信号

信号一：Python-only基准正在系统性高估LLM的编程能力。技术选型决策者如果团队主力语言是Go或TypeScript，Python评测高分几乎无参考价值。

信号二：跨语言评测正在成为区分“真推理”和“语料匹配”的关键试金石。在Python表现优异但在其他语言大幅滑坡的模型，更多是看过解法而非真正具备泛化能力。

信号三：Multi-LCB提供一份清晰的“路障地图”。Scala、Rust和Kotlin是当前模型最薄弱的语言方向，是模型开发团队必须重点突破的领域。企业选型时应优先考察模型在主力语言上的真实表现。

诚实的局限

Multi-LCB并非没有争议。OpenReview审稿人指出：所有任务从Python转换而来，部分语言的语法特性差异（如Unicode长度计算、负数取模）可能导致评测不公平。团队坦承了这一点，但坚持衡量“同一问题用不同语言解决”的核心能力。更重要的是Multi-LCB完全兼容LCB数据格式，未来可持续追踪新题。

当行业还在用Python成绩单丈量编程能力时，Multi-LCB撕开的不仅仅是一张榜单——它戳破了一个集体幻觉。真正的代码智能，不是在一种语言里做题，而是在十二种语言里生存。