RL训练的秘密：一个Transformer层就够了

一项最新研究在7个模型、3种RL算法上验证了一个反常识发现：RL post-training的大部分收益集中在一个Transformer层，单层训练即可匹配甚至超越全参数训练。该发现挑战了RL训练必须全参数更新的行业共识，也为大幅降低RL训练算力消耗打开了新路径。

2026年7月1日，一篇署名来自多位匿名研究者的论文出现在arXiv上。标题平淡得像例行技术报告，但这项研究的发现如果用一句话说清楚，足以让每个正在大规模跑RL训练的团队放下手里的工作。你用全部参数跑RL post-training，其中绝大部分性能提升，可能只来自Transformer堆叠里的某一个中间层。

这不是剪枝技巧，也不是LoRA那样的参数压缩。这是一个简单到匪夷所思的实验。冻结模型几乎所有层，只放开一个Transformer层做RL训练，然后看它和全参数训练的差距。结果呢？一个层，往往就够了。在某些设定下，它甚至比训练整网效果更好。

一场对默认假设的爆破

大规模语言模型的RL post-training，无论是DeepSeek-R1开启的RLVR路线，还是GRPO、PPO等算法在数学推理、代码生成和Agent任务上的广泛部署，长期以来都遵循一个默认假设：RL带来的改进均匀分布在网络的每一层中，所有参数都需要同等地参与适应。

这个假设如此理所当然，以至于几乎没人停下来追问：真的吗？

这篇论文的回答是：假的。

研究者设计了一个极简的诊断框架。对于一个有L个Transformer层的LLM，每次只训练其中一层，冻结其余L-1层以及嵌入层和语言模型头，用RL训练后测量该层的独立贡献。他们定义了一个名为layer contribution（层贡献度）的指标，即单一层独立训练所能恢复的收益占全参数RL训练总收益的比例。如果某层的贡献度达到1.00，意味着这一层独自训练就能复现全参数训练的完整收益。

然后他们在7个模型（横跨Qwen3和Qwen2.5两个模型家族）、3种RL算法（GRPO、GiGPO、Dr. GRPO）、以及数学推理、代码生成和Agent决策等多个任务域上，系统性重复了这个实验。

结果稳定性令人震惊。

在Qwen3-8B-Base（36层）上，全参数GRPO训练在数学推理任务上达到66.5%的平均准确率。而仅训练第16层、冻结所有其他层，准确率达到67.1%，层贡献度高达1.07，超越了全参数训练本身。第15层的贡献度也恰好为1.00，刚好持平。换言之，中间层的单层训练可以完全覆盖甚至反超全参数RL的收益。而第0层的贡献度为-0.51，意味着单独训练这一层反而会拖累模型性能。

更值得注意的是，如果训练贡献度最高的10个层（Only B10策略），准确率进一步攀升到69.1%，比全参数训练高出2.68个百分点。

这个模式在数学推理、代码生成和Agent任务之间保持高度一致，在GRPO、GiGPO、Dr. GRPO三种算法之间保持高度一致，在Qwen3-1.7B（28层）、Qwen3-4B（36层）、Qwen3-8B（36层）三个规模之间也保持高度一致。研究者通过Spearman相关性检验确认，不同设定下层排名的相关性具有统计显著性。

这不是一个边缘案例。这是对全参数更新是RL训练默认答案这一行业共识的直接挑战。

为什么中间层成了收益黑洞

理解这个发现的关键，在于理解Transformer模型中不同层的功能分化。大量前期研究已经表明，预训练语言模型在深度方向上表现出强烈的非均匀性：早期层主要捕获语法和表层特征，中间层承担最高层次的语义整合和推理加工，晚期层则更多地将高维表示映射到输出空间。

RL post-training的核心目标不是让模型学会更好的语法，也不是优化它的输出映射。RL信号本质上是在教模型什么样的推理路径能获得更高奖励，这个信号天然作用于高层语义推理能力，恰好处在中间层的主场范围内。

论文的实验数据有力地支撑了这一点。在Qwen3-8B-Base上，高贡献度层集中在第12层到第20层之间，峰值出现在第16层（贡献度1.07）和第15层（1.00）。而模型共有36层。早期层（第0-2层）贡献度极低，第0层甚至为负值；晚期层（第22-35层）的贡献度也明显下降。这个分布曲线是典型的中间凸起、两头塌陷形态。

Rohan Paul在解读这项工作时精准总结：RL训练与其说是全模型学习，不如说是一种层选择机制。

这个发现还有一个更深刻的推论。RL post-training对模型的修改，本质上不是全面重塑，而是奖励信号在反向传播中穿透整个网络，但真正学到新行为参数的只有中间层。其他层的参数变化更多是配合和陪衬。

被忽视的经济学问题

如果RL收益高度集中在中层，那现有的大规模RL训练范式在算力上存在巨大的浪费。

当前行业中，一个典型的大模型RL post-training流程需要在数十亿乃至千亿参数上同时执行前向和反向传播。以DeepSeek-R1为代表的RLVR路线，单次训练的算力消耗通常以千卡时计。如果模型大部分层在RL训练中的参数更新对最终收益几乎不产生实质性贡献，而核心收益完全可以由少数中层独立恢复，那这笔算力账单中的大部分，可以被视为无意中缴纳的认知税。

当然，现实世界的RL训练并非简单的参数叠加。批次归一化、注意力头之间的交互、跨层的残差连接等机制使得参数之间存在复杂的耦合关系。但这篇论文的价值恰恰在于以实验证明，即使存在这些耦合，大部分收益仍然可由单一中间层独立恢复。这意味着这些耦合关系的作用远没有之前想象的那么关键。

从工程角度看，这打开了一个极有吸引力的可能性：在RL post-training中只更新中间层，或者给中间层分配更大的学习率和更新步长。论文报告了一个简单但有效的layer-aware training strategy，优先训练高贡献层，在几乎所有测试设定上都优于标准全参数RL训练。这是一个不需要改变模型架构、不需要修改RL算法、只需要改变训练策略就能稳定获得增益的方案。

为什么隐藏了这么久

一个自然的问题：既然RL收益如此高度集中，行业这么多年为什么没发现？

答案可能是测量盲区。在典型的RL训练流程中，研究者观察的是整体reward曲线和下游benchmark分数。当模型整体奖励从58%提升到66%，每个人都默认这8个百分点的提升来自所有层的合力协作。没人追问哪个层贡献了多少，因为没人在搭训练流程时造一个单层独立测试的工具。

论文的layer contribution指标揭示了一个尴尬的事实：那些被默认认为也在做贡献的层，可能什么都没做。第0层的负贡献尤其意味深长。全参数训练时，优化器会让第0层勉强跟上全局梯度，冻结反而是更好的选择。

另一个原因是产业惯性。自BERT和GPT系列确立全参数微调范式以来，整个行业已经在这条技术路线上迭代了太多年。改变意味着不确定性，而大规模部署最怕不确定性。但如果说有什么能撬动这种惯性，那就是算力账单。当你可以省掉一半以上的RL训练算力而不损失性能，甚至提升性能时，经济账会自己说话。

局限与未尽问题

这项研究并非没有局限。论文主要基于Qwen系列模型（Qwen3和Qwen2.5）进行实验，虽然两个代际上验证了模式的一致性，但这一发现是否泛化到其他架构，比如LLaMA、Mistral、DeepSeek，仍有待验证。RL算法的覆盖范围也限于GRPO及其变体，PPO、RLOO等其他主流算法的表现同样是开放问题。

此外，论文中单层超越全参数的优势在Agent决策任务上不如数学和代码任务显著。这可能是因为Agent任务需要模型调用更分散的推理技能，而这些技能分布在不同层中。如果是这样，那层选择策略对不同任务可能需要不同的适配方案。

但这些局限不妨碍核心结论的说服力。RL收益在Transformer中的分布是非均匀的，且非均匀程度远超行业此前的认知。

这意味着什么

这篇论文的意义不在于提供了一个可以直接上线生产的只练一层方案，虽然论文给出的layer-aware策略确实在benchmark上胜过了全参数训练。它的更大贡献在于，像一台光谱仪一样揭示了RL post-training的层内结构，让一个长期被黑箱化的问题现出原形。

可以预见，这篇论文至少会催生两个方向的后续工作。第一，layer contribution会迅速成为一种标准诊断工具，像loss曲线和梯度范数一样被纳入RL训练的监控面板。第二，层感知训练策略会成为RL效率优化的新方向，无论是通过只更新高贡献层的选择性训练，还是通过为不同层分配差异化学习率。

更深远的影响在认知层面。它提醒整个行业：今天大模型领域许多常识，比如全参数更新最好、越多参数参与训练越好，可能只是在测量手段不足的情况下形成的假设。当更好的测量工具出现时，这些假设可能站不住脚。

从DeepSeek-R1以RLVR路线打开推理模型突破口，到如今发现RL收益集中在一层，AI行业正在经历一个有趣的认知收敛：越大的模型，越不需要被整体修改。变化是局部的，选择是结构性的。

你花了一夜跑RL，真正学会新东西的，可能只有中间那一层。剩下的，都在陪你加班。