从"自我未来"偷师，10%步数反超RLVR：扩散大模型找到自己的进化法则

2026年6月，d-OPSD论文首次将On-Policy Self-Distillation引入扩散大语言模型（dLLM），通过"后缀条件"和"步级监督"两项创新，用RLVR仅约10%的优化步数在所有推理基准上实现反超。这篇文章分析d-OPSD如何利用扩散模型独有的p(前缀|后缀)能力让模型从"自我未来经验"中学习，并讨论这一训练范式转换对扩散LLM竞争格局的深远影响。

425步。

这不是某个模型的推理延迟，也不是某个基准测试的分数。这是d-OPSD在GSM8K数学推理任务上，超越当前最强RLVR方法所需的全部优化步数。作为对比，被它超过的diffu-GRPO，用了7700步。

18倍的效率差。但故事远不止效率。

2026年6月16日，一篇题为《Learning from the Self-future: On-policy Self-distillation for dLLMs》的论文悄然出现在arXiv上。这篇论文的核心主张可以用一句话概括：扩散大语言模型（dLLM）不需要外部老师，也不需要强化学习奖励函数——它只需要学会向"未来的自己"学习。

在AI行业仍在为自回归模型的Scaling Law争吵不休的当口，一个更根本的训练范式转换正在扩散模型的赛道上悄然发生。

两条时间线，在同一篇论文里交汇

先看两组时间线。

第一组，扩散LLM的崛起。2024年底，LLaDA以8B参数首次在预训练+SFT范式下证明扩散模型可以在语言建模上与自回归模型正面竞争，打破了"LLM=自回归"的行业默认假设。2025年8月，港大与华为诺亚方舟实验室联合发布Dream 7B，在数学、编程和规划任务上达到同等规模自回归模型水平。2025年12月，LLaDA 2.0将扩散模型推进到100B参数规模——通过从自回归模型进行三阶段渐进转换而非从零训练，为扩散模型的规模化提供了一条务实路径。2026年2月，Inception Labs发布Mercury 2，在单张NVIDIA Blackwell GPU上跑到1009 tokens/秒的推理速度——这是自回归模型至今难以企及的吞吐量。同月，NVIDIA推出Fast-dLLM，通过KV Cache和并行解码将扩散模型推理吞吐量提升11倍。

第二组，On-Policy Self-Distillation（OPSD）的裂变。2026年1月，Zhao等人的Self-Distilled Reasoner被ICML 2026接收。这篇论文提出一个激进的主张：一个足够强的大模型可以同时扮演老师和学生——老师看到标准答案（特权信息），学生只看问题，训练目标是最小化两者在自己生成轨迹上的逐token差异。结果是，OPSD在数学推理上的token效率达到GRPO——也就是DeepSeek-R1所用的强化学习方法——的4到8倍。此后，SDPO（Hübotter et al.）、SDFT（Shenfeld et al.）等工作进一步将自我蒸馏扩展到持续学习和策略优化领域。

两条时间线在2026年6月交汇。交汇点就是d-OPSD。

为什么这个交汇如此重要？因为在此之前，OPSD家族的全部工作——从Self-Distilled Reasoner到SDPO再到SDFT——都建立在同一个假设之上：模型是自回归的。自回归模型只能从左到右生成，所以"老师特权信息"的唯一注入方式就是前缀条件（prefix conditioning），监督信号也只能是逐token的散度。

但扩散模型不是自回归的。它不走左到右，它走的是全序列同时去噪。用前缀条件训练扩散模型，等于用螺丝刀钉钉子——工具歪了，结果不可能对。

d-OPSD的作者们抓住了这个根本矛盾，然后做了一件在笔者看来堪称优雅的事：他们没有试图把扩散模型强行塞进自回归的框架，而是反过来，让训练框架去适配扩散模型的生成本性。

颠覆一：扔掉"前缀特权"，捡起"自我未来"

理解d-OPSD的第一个创新，需要先理解一个扩散模型独有的能力。

自回归模型只有一个方向：从前到后。给定前缀"今天天气真"，它只能往后续写"好"或"差"或"热"。这是p(后缀|前缀)。

扩散模型不一样。因为它的生成过程是全局去噪而非逐token续写，它在理论上可以同时利用所有方向的条件信息。也就是说，它不仅能做p(后缀|前缀)，还能做p(前缀|后缀)——给定句子的后半段，反推前半段。

这个能力在自回归模型的世界里不存在，因为自回归的因果注意力掩码从数学上禁止了"从后往前看"的可能性。

d-OPSD的作者敏锐地发现，这不仅是扩散模型的一个技术特性，更是重新定义"自我蒸馏"的钥匙。

在传统的OPSD中，教师模型的条件是特权信息作为前缀。以数学题为例：问题+标准答案在前，模型在这个条件下生成推理过程。学生模型只看问题，被训练去模仿教师的分布。但因为前缀已经包含了答案，教师实际上是在"知道结局"的情况下生成推理步骤——这和真实推理场景存在根本性的分布偏移。

d-OPSD的做法是：让模型先生成答案（不带任何特权信息），然后把模型自己生成的答案作为后缀条件，让模型在这个条件下重新生成推理过程。换句话说，教师的特权信息不再是"外部给定的标准答案"，而是"模型自己写出来的答案"。

这被论文作者称为"从自我未来经验学习"（learning from self future-experience）。

它妙在哪？妙在三点。

第一，消除了分布偏移。因为后缀条件的内容来自模型自己的生成，训练分布和推理分布是一致的——这正是"On-Policy"的核心含义。

第二，训练了一种宝贵的元能力：给定一个结论，反推一条合理的推理路径。这本质上是在训练模型的"逆向推理"——而逆向推理正是人类在解决复杂问题时的核心策略。

第三，解锁了更强的学习信号。在传统OPSD中，教师看到标准答案后生成的推理过程，和学生实际犯错的原因之间往往存在鸿沟——教师"知道答案"后写出的推理路径，未必能覆盖学生"不知道答案"时犯错的路径。而d-OPSD的教师条件来自学生自己的生成，教师看到的是"学生实际写出来的（可能错误的）答案"，然后反推推理链——这让监督信号天然聚焦在学生实际犯错的薄弱环节上。

颠覆二：从"逐token盯"到"按步骤教"

d-OPSD的第二个创新，是将监督信号从token级别提升到step级别。

这里需要先理清一个容易混淆的概念。在自回归模型的OPSD中，"token-level supervision"意味着教师对学生的每一个输出token都给出概率分布监督——这是一个逐位置、逐符号的密集反馈。因为自回归模型一次只生成一个token，token-level自然就是时间线上的最小粒度。

但扩散模型的生成过程不是token-by-token，而是step-by-step去噪。扩散模型的一次"推理步骤"对应的是整个序列的一次去噪迭代，在这个过程中，所有位置的token被同步更新。用token-level监督去训练扩散模型，就像是要求一个交响乐团的每把小提琴同时遵循各自不同的节拍器——它和模型实际的生成机制是脱节的。

d-OPSD的做法是：把散度计算从token维度拉到step维度。在每一个去噪步骤上，计算教师分布和学生分布在整个序列上的差异，然后在这个层面上做监督。这意味着训练信号和推理过程在结构上是一致的。

论文实验用数据证明了这一步对齐的价值。在四个推理基准上，d-OPSD全面超越了diffu-GRPO：GSM8K上81.0 vs 79.8，Countdown上37.9 vs 33.2。但更重要的数字在效率这一栏。

GSM8K上，diffu-GRPO需要7700步，d-OPSD只用425步——效率是18倍。Math500上，6600步 vs 100步——66倍。Countdown上，5000步 vs 175步——29倍。Sudoku上，3800步 vs 425步——9倍。

这些数字背后是一个更本质的判断：当监督信号的结构与模型生成机制的结构对齐时，每一个训练样本的信息效率会大幅提升。d-OPSD不是在"省算力"，它是在"提高信息密度"。

一个有意思的消融实验进一步支持了这个判断。论文对比了k=1（每次只采样1条轨迹）和k=8（采样8条轨迹取最佳）两种设置。k=1的设置在GSM8K上拿到80.4，略低于k=8的81.0，但仍高于diffu-GRPO的79.8——而k=1的样本效率比k=8还要高出一大截。这意味着即使在极度受限的采样预算下，d-OPSD的学习信号质量仍然远超RLVR。

扩散LLM的训练范式，为什么是现在必须正视的问题？

要回答这个问题，先看一笔账。

Inception Labs的Mercury 2在单张Blackwell GPU上跑到1009 tokens/秒，定价$0.25/百万输入token、$0.75/百万输出token。作为对比，同等性能水平的自回归模型通常需要多张GPU才能达到类似吞吐量。扩散模型在推理效率上的优势是结构性的，不是优化性的——并行去噪天生就比逐token自回归更适合GPU的并行计算架构。

但在2026年初，扩散LLM面临一个尴尬的局面：推理快，但"不够聪明"。

LLaDA-8B-Instruct在GSM8K上的基线只有76.0——同一时期的自回归模型动辄85以上。即使经过RLVR训练（diffu-GRPO），也只能拉到79.8。扩散模型的推理能力瓶颈，本质上是一个训练范式的瓶颈：自回归模型经过RLHF、DPO、GRPO等多轮"训练范式军备竞赛"，已经建立起一套完整的post-training工具箱；而扩散模型的post-training工具箱几乎是空的。

这正是d-OPSD的战略意义所在。

它不是一个孤立的技术改进，它是为扩散LLM打开了OPSD这条已经被自回归模型验证为高效的post-training通道。Self-Distilled Reasoner证明OPSD的token效率是GRPO的4-8倍；d-OPSD进一步证明，为扩散模型量身定制的OPSD可以在步数效率上达到RLVR的10-66倍。

这意味着什么？意味着扩散模型的竞争力从"推理快但不够聪明"可能加速走向"推理快且越来越聪明"。一旦扩散模型的推理能力追平或接近自回归模型，推理速度的结构性优势就将转化为全面的商业竞争力。

更深远的一层：d-OPSD指向的是一种"自我进化"的训练范式。

传统蒸馏需要一个更强的外部教师模型，这在实践中意味着蒸馏的性能天花板就是教师模型的性能天花板。OPSD打破了这个天花板——模型不需要外部教师，它自己就是自己的老师。d-OPSD进一步打破的是训练框架对"自回归假设"的依赖——它证明了只要训练框架尊重模型的生成机制，自我蒸馏在非自回归模型上同样是可行且高效的。

这条路如果走通，最终的图景不是一个模型教另一个模型，而是一个模型不断从"自己的更好版本"中学习。你可以把它理解为模型层面的"递归自我改进"——这是AI Safety领域讨论多年的概念，而d-OPSD可能是目前为止在训练层面最接近这个概念的具体实现。

漂亮的论文，残酷的现实：d-OPSD离产业落地还有多远？

冷静下来看，d-OPSD至少面临三重约束。

第一重：基座模型的规模瓶颈。论文的所有实验都基于LLaDA-8B-Instruct——一个8B参数的扩散模型。虽然LLaDA 2.0已经证明扩散模型可以通过AR模型转换达到100B参数规模，但扩散模型的规模化上限——尤其是在from-scratch训练场景下——尚未被充分测试。而当前主流自回归旗舰模型无论在参数规模还是推理能力上都远超8B量级。d-OPSD能否在更大规模的扩散模型上保持同样的效率优势，论文本身并未验证。

第二重：推理任务的局限性。四个基准（GSM8K、Math500、Countdown、Sudoku）全部是数学或逻辑推理任务。扩散模型在开放式对话、创意写作、代码生成等更复杂、更"模糊"的任务上的post-training效果，d-OPSD完全没有涉及。而这类任务恰恰是OPSD在自回归模型上被证明有效性最参差不齐的领域——在推理任务上高效，不代表在其他任务上同样高效。

第三重：生态的贫瘠。自回归模型的post-training生态已经高度成熟：RLHF有PPO/DPO/KTO/SimPO，SFT有无数的公开数据集和微调配方，蒸馏有各级教师模型可选。扩散模型的post-training生态几乎只有一篇d-OPSD和几篇RLVR的工作。在一个需要工程落地而非学术验证的战场上，生态的厚度决定了技术的渗透速度。

还有一层更深的问题。d-OPSD的"自我未来"机制依赖于一个前提：模型自己生成的答案要足够好，才能作为高质量的后缀条件。如果模型本身很差——LLaDA-8B-Instruct在Countdown上的基线只有20.3——它生成的"自我未来"大概率也是错的。用错误的未来教自己，会不会把自己教废？论文的消融实验部分讨论了这一failure mode：当教师看到学生错误的答案后反推的推理链中，存在"为错误答案辩护"的倾向。但这个问题在当前的基准任务上影响有限，因为在GSM8K这样的任务上模型的初始成功率已经足够高。如果换到一个模型初始表现更差的任务上，这个问题可能会被系统性放大。

扩散模型的训练范式牌桌，已经摆好了

回到这篇论文最根本的贡献。与其说d-OPSD提出了一种新的训练算法，不如说它证明了两个被行业默认接受的假设是错的。

第一个假设：OPSD是自回归模型的专属工具。d-OPSD证明了只要做两个根本性的改造——把前缀条件换成后缀条件，把token级监督换成step级监督——OPSD在扩散模型上不仅work，而且比在自回归模型上更有结构性优势。因为扩散模型天然支持p(前缀|后缀)，而后缀条件所允许的"逆向推理"恰恰是自回归模型从数学上就不可能做到的。

第二个假设：扩散模型的post-training只能靠RLVR。d-OPSD证明了蒸馏式的方法——而且是更优的自我蒸馏——完全可以替代或补充RLVR，且效率高出10到66倍。

这两点加起来，指向的结论是：扩散大模型的竞争力瓶颈正在被系统性地拆除。推理速度的优势已经有了（Mercury 2的1009 tokens/秒），现在训练效率的优势也在被证明（d-OPSD的10-66倍效率提升）。只差最后一块拼图：更大规模扩散模型上的推理能力能否追平同等规模的自回归模型。

对于关注AI基础设施的投资人和从业者来说，三个信号值得盯紧：

第一，LLaDA 2.0（100B）+ d-OPSD的组合实验。如果这项实验能够复现或超过d-OPSD在8B模型上的效率优势，扩散模型的规模化post-training路径就被实质性打通了。

第二，Inception Labs是否会在Mercury系列上采用类似的自我蒸馏技术。作为目前唯一商业化的扩散LLM——由斯坦福教授、扩散模型核心研究者Stefano Ermon联合创立，已获得Menlo Ventures、微软M12、NVIDIA NVentures、Databricks以及Andrew Ng、Andrej Karpathy、Eric Schmidt等个人投资者的支持——Mercury的post-training策略对整个赛道的技术标准有定义性的影响。

第三，开源社区的反应速度。d-OPSD的代码已经在GitHub开源。如果社区快速在更多扩散模型上复现并改进这套方法，扩散模型post-training生态的"寒武纪大爆发"可能比预想的更快。

大模型行业的竞争，正在从"谁的钱多、谁的数据多、谁的卡多"的第一阶段，进入"谁的训练范式更聪明"的第二阶段。在第一阶段，扩散模型是看客。在第二阶段，它正在挤进牌桌。

当你的模型能从自己的未来中学习，你就不再需要比所有人都强——你只需要比昨天的自己强。