425步。
这不是某个模型的推理延迟,也不是某个基准测试的分数。这是d-OPSD在GSM8K数学推理任务上,超越当前最强RLVR方法所需的全部优化步数。作为对比,被它超过的diffu-GRPO,用了7700步。
18倍的效率差。但故事远不止效率。
2026年6月16日,一篇题为《Learning from the Self-future: On-policy Self-distillation for dLLMs》的论文悄然出现在arXiv上。这篇论文的核心主张可以用一句话概括:扩散大语言模型(dLLM)不需要外部老师,也不需要强化学习奖励函数——它只需要学会向"未来的自己"学习。
在AI行业仍在为自回归模型的Scaling Law争吵不休的当口,一个更根本的训练范式转换正在扩散模型的赛道上悄然发生。
两条时间线,在同一篇论文里交汇
先看两组时间线。
第一组,扩散LLM的崛起。2024年底,LLaDA以8B参数首次在预训练+SFT范式下证明扩散模型可以在语言建模上与自回归模型正面竞争,打破了"LLM=自回归"的行业默认假设。2025年8月,港大与华为诺亚方舟实验室联合发布Dream 7B,在数学、编程和规划任务上达到同等规模自回归模型水平。2025年12月,LLaDA 2.0将扩散模型推进到100B参数规模——通过从自回归模型进行三阶段渐进转换而非从零训练,为扩散模型的规模化提供了一条务实路径。2026年2月,Inception Labs发布Mercury 2,在单张NVIDIA Blackwell GPU上跑到1009 tokens/秒的推理速度——这是自回归模型至今难以企及的吞吐量。同月,NVIDIA推出Fast-dLLM,通过KV Cache和并行解码将扩散模型推理吞吐量提升11倍。
第二组,On-Policy Self-Distillation(OPSD)的裂变。2026年1月,Zhao等人的Self-Distilled Reasoner被ICML 2026接收。这篇论文提出一个激进的主张:一个足够强的大模型可以同时扮演老师和学生——老师看到标准答案(特权信息),学生只看问题,训练目标是最小化两者在自己生成轨迹上的逐token差异。结果是,OPSD在数学推理上的token效率达到GRPO——也就是DeepSeek-R1所用的强化学习方法——的4到8倍。此后,SDPO(Hübotter et al.)、SDFT(Shenfeld et al.)等工作进一步将自我蒸馏扩展到持续学习和策略优化领域。
两条时间线在2026年6月交汇。交汇点就是d-OPSD。
为什么这个交汇如此重要?因为在此之前,OPSD家族的全部工作——从Self-Distilled Reasoner到SDPO再到SDFT——都建立在同一个假设之上:模型是自回归的。自回归模型只能从左到右生成,所以"老师特权信息"的唯一注入方式就是前缀条件(prefix conditioning),监督信号也只能是逐token的散度。
但扩散模型不是自回归的。它不走左到右,它走的是全序列同时去噪。用前缀条件训练扩散模型,等于用螺丝刀钉钉子——工具歪了,结果不可能对。
d-OPSD的作者们抓住了这个根本矛盾,然后做了一件在笔者看来堪称优雅的事:他们没有试图把扩散模型强行塞进自回归的框架,而是反过来,让训练框架去适配扩散模型的生成本性。
颠覆一:扔掉"前缀特权",捡起"自我未来"
理解d-OPSD的第一个创新,需要先理解一个扩散模型独有的能力。
自回归模型只有一个方向:从前到后。给定前缀"今天天气真",它只能往后续写"好"或"差"或"热"。这是p(后缀|前缀)。
扩散模型不一样。因为它的生成过程是全局去噪而非逐token续写,它在理论上可以同时利用所有方向的条件信息。也就是说,它不仅能做p(后缀|前缀),还能做p(前缀|后缀)——给定句子的后半段,反推前半段。
这个能力在自回归模型的世界里不存在,因为自回归的因果注意力掩码从数学上禁止了"从后往前看"的可能性。
d-OPSD的作者敏锐地发现,这不仅是扩散模型的一个技术特性,更是重新定义"自我蒸馏"的钥匙。
在传统的OPSD中,教师模型的条件是特权信息作为前缀。以数学题为例:问题+标准答案在前,模型在这个条件下生成推理过程。学生模型只看问题,被训练去模仿教师的分布。但因为前缀已经包含了答案,教师实际上是在"知道结局"的情况下生成推理步骤——这和真实推理场景存在根本性的分布偏移。
d-OPSD的做法是:让模型先生成答案(不带任何特权信息),然后把模型自己生成的答案作为后缀条件,让模型在这个条件下重新生成推理过程。换句话说,教师的特权信息不再是"外部给定的标准答案",而是"模型自己写出来的答案"。
这被论文作者称为"从自我未来经验学习"(learning from self future-experience)。
它妙在哪?妙在三点。
第一,消除了分布偏移。因为后缀条件的内容来自模型自己的生成,训练分布和推理分布是一致的——这正是"On-Policy"的核心含义。
第二,训练了一种宝贵的元能力:给定一个结论,反推一条合理的推理路径。这本质上是在训练模型的"逆向推理"——而逆向推理正是人类在解决复杂问题时的核心策略。
第三,解锁了更强的学习信号。在传统OPSD中,教师看到标准答案后生成的推理过程,和学生实际犯错的原因之间往往存在鸿沟——教师"知道答案"后写出的推理路径,未必能覆盖学生"不知道答案"时犯错的路径。而d-OPSD的教师条件来自学生自己的生成,教师看到的是"学生实际写出来的(可能错误的)答案",然后反推推理链——这让监督信号天然聚焦在学生实际犯错的薄弱环节上。
颠覆二:从"逐token盯"到"按步骤教"
d-OPSD的第二个创新,是将监督信号从token级别提升到step级别。
这里需要先理清一个容易混淆的概念。在自回归模型的OPSD中,"token-level supervision"意味着教师对学生的每一个输出token都给出概率分布监督——这是一个逐位置、逐符号的密集反馈。因为自回归模型一次只生成一个token,token-level自然就是时间线上的最小粒度。
但扩散模型的生成过程不是token-by-token,而是step-by-step去噪。扩散模型的一次"推理步骤"对应的是整个序列的一次去噪迭代,在这个过程中,所有位置的token被同步更新。用token-level监督去训练扩散模型,就像是要求一个交响乐团的每把小提琴同时遵循各自不同的节拍器——它和模型实际的生成机制是脱节的。
d-OPSD的做法是:把散度计算从token维度拉到step维度。在每一个去噪步骤上,计算教师分布和学生分布在整个序列上的差异,然后在这个层面上做监督。这意味着训练信号和推理过程在结构上是一致的。
论文实验用数据证明了这一步对齐的价值。在四个推理基准上,d-OPSD全面超越了diffu-GRPO:GSM8K上81.0 vs 79.8,Countdown上37.9 vs 33.2。但更重要的数字在效率这一栏。
GSM8K上,diffu-GRPO需要7700步,d-OPSD只用425步——效率是18倍。Math500上,6600步 vs 100步——66倍。Countdown上,5000步 vs 175步——29倍。Sudoku上,3800步 vs 425步——9倍。
这些数字背后是一个更本质的判断:当监督信号的结构与模型生成机制的结构对齐时,每一个训练样本的信息效率会大幅提升。d-OPSD不是在"省算力",它是在"提高信息密度"。
一个有意思的消融实验进一步支持了这个判断。论文对比了k=1(每次只采样1条轨迹)和k=8(采样8条轨迹取最佳)两种设置。k=1的设置在GSM8K上拿到80.4,略低于k=8的81.0,但仍高于diffu-GRPO的79.8——而k=1的样本效率比k=8还要高出一大截。这意味着即使在极度受限的采样预算下,d-OPSD的学习信号质量仍然远超RLVR。
扩散LLM的训练范式,为什么是现在必须正视的问题?
要回答这个问题,先看一笔账。
Inception Labs的Mercury 2在单张Blackwell GPU上跑到1009 tokens/秒,定价$0.25/百万输入token、$0.75/百万输出token。作为对比,同等性能水平的自回归模型通常需要多张GPU才能达到类似吞吐量。扩散模型在推理效率上的优势是结构性的,不是优化性的——并行去噪天生就比逐token自回归更适合GPU的并行计算架构。
但在2026年初,扩散LLM面临一个尴尬的局面:推理快,但"不够聪明"。
LLaDA-8B-Instruct在GSM8K上的基线只有76.0——同一时期的自回归模型动辄85以上。即使经过RLVR训练(diffu-GRPO),也只能拉到79.8。扩散模型的推理能力瓶颈,本质上是一个训练范式的瓶颈:自回归模型经过RLHF、DPO、GRPO等多轮"训练范式军备竞赛",已经建立起一套完整的post-training工具箱;而扩散模型的post-training工具箱几乎是空的。
这正是d-OPSD的战略意义所在。
它不是一个孤立的技术改进,它是为扩散LLM打开了OPSD这条已经被自回归模型验证为高效的post-training通道。Self-Distilled Reasoner证明OPSD的token效率是GRPO的4-8倍;d-OPSD进一步证明,为扩散模型量身定制的OPSD可以在步数效率上达到RLVR的10-66倍。
这意味着什么?意味着扩散模型的竞争力从"推理快但不够聪明"可能加速走向"推理快且越来越聪明"。一旦扩散模型的推理能力追平或接近自回归模型,推理速度的结构性优势就将转化为全面的商业竞争力。
更深远的一层:d-OPSD指向的是一种"自我进化"的训练范式。
传统蒸馏需要一个更强的外部教师模型,这在实践中意味着蒸馏的性能天花板就是教师模型的性能天花板。OPSD打破了这个天花板——模型不需要外部教师,它自己就是自己的老师。d-OPSD进一步打破的是训练框架对"自回归假设"的依赖——它证明了只要训练框架尊重模型的生成机制,自我蒸馏在非自回归模型上同样是可行且高效的。
这条路如果走通,最终的图景不是一个模型教另一个模型,而是一个模型不断从"自己的更好版本"中学习。你可以把它理解为模型层面的"递归自我改进"——这是AI Safety领域讨论多年的概念,而d-OPSD可能是目前为止在训练层面最接近这个概念的具体实现。
漂亮的论文,残酷的现实:d-OPSD离产业落地还有多远?
冷静下来看,d-OPSD至少面临三重约束。
第一重:基座模型的规模瓶颈。论文的所有实验都基于LLaDA-8B-Instruct——一个8B参数的扩散模型。虽然LLaDA 2.0已经证明扩散模型可以通过AR模型转换达到100B参数规模,但扩散模型的规模化上限——尤其是在from-scratch训练场景下——尚未被充分测试。而当前主流自回归旗舰模型无论在参数规模还是推理能力上都远超8B量级。d-OPSD能否在更大规模的扩散模型上保持同样的效率优势,论文本身并未验证。
第二重:推理任务的局限性。四个基准(GSM8K、Math500、Countdown、Sudoku)全部是数学或逻辑推理任务。扩散模型在开放式对话、创意写作、代码生成等更复杂、更"模糊"的任务上的post-training效果,d-OPSD完全没有涉及。而这类任务恰恰是OPSD在自回归模型上被证明有效性最参差不齐的领域——在推理任务上高效,不代表在其他任务上同样高效。
第三重:生态的贫瘠。自回归模型的post-training生态已经高度成熟:RLHF有PPO/DPO/KTO/SimPO,SFT有无数的公开数据集和微调配方,蒸馏有各级教师模型可选。扩散模型的post-training生态几乎只有一篇d-OPSD和几篇RLVR的工作。在一个需要工程落地而非学术验证的战场上,生态的厚度决定了技术的渗透速度。
还有一层更深的问题。d-OPSD的"自我未来"机制依赖于一个前提:模型自己生成的答案要足够好,才能作为高质量的后缀条件。如果模型本身很差——LLaDA-8B-Instruct在Countdown上的基线只有20.3——它生成的"自我未来"大概率也是错的。用错误的未来教自己,会不会把自己教废?论文的消融实验部分讨论了这一failure mode:当教师看到学生错误的答案后反推的推理链中,存在"为错误答案辩护"的倾向。但这个问题在当前的基准任务上影响有限,因为在GSM8K这样的任务上模型的初始成功率已经足够高。如果换到一个模型初始表现更差的任务上,这个问题可能会被系统性放大。
扩散模型的训练范式牌桌,已经摆好了
回到这篇论文最根本的贡献。与其说d-OPSD提出了一种新的训练算法,不如说它证明了两个被行业默认接受的假设是错的。
第一个假设:OPSD是自回归模型的专属工具。d-OPSD证明了只要做两个根本性的改造——把前缀条件换成后缀条件,把token级监督换成step级监督——OPSD在扩散模型上不仅work,而且比在自回归模型上更有结构性优势。因为扩散模型天然支持p(前缀|后缀),而后缀条件所允许的"逆向推理"恰恰是自回归模型从数学上就不可能做到的。
第二个假设:扩散模型的post-training只能靠RLVR。d-OPSD证明了蒸馏式的方法——而且是更优的自我蒸馏——完全可以替代或补充RLVR,且效率高出10到66倍。
这两点加起来,指向的结论是:扩散大模型的竞争力瓶颈正在被系统性地拆除。推理速度的优势已经有了(Mercury 2的1009 tokens/秒),现在训练效率的优势也在被证明(d-OPSD的10-66倍效率提升)。只差最后一块拼图:更大规模扩散模型上的推理能力能否追平同等规模的自回归模型。
对于关注AI基础设施的投资人和从业者来说,三个信号值得盯紧:
第一,LLaDA 2.0(100B)+ d-OPSD的组合实验。如果这项实验能够复现或超过d-OPSD在8B模型上的效率优势,扩散模型的规模化post-training路径就被实质性打通了。
第二,Inception Labs是否会在Mercury系列上采用类似的自我蒸馏技术。作为目前唯一商业化的扩散LLM——由斯坦福教授、扩散模型核心研究者Stefano Ermon联合创立,已获得Menlo Ventures、微软M12、NVIDIA NVentures、Databricks以及Andrew Ng、Andrej Karpathy、Eric Schmidt等个人投资者的支持——Mercury的post-training策略对整个赛道的技术标准有定义性的影响。
第三,开源社区的反应速度。d-OPSD的代码已经在GitHub开源。如果社区快速在更多扩散模型上复现并改进这套方法,扩散模型post-training生态的"寒武纪大爆发"可能比预想的更快。
大模型行业的竞争,正在从"谁的钱多、谁的数据多、谁的卡多"的第一阶段,进入"谁的训练范式更聪明"的第二阶段。在第一阶段,扩散模型是看客。在第二阶段,它正在挤进牌桌。
当你的模型能从自己的未来中学习,你就不再需要比所有人都强——你只需要比昨天的自己强。






快报