2015年,机器学习顶会上流传着一个结论:最大均值差异(MMD)太弱了,训练不出有竞争力的生成模型。这个判断被封进了教科书,再也没有人认真追问过——是真的太弱,还是当时没人知道怎么用好它?
至少十年后的今天,一篇新论文用大量对照实验给出了答案。答案是否定的。MMD从未失败,只是从来没有人正确地计算过它。
这篇论文题为《Representation Distribution Matching for One-Step Visual Generation》。它提出了一套名为RDM(表征分布匹配)的完整范式,核心操作极其简单:用冻结的预训练编码器提取特征,让生成图像的特征分布和真实图像的特征分布尽可能一致——然后,一步生成。
不需要几十步的迭代去噪,不需要在线教师模型,不需要对抗训练,不需要模拟任何轨迹。前向传播一次,图像出来。
一个被低估十年的方法
要理解RDM为什么值得认真对待,先要理解它要取代什么。
当前主流的生成范式——扩散模型和流匹配模型——走的是一条曲线救国的路径。它们不直接解决“生成分布等于数据分布”这个核心问题,而是学习一个反向加噪过程,把噪声一步步推回数据空间。Stable Diffusion生成一张图需要50步,FLUX.1需要28步,即使经过蒸馏优化,主流的FLUX.2 [klein]也需要4步推理。
RDM的路线截然不同:它直接对分布差距做优化。给定一个冻结的预训练特征编码器,生成器输出一张图,提取其特征,然后计算这组特征与真实图像特征分布之间的差异——用这个差异作为损失函数,反传训练生成器。
这个思路在理论上干净得令人愉悦,但它撞上了一堵历史墙。2015年,Li等人和Dziugaite等人先后尝试用MMD训练生成模型,结果都不理想。业界很快得出结论:MMD作为分布匹配工具,竞争不过当时正在崛起的GAN。这个判断像一道判决书,让MMD在生成模型领域坐了十年的冷板凳。
RDM论文的作者们做了件看似简单但极少有人做对的事:他们系统拆解了MMD的每个组件,然后找出了十年前所有尝试的共同错误。
三个关键发现
论文沿着两个设计轴做了系统的对照实验:一是“分布以什么方式比较”(比较轴),二是“在什么特征空间里比较”(表征轴)。在两条轴的交叉点上,藏着三个反直觉的发现。
发现一:MMD没问题,是估计方法有问题
MMD的经典做法是在一个batch内计算成对核函数,然后取均值。但RDM的研究者发现,这种估计方式的关键瓶颈是——样本量。真实分布一侧是固定的,那就用整个数据集:他们把ImageNet全部128万张训练集图像一次性压缩成一个Nyström参考集——4096个地标向量,以极低的计算成本替代了完整核矩阵的计算。生成器一侧每步都在变化,所以每次新鲜采样。这里batch size成了决定性的变量。
发现二:Batch size的甜蜜点在2048以上
通常生成模型的训练batch size在64到256之间。但RDM的对照实验表明,batch size至少要超过2048,MMD的梯度估计才会足够精确。这比常规做法高了8到32倍。论文使用了梯度缓存技术(Gradient Caching,来自Gao等人2021年的工作)来吸收内存开销,使这个量级的batch size变得可行。
发现三:单一编码器可以被欺骗
这是论文中最具洞察力的发现之一。研究者发现,如果用单个预训练编码器作为特征空间来匹配分布,生成器很快就能学会作弊——它能在这个编码器的得分上击败真实图像,但生成的图像肉眼一看就是假的。
这就像是一个学生只刷某一科的题库,最后那科的分数比全班平均还高,但真实水平一考就露馅。解决方案是使用一组多样化的编码器——DINOv2、CLIP、MAE等——并引入一个比例-积分-微分(PID)拉格朗日控制器,动态调节每个编码器的权重:哪个编码器最难被满足,就给它更高的权重;哪个已经被欺骗,就降低它的权重。
iRDM:把一切组装起来
把上述三个发现组合起来,论文提出了改进版RDM——iRDM(improved RDM)。
在ImageNet 64×64的类条件生成任务上,iRDM使用SW_r14作为评估指标——这是一个基于14个不同编码器的切片Wasserstein距离,独立于训练损失函数,且无法被生成器“游戏化”。iRDM在该指标上达到1.30,成为一步生成的新SOTA。
更令人信服的验证来自PickScore——一个以人类偏好为代理的评分指标,iRDM从未在训练中优化过这个指标。在与此前最佳一步生成器的成对盲比中,人类偏好在71.2%的情况下选择了iRDM的输出。
90小时改造FLUX.2:最有力的实证
如果仅看ImageNet基准测试,可能有人会说这是刷榜论文。但RDM论文提供了一个令人信服的落地实验。
研究者选择了Black Forest Labs发布的FLUX.2 [klein]模型——这是一个需要4步推理的高质量文本到图像生成器。他们用RDM方法将FLUX.2 [klein]后训练为一个一步生成器。
结果令人震惊:一步RDM版的FLUX.2在GenEval评分上从0.794提升到了0.826;在PickScore上从22.58提升到了22.76。一步版反超了原版。
而这一切只用了90个H200 GPU小时。按当前云GPU价格估算,这大约是1万到2万美元的计算成本——对于一个专业的视觉生成团队来说,完全在可接受的实验范围内。
这意味着什么?如果你手头有一个4步或8步的生成模型,理论上可以用RDM方案在两天内把它变成一个一步模型,而且质量不降反升。这对实时图像生成、端侧部署、视频生成等对延迟敏感的场景意义重大。
一步生成赛道的格局正在成型
RDM并非横空出世。它是过去两年“一步生成”运动的最新高潮。
这条赛道的起点可以追溯到2024年MIT提出的DMD(分布匹配蒸馏),它首次将扩散模型压缩为一步生成器,在ImageNet 64×64上达到FID 2.62。随后DMD2将FID推到了1.28。同期,GDD(生成分布蒸馏)在2024年达到FID 1.16,而Uni-Instruct在2025年以FID 1.02创下新纪录。
但DMD及其后续版本的底层逻辑属于蒸馏——需要一个已经训练好的教师扩散模型,通过蒸馏把知识压缩到一步学生模型里。
RDM的不同之处在于,它完全不需要教师模型。它不是蒸馏,而是直接优化生成分布与真实分布之间的匹配度。从方法论角度看,RDM与DMD的师承关系不同:DMD解决的是“如何把已有的扩散模型变快”,RDM解决的是“如何从零训练一个一步生成器”。
这也意味着RDM和蒸馏方法不是互斥的,而是互补的。RDM提出的编码器组合策略、Nyström参考集估计和PID平衡控制器,完全可以用在蒸馏框架中进一步提升质量。
局限与争议
RDM的策略不是没有代价的。
首先,它依赖预训练编码器库。你需要一组高质量且多样化的编码器,而这些编码器本身可能覆盖了偏见或盲区。选择编码器组合本身就是一门不精确的艺术。
其次,batch size 2048以上的要求对消费级GPU不现实。虽然梯度缓存能缓解内存压力,但中小团队要进行此类实验仍有门槛。
第三,论文的验证主要在ImageNet 64×64和FLUX.2后训练上,目前还未看到在更大分辨率(如512×512、1024×1024)上的系统验证。高分辨率下的表现是一个开放问题。
最后,RDM框架对文本到图像生成中“文本对齐”的挑战——即prompt fidelity——虽然通过匹配图文联合分布做了初步处理,但距商业级应用(如FLUX.2 Pro、DALL·E 3级别的文本遵循能力)还有距离。
这意味着什么
放在更大的背景下来看,RDM的贡献不仅是技术上的,更是方法论上的。它提醒我们:在AI领域,“已证伪”和“未用对方法”是两回事。
MMD在生成模型领域被判了十年死刑,但没有人回头去追问它为什么失败。RDM的作者们做了这件事,结果证明,所谓的结论只是一个用错了工具的误判。这种科学追问精神,在追求“scaling law信仰”和“跟着论文方向卷”的当下显得尤为可贵。
对行业而言,RDM提供了一个清晰的信号:一步生成的瓶颈正在被系统性突破。也许在2026年下半年或2027年,主流的图像生成API和开源模型将全面转向一步和少步架构。届时,4步生成可能就和今天50步生成一样,成为被淘汰的标准。
而在那之前,任何拥有4步或8步生成模型的团队,都应该认真考虑一个问题:90个GPU小时,往前迈一步,够不够?
那个被丢掉十年的工具箱,正在被重新打开。里面装着的,可能不只是MMD。






快报