90小时反超：RDM让FLUX.2一步登顶

一篇新论文提出RDM（表征分布匹配）范式，通过直接匹配生成图像与真实图像在预训练编码器中的特征分布，实现一步图像生成。该方法用90个H200 GPU小时将FLUX.2从4步蒸馏为1步，GenEval反超原版（0.826 vs 0.794）。论文揭示了被低估十年的MMD方法的真实潜力，并提出了多编码器平衡策略来防止生成器'欺骗'单一特征空间。

2015年，机器学习顶会上流传着一个结论：最大均值差异（MMD）太弱了，训练不出有竞争力的生成模型。这个判断被封进了教科书，再也没有人认真追问过——是真的太弱，还是当时没人知道怎么用好它？

至少十年后的今天，一篇新论文用大量对照实验给出了答案。答案是否定的。MMD从未失败，只是从来没有人正确地计算过它。

这篇论文题为《Representation Distribution Matching for One-Step Visual Generation》。它提出了一套名为RDM（表征分布匹配）的完整范式，核心操作极其简单：用冻结的预训练编码器提取特征，让生成图像的特征分布和真实图像的特征分布尽可能一致——然后，一步生成。

不需要几十步的迭代去噪，不需要在线教师模型，不需要对抗训练，不需要模拟任何轨迹。前向传播一次，图像出来。

一个被低估十年的方法

要理解RDM为什么值得认真对待，先要理解它要取代什么。

当前主流的生成范式——扩散模型和流匹配模型——走的是一条曲线救国的路径。它们不直接解决“生成分布等于数据分布”这个核心问题，而是学习一个反向加噪过程，把噪声一步步推回数据空间。Stable Diffusion生成一张图需要50步，FLUX.1需要28步，即使经过蒸馏优化，主流的FLUX.2 [klein]也需要4步推理。

RDM的路线截然不同：它直接对分布差距做优化。给定一个冻结的预训练特征编码器，生成器输出一张图，提取其特征，然后计算这组特征与真实图像特征分布之间的差异——用这个差异作为损失函数，反传训练生成器。

这个思路在理论上干净得令人愉悦，但它撞上了一堵历史墙。2015年，Li等人和Dziugaite等人先后尝试用MMD训练生成模型，结果都不理想。业界很快得出结论：MMD作为分布匹配工具，竞争不过当时正在崛起的GAN。这个判断像一道判决书，让MMD在生成模型领域坐了十年的冷板凳。

RDM论文的作者们做了件看似简单但极少有人做对的事：他们系统拆解了MMD的每个组件，然后找出了十年前所有尝试的共同错误。

三个关键发现

论文沿着两个设计轴做了系统的对照实验：一是“分布以什么方式比较”（比较轴），二是“在什么特征空间里比较”（表征轴）。在两条轴的交叉点上，藏着三个反直觉的发现。

发现一：MMD没问题，是估计方法有问题

MMD的经典做法是在一个batch内计算成对核函数，然后取均值。但RDM的研究者发现，这种估计方式的关键瓶颈是——样本量。真实分布一侧是固定的，那就用整个数据集：他们把ImageNet全部128万张训练集图像一次性压缩成一个Nyström参考集——4096个地标向量，以极低的计算成本替代了完整核矩阵的计算。生成器一侧每步都在变化，所以每次新鲜采样。这里batch size成了决定性的变量。

发现二：Batch size的甜蜜点在2048以上

通常生成模型的训练batch size在64到256之间。但RDM的对照实验表明，batch size至少要超过2048，MMD的梯度估计才会足够精确。这比常规做法高了8到32倍。论文使用了梯度缓存技术（Gradient Caching，来自Gao等人2021年的工作）来吸收内存开销，使这个量级的batch size变得可行。

发现三：单一编码器可以被欺骗

这是论文中最具洞察力的发现之一。研究者发现，如果用单个预训练编码器作为特征空间来匹配分布，生成器很快就能学会作弊——它能在这个编码器的得分上击败真实图像，但生成的图像肉眼一看就是假的。

这就像是一个学生只刷某一科的题库，最后那科的分数比全班平均还高，但真实水平一考就露馅。解决方案是使用一组多样化的编码器——DINOv2、CLIP、MAE等——并引入一个比例-积分-微分（PID）拉格朗日控制器，动态调节每个编码器的权重：哪个编码器最难被满足，就给它更高的权重；哪个已经被欺骗，就降低它的权重。

iRDM：把一切组装起来

把上述三个发现组合起来，论文提出了改进版RDM——iRDM（improved RDM）。

在ImageNet 64×64的类条件生成任务上，iRDM使用SW_r14作为评估指标——这是一个基于14个不同编码器的切片Wasserstein距离，独立于训练损失函数，且无法被生成器“游戏化”。iRDM在该指标上达到1.30，成为一步生成的新SOTA。

更令人信服的验证来自PickScore——一个以人类偏好为代理的评分指标，iRDM从未在训练中优化过这个指标。在与此前最佳一步生成器的成对盲比中，人类偏好在71.2%的情况下选择了iRDM的输出。

90小时改造FLUX.2：最有力的实证

如果仅看ImageNet基准测试，可能有人会说这是刷榜论文。但RDM论文提供了一个令人信服的落地实验。

研究者选择了Black Forest Labs发布的FLUX.2 [klein]模型——这是一个需要4步推理的高质量文本到图像生成器。他们用RDM方法将FLUX.2 [klein]后训练为一个一步生成器。

结果令人震惊：一步RDM版的FLUX.2在GenEval评分上从0.794提升到了0.826；在PickScore上从22.58提升到了22.76。一步版反超了原版。

而这一切只用了90个H200 GPU小时。按当前云GPU价格估算，这大约是1万到2万美元的计算成本——对于一个专业的视觉生成团队来说，完全在可接受的实验范围内。

这意味着什么？如果你手头有一个4步或8步的生成模型，理论上可以用RDM方案在两天内把它变成一个一步模型，而且质量不降反升。这对实时图像生成、端侧部署、视频生成等对延迟敏感的场景意义重大。

一步生成赛道的格局正在成型

RDM并非横空出世。它是过去两年“一步生成”运动的最新高潮。

这条赛道的起点可以追溯到2024年MIT提出的DMD（分布匹配蒸馏），它首次将扩散模型压缩为一步生成器，在ImageNet 64×64上达到FID 2.62。随后DMD2将FID推到了1.28。同期，GDD（生成分布蒸馏）在2024年达到FID 1.16，而Uni-Instruct在2025年以FID 1.02创下新纪录。

但DMD及其后续版本的底层逻辑属于蒸馏——需要一个已经训练好的教师扩散模型，通过蒸馏把知识压缩到一步学生模型里。

RDM的不同之处在于，它完全不需要教师模型。它不是蒸馏，而是直接优化生成分布与真实分布之间的匹配度。从方法论角度看，RDM与DMD的师承关系不同：DMD解决的是“如何把已有的扩散模型变快”，RDM解决的是“如何从零训练一个一步生成器”。

这也意味着RDM和蒸馏方法不是互斥的，而是互补的。RDM提出的编码器组合策略、Nyström参考集估计和PID平衡控制器，完全可以用在蒸馏框架中进一步提升质量。

局限与争议

RDM的策略不是没有代价的。

首先，它依赖预训练编码器库。你需要一组高质量且多样化的编码器，而这些编码器本身可能覆盖了偏见或盲区。选择编码器组合本身就是一门不精确的艺术。

其次，batch size 2048以上的要求对消费级GPU不现实。虽然梯度缓存能缓解内存压力，但中小团队要进行此类实验仍有门槛。

第三，论文的验证主要在ImageNet 64×64和FLUX.2后训练上，目前还未看到在更大分辨率（如512×512、1024×1024）上的系统验证。高分辨率下的表现是一个开放问题。

最后，RDM框架对文本到图像生成中“文本对齐”的挑战——即prompt fidelity——虽然通过匹配图文联合分布做了初步处理，但距商业级应用（如FLUX.2 Pro、DALL·E 3级别的文本遵循能力）还有距离。

这意味着什么

放在更大的背景下来看，RDM的贡献不仅是技术上的，更是方法论上的。它提醒我们：在AI领域，“已证伪”和“未用对方法”是两回事。

MMD在生成模型领域被判了十年死刑，但没有人回头去追问它为什么失败。RDM的作者们做了这件事，结果证明，所谓的结论只是一个用错了工具的误判。这种科学追问精神，在追求“scaling law信仰”和“跟着论文方向卷”的当下显得尤为可贵。

对行业而言，RDM提供了一个清晰的信号：一步生成的瓶颈正在被系统性突破。也许在2026年下半年或2027年，主流的图像生成API和开源模型将全面转向一步和少步架构。届时，4步生成可能就和今天50步生成一样，成为被淘汰的标准。

而在那之前，任何拥有4步或8步生成模型的团队，都应该认真考虑一个问题：90个GPU小时，往前迈一步，够不够？

那个被丢掉十年的工具箱，正在被重新打开。里面装着的，可能不只是MMD。