28台H200驯服万亿参数MoE：Prime Intellect用开源框架捅破了闭源RL的护城河

Prime Intellect 发布 prime-rl 0.6.0，可在28台H200节点上对万亿参数MoE模型进行agentic RL训练，步时控制在5分钟以内。这是开源社区首次将万亿参数级的RL后训练门槛降至可负担的量级，直接动摇了闭源厂商在强化学习后训练阶段的infra护城河。文章从技术架构、产业意义和权力结构三个维度深度拆解了这次发布的真实分量。

2026年6月21日，Prime Intellect 正式发布了 prime-rl 0.6.0。这个版本的发布没有铺满科技媒体的头条，但在关注AI基础设施的圈子里，它像一颗深水炸弹。

原因很简单：一个开源框架，宣称可以在仅仅28台NVIDIA H200节点上，对万亿参数级别的MoE（混合专家）模型进行智能体强化学习（Agentic RL）训练。单步训练时间控制在5分钟以内，批量大小256个rollout，上下文长度打到131K tokens——这些数字放在一年前，几乎是个天方夜谭。

在主流叙事中，"万亿参数"和"强化学习"这两个词的组合，通常意味着成千上万张GPU、数千万美元的预算、以及只有Google或Meta这样的巨头才玩得起的基建。但Prime Intellect正在用实际行动挑战这个前提。

从分布式实验到万亿参数RL：Prime Intellect的进化路线

要理解 prime-rl 0.6.0 的分量，得先回顾这家公司的成长轨迹。

Prime Intellect 成立于2023年，由 Johannes Hagemann 和 Vincent Weisser 联合创立。公司的核心愿景听起来像一句口号：让任何人都能参与前沿AI模型的训练。2025年2月，他们宣布完成1500万美元A轮融资，由Founders Fund领投，Menlo Ventures参投，Andrej Karpathy、Clem Delangue、Dylan Patel等知名AI人士跟投，累计融资超过2000万美元。

这并非画饼。2024年底，他们用INTELLECT-1证明了10B参数的模型可以在横跨三大洲、最高14个并发节点、30个独立算力提供商动态加入和退出的网络环境中完成训练，算力利用率维持在83%-96%。

2025年4月，INTELLECT-2——首个通过全球分布式强化学习训练的32B参数推理模型——进一步验证了"分散算力训练集中模型"的可行性。团队为此从零构建了prime-rl框架（异步RL）、TOPLOC（rollout验证）和SHARDCAST（策略权重广播）三大组件。

2025年11月，INTELLECT-3横空出世：一个106B参数的MoE模型，在512张H200 GPU（64节点）上完成大规模RL训练，在数学、代码、科学和推理基准上超越了许多更大规模的闭源模型。

今天发布的 prime-rl 0.6.0，是这一进化路线的最新一站：从10B到32B到106B再到万亿，框架能力在不到18个月内实现了两个数量级的跨越。

三把手术刀：prime-rl 0.6.0如何驯服万亿参数MoE

第一刀：异步RL——让训练不再等推理

Agentic任务有一个让系统工程师头疼的特性：长尾分布。一些编码rollout可能要跑几个小时。如果在每次策略更新前都等所有rollout完成，GPU的闲置时间会飙升到不可接受的程度。

Prime Intellect 的解决方式是异步RL。训练器和推理系统完全解耦，各自独立优化。一旦优化器步骤完成，推理策略立即获取新权重——不需要等所有进行中的rollout结束。

但异步带来一个有趣的系统挑战：已经派发的rollout保留其活跃前缀缓存，这意味着单个rollout可能混合多个策略版本生成的token。新rollout即使与旧rollout共享前缀，也会重新生成自己的KV缓存——团队通过KV-cache salt强制实现。来自过旧策略的请求则会被丢弃，由 max_off_policy_steps 控制阈值。

这套设计让训练器和推理系统可以各自以最高效率运行，同时保持兼容。Prime Intellect 团队在技术博客中将其称为"一个有趣的问题"，但实际操作难度远非轻描淡写所能概括。

第二刀：推理极致优化——吞吐优先，延迟次之

在大多数推理场景中，追求低延迟是首要目标。但RL训练不一样——推理充当的是模型与环境的交互接口，吞吐量才是瓶颈。

prime-rl 0.6.0 为此打出了一套组合拳：

FP8推理：全面使用FP8低精度推理，配合DeepSeek开源的DeepEP和DeepGEMM优化内核，大幅降低延迟并提升吞吐。这并非新概念，但要在万亿参数MoE上稳定运行FP8，对工程实现的要求极高。

Wide EP（宽专家并行）：区别于追求低延迟的推理部署，prime-rl 采用了大规模的专家并行策略，往往跨32张或更多GPU。每张GPU持有不同的专家，各自作为独立端点运行。同步只在每层的dispatch和combine操作中发生——这使得吞吐量最大化。

P/D解耦（Prefill/Decode Disaggregation）：Agentic rollout的prefill与decode token比例可高达4:1。如果不分离两种负载，prefill请求将严重拖慢decode推理。prime-rl 的P/D解耦让prefill worker和decode worker独立运行——长prefill请求不会阻塞decode worker，使得模型周转更快、tool-call到达沙箱执行更快、跨数百轮交互的循环更流畅。

KV Cache CPU Offloading + Router Replay：与vLLM、Dynamo等推理框架深度合作，将KV缓存卸载到CPU内存，同时通过router replay机制优化前缀缓存命中率，进一步降低显存压力。

第三刀：训练三重并行——FSDP、EP、CP协同

推理只是故事的一半。在训练端，prime-rl 0.6.0 实现了3-D并行策略：

FSDP2：全分片数据并行，将模型参数、梯度和优化器状态分布到所有GPU上。
DeepEP（专家并行）：MoE模型的核心挑战是专家间的通信开销。prime-rl 深度集成DeepEP，优化跨专家的dispatch和combine通信。
DSA CP（上下文并行）：针对超长序列（131K+ tokens），上下文并行确保长序列能够被切分到多个设备上并行处理。

此外，训练端也采用了block-scaled FP8精度，进一步压缩显存占用并减少训练端与推理端之间的精度不匹配——这对RL训练的稳定性至关重要。整套系统经端到端调优，支持GLM-5.1、Kimi-K2.7-Code、Nemotron-3-Ultra-550B等主流开源MoE架构。

这些优化的结果：在28台H200节点上，GLM-5.1的SWE任务训练能够在不到5分钟的步时、256个rollout的批量大小下稳定运行。对于万亿参数规模的agentic RL训练来说，这是一个令人震惊的效率指标。

三个维度看意义：技术、产业与权力

技术维度：万亿参数RL从"能不能"变成了"贵不贵"

在此之前，万亿参数级别模型的后训练RL几乎只有三种选择：要么自己拥有数万张GPU，要么砸钱租用同等规模的云集群，要么直接放弃。prime-rl 0.6.0 将门槛降低到了28台H200节点。这仍然是一笔可观的算力投资，但已经从"非卖品"变成了"可定价的商品"。

更关键的是，框架完全开源。这意味着任何拥有Slurm集群的实验室、企业和研究机构，都可以用一条命令启动万亿参数MoE的RL训练：

uv run rl @ examples/glm5_llmd/rl.toml --output-dir /shared/outputs/glm5-llmd

这种"开箱即用"的体验，在万亿参数这个量级上史无前例。

产业维度：开源正在压缩闭源的RL优势窗口

2025年以来，一个清晰的趋势已经浮现：开源模型在预训练阶段的追赶速度超出了大多数人的预期，但在强化学习后训练阶段——尤其是agentic RL——闭源厂商仍然享有显著优势。原因不难理解：RL训练需要大规模推理集群支撑rollout采样，需要环境模拟器跑交互，需要对训练和推理管线的深度联合优化。

prime-rl 0.6.0 直接瞄准了这个"优势窗口"。它的设计哲学是：把闭源厂商最引以为傲的infra壁垒，变成一行命令。如果开源社区能够以28台H200节点的成本复现万亿参数MoE的RL后训练，那么闭源模型的"数据+infra"双护城河，就等于少了一条。

值得关注的是，Prime Intellect 并非孤例。2025年9月，蚂蚁集团旗下百灵团队开源了Ring-1T——一个万亿参数的MoE推理模型——同样展示了开源万亿参数模型的快速进化。两大开源万亿参数模型的相继现身，加上DeepSeek在RL推理路径上的持续突破，一个"开源万亿参数生态"正在加速成型。

权力维度：AI基础设施正在经历一场去中心化小革命

如果深入一层看，prime-rl 0.6.0 的意义不止于技术指标。它代表了一种基础设施层面的权力转移。

传统上，AI模型的训练高度依赖于"集中式算力"——把尽可能多的GPU放在同一个数据中心，通过高速互联使其像一个巨大的虚拟GPU一样工作。然而，随着模型参数规模的增长，这种集中式范式正在遭遇边际收益递减：数据中心级别的网络成本激增，大集群的故障率上升，资源碎片化严重。

Prime Intellect 走的是另一条路：接受"算力是分散的、不可靠的、异构的"这个现实，然后用软件工程的方式去解决它。从INTELLECT-1的跨洲训练（14个节点横跨三大洲，83%-96%算力利用率），到INTELLECT-2的分布式异步RL，再到今天万亿参数MoE的agentic RL训练——这条路线正在一步步被验证。

如果这条路走通，它对全球AI产业格局的影响将是深远的：受GPU出口管制的地区可以通过分布式算力聚合的方式参与大规模模型训练；中小AI实验室不再需要与大厂比拼基建预算，而是比拼算法创新和工程效率。

不能忽视的局限

但客观地说，prime-rl 0.6.0 的宣传数字需要放在合适的坐标系中理解。

第一，28台H200节点上训练的GLM-5.1是"后训练"（post-training）阶段，而非预训练。预训练万亿参数模型需要数万亿tokens的数据预处理和海量算力——那是另一个数量级的游戏。

第二，MoE架构本身就在稀疏激活上做了优化。GLM-5.1的活跃参数远小于总参数，这使得RL训练的显存和计算需求比同参数规模的稠密模型低得多。

第三，当前支持模型列表中包含GLM-5.1、Kimi-K2.7-Code、Nemotron-3-Ultra-550B等，这些都是已有良好预训练基础的开源MoE模型。prime-rl 0.6.0 解决的是"如何高效地对这些模型进行RL后训练"，而非"如何从零训练万亿参数模型"。

但这些局限并不削弱这个版本的意义。从系统工程角度看，让万亿参数MoE的RL后训练在不到5分钟步时内稳定运行，本身就是一项重大的工程成就——尤其在28台节点这个资源约束下。

下一步值得关注什么

Prime Intellect 在技术博客中透露了几个明确的下一步方向：

端到端Agent的RL训练：让推理模型学会使用代码解释器等工具，在科学和研究领域充分释放推理时计算的价值。
众包任务与验证器环境：分布式RL仍然处于早期阶段，团队希望通过开源社区的力量加速这一进程。

这些方向指向了一个更大的叙事：如果分布式RL真的能够降低agentic模型的训练门槛，那么下一阶段的AI竞争可能不再是谁拥有最多的GPU，而是谁能最有效地聚合、调度和利用全球范围内碎片化的算力资源。

而 prime-rl 0.6.0，可能正是这场变革的第一块基石。

在晶圆厂里，做最薄刀片的人，往往不是切得最深的那一个，而是让所有人都有机会下刀的那一个。