近年来,人工智能大模型的参数规模呈指数级增长,从早期的百亿级一路攀升到如今的万亿级,分布式训练也随之成为主流开发模式,但节点间的通信瓶颈正逐渐制约训练效率与集群扩展性。麦肯锡2025年《全球AI算力发展报告》指出,当训练集群节点数超过1000个时,通信延迟导致的算力利用率损失可达35%以上,这一问题在超大规模模型训练中尤为突出。
2026年5月6日,OpenAI联合AMD、博通、英特尔、微软及英伟达五大科技巨头正式推出多路径可靠连接(MRC)技术,系统性地解决了这一通信瓶颈。该技术针对AI系统间的数据传输需求,通过多路径并行传输、动态负载均衡与链路容错机制,同时实现了带宽提升、延迟降低与可靠性增强,适用于大规模分布式训练与推理场景。合作各方将共同推动MRC在硬件接口、协议栈及云基础设施中的集成与标准化,覆盖从芯片级到系统级的全链路优化工作。
MRC技术的核心思路是利用多条物理通信链路实现数据并行传输,通过智能算法动态分配数据流,确保每条链路的负载最优。例如在英伟达DGX H100集群中,MRC可同时利用InfiniBand与以太网链路传输数据,遇到链路拥塞或故障时能自动切换,容错能力达99.999%;针对AI训练中小数据包高频传输的特性优化的协议栈,能将端到端延迟降低40%,单节点带宽也提升到了传统方案的2.5倍。
各合作方在MRC落地过程中扮演着差异化角色:AMD负责优化GPU与网络接口的兼容性,让Radeon Instinct GPU原生支持MRC;博通则在新一代网络交换芯片中集成MRC协议处理单元,以减少转发延迟;英特尔适配Xeon CPU与Optane内存的通信链路,提升节点内部的交换效率;微软将MRC集成到Azure AI超级计算集群中,提供开箱即用的分布式训练环境;英伟达则在DGX OS中内置MRC驱动,确保GPU集群的性能充分释放。
MRC技术的推出对AI行业意义重大,不仅解决了超大规模模型训练中的通信瓶颈,还为集群可扩展性提供了支撑。据OpenAI测算,采用MRC后,10万亿参数模型的训练时间可缩短30%,集群规模也能扩展到10000节点以上而不损失算力利用率,这将加速大模型的迭代、降低开发成本,推动AI向通用人工智能(AGI)等更复杂的场景发展。
行业最新数据显示,2026年第一季度全球AI算力市场规模达1200亿美元,同比增长45%,分布式训练集群占比超60%,通信技术已成为算力升级的核心赛道。竞争对手方面,谷歌DeepMind在2026年4月宣布研发“Global Fabric Link”分布式通信技术,计划年底推出,重点解决跨区域集群的低延迟通信问题;阿里达摩院则在测试自研的“星链通信协议”,以提升国产AI集群的通信效率,预计2027年初实现商业化应用。






快报