AI超节点时代的交换机革命

钛度号
围绕AI交换机的技术与市场争夺战已然打响。

文 | 半导体产业纵横

AI大模型参数规模持续增长,单卡算力与显存的物理上限,正倒逼AI训练集群规模持续扩容。在这场AI算力军备竞赛中,网络性能早已成为决定集群算力释放效率的关键。对于超大参数规模的AI模型而言,更高的网络带宽,能够直接大幅压缩模型训练的完成周期。

AI算力释放的技术底座:RDMA

要突破AI集群的网络性能瓶颈,RDMA技术已成为行业公认的解决方案,而这一切的起点,源于GPU通用计算时代的通信瓶颈破局。

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研发的软硬件协同创新技术。当时GPU已经从图形渲染转向通用计算(GPGPU),成为HPC的核心加速器。GPU计算能力虽然在持续提升,但因为集群中不同节点之间的GPU间传输数据,仍需要CPU负责,通信存在瓶颈,所以GPU的计算能力的优势受其拖累不能完全发挥,从而导致集群整体效率不高。NVIDIA当时清晰地认识到必须解决这个问题,所以开始与合作伙伴Mellanox一起探索GPU与网卡的直接通信的解决方案GPU Direct over InfiniBand。后续该技术方案逐渐成熟,并于2012年随Kepler架构GPU和CUDA 5.0一起发布,并被正式命名为GPU Direct RDMA。

在此之前,传统数据中心的数据传输,始终受困于TCP/IP架构的原生缺陷。在传统传输方案中,内存数据访问与网络数据传输分属两套语义集合,数据传输的核心工作高度依赖CPU:应用程序先申请资源、通知Socket,再由内核态驱动程序完成TCP/IP报文封装,最终通过NIC网络接口发送至对端。数据在发送节点需要依次经过Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷贝,到达接收节点后,还要经过同等次数的反向内存拷贝,完成解封装后才能写入系统物理内存。

这种传统传输方式,带来了三个问题:一是多次内存拷贝导致传输时延居高不下;二是TCP/IP协议栈的报文封装全靠驱动软件完成,CPU负载极高,其性能直接成为传输带宽、时延等性能的瓶颈;三是应用程序在用户态与内核态之间的频繁切换,进一步放大了数据传输的时延与抖动,严重制约网络传输性能。

RDMA(Remote Direct Memory Access,远程直接内存访问)技术,正是为破解上述痛点应运而生。它通过主机卸载与内核旁路技术,让两个应用程序能够在网络上实现可靠的直接内存到内存数据通信:应用程序发起数据传输后,由RNIC硬件直接访问内存并将数据发送至网络接口,接收节点的NIC则可将数据直接写入应用程序内存,全程无需CPU与内核的深度介入。

凭借这些特性,RDMA已成为高性能计算、大数据存储、机器学习等对低延迟、高带宽、低CPU占用有严苛要求的领域,核心的互联技术之一。而RDMA技术协议的标准化,也为不同厂商设备的互联互通提供了统一规范,推动技术从概念走向规模化商用。目前,RDMA主流实现方案分为三类:InfiniBand协议、iWARP协议,以及RoCE协议(含RoCE v1与RoCE v2两个版本)。

随着AI模型参数从数十亿级跃升至数万亿级,单GPU内存容量持续扩容的同时,服务器间的数据传输效率,已成为决定系统扩展能力、模型训练目标能否实现的关键要素。RDMA技术的价值也愈发凸显,能否高效访问其他服务器的内存与资源,直接决定了系统的可扩展性,而直接访问远端内存的能力,能直接提升AI模型的整体训练性能。正是借助RDMA技术,数据才能快速送抵GPU,最终有效缩短作业完成时间(Job Completion Time,简称JCT)。

InfiniBand和以太网之争

在AI智算网络的发展历程中,机柜间互联最早采用成熟的以太网方案,而随着低时延需求的升级,InfiniBand凭借性能优势快速崛起。作为原生RDMA协议的代表,InfiniBand由NVIDIA子公司Mellanox主导推动,能提供低于2微秒的极低传输时延,同时实现零丢包,堪称RDMA领域的性能领导者。

为了将InfiniBand的RDMA优势迁移至以太网生态,RoCE协议应运而生。其中RoCE v1仅能在二层子网内运行,而RoCE v2通过IP/UDP封装实现了跨子网路由,大幅提升了部署灵活性,尽管约5微秒的时延仍高于原生InfiniBand,却让以太网具备了支撑AI训练高带宽、低延迟需求的能力。

为了撼动InfiniBand在AI领域的主导地位,2025年6月,博通、微软、谷歌等行业巨头联合推出UEC 1.0规范,旨在重构以太网协议栈,使其性能逼近InfiniBand,标志着以太网对InfiniBand发起了全面反击。超以太网联盟(Ultra Ethernet Consortium,UEC)明确,UEC 1.0规范能在包含网卡、交换机、光纤、电缆组成的全网络堆栈层级,提供高性能、可扩展、可互操作的解决方案,从而实现多供应商无缝集成,加速全生态创新。该规范不仅适配以太网与IP的现代RDMA能力,还支持数百万级设备的端到端可扩展性,同时彻底规避了供应商锁定的问题。

目前,阿里巴巴、百度、华为、腾讯等国内科技企业均已加入UEC联盟,共同推进标准落地。除了参与全球标准化建设,国内企业还在同步研发自主可控的横向扩展架构,均以低延迟、零丢包为核心目标,直接对标InfiniBand的性能表现。

从产业落地的维度来看,两条技术路线的优劣势十分清晰。RoCE v2方案依托以太网架构,不仅具备RDMA高带宽、低时延的传输性能,还拥有极强的设备互联兼容性与适配性,部署灵活且成本优势显著。相比InfiniBand,基于以太网的RDMA方案,在低成本、高可扩展性上拥有巨大优势。

网络可用性直接决定GPU集群算力的稳定性,而AI技术的爆发,正推动数据中心交换机向更高速率持续迭代。AI大模型参数量的指数级增长,带来了算力需求的规模化提升,但大集群并不等同于大算力。为了压缩训练周期,大模型训练普遍采用分布式训练技术,而RDMA正是绕过操作系统内核、降低卡间通信时延的核心,目前主流落地的正是InfiniBand与RoCE v2两大方案。其中InfiniBand方案时延更低,但成本偏高,且供应链高度集中于英伟达。根据Dell‘Oro Group的预测,到2027年,以太网在AI智算网络的市场占比将正式超越InfiniBand。

超节点爆发,高端交换机迎来黄金发展期

随着 AI 大模型参数规模迈入万亿量级,算力需求已从单纯 GPU 堆叠,转向全维度系统架构重构。受单芯片物理功耗密度、互连带宽及内存容量瓶颈制约,算力增长边际效益持续递减。当前研究与工程实践均表明,系统级协同架构(如高带宽域互联)是突破单芯片性能上限的主要技术路径,其根本动因在于单芯片物理极限已成为制约算力发展的核心瓶颈

当模型规模远超单芯片算力与显存容量,传统分布式训练面临通信开销激增、算力利用率大幅下滑等难题。在此背景下,依托高速无损互联技术,将数十乃至上百颗 GPU 芯片逻辑整合为统一计算单元,形成对外等效的 “超级计算机”,已成为全球主流 AI 基础设施厂商与科研机构公认的下一代算力架构突破方向。

AI 超节点的爆发,为交换机市场打开全新增量空间。相较于传统服务器,AI 服务器新增 GPU 模组,需通过专用网卡与服务器、交换机实现高效互联,完成节点间高速通信。这使得 AI 服务器组网在传统架构基础上,新增后端网络(Back End)层级,单台服务器网络端口数量显著提升,直接拉动高速交换机、网卡、光模块、光纤光缆等全产业链需求。

与此同时,超节点规模化部署,加速网络架构横向扩展(Scale out)。万卡、十万卡乃至百万卡级别的超大集群组网,催生海量高速交换机需求。随着 AI 模型参数持续扩容,集群规模从百卡、千卡级快速向万卡、十万卡级跃迁,推动组网架构从 2 层向 3 层、4 层持续演进,进一步放大高速交换机市场缺口。

全球AI产业的高速发展,让AI集群网络对组网架构、网络带宽、网络时延提出了前所未有的严苛要求,也推动以太网交换机这一核心通信设备,朝着高速率、多端口、白盒化、光交换机等方向持续迭代升级。而以太网本身深厚的产业根基与庞大的生态厂商阵容,也让其在AI网络中的市场占比拥有持续提升的空间。尽管目前InfiniBand凭借低延迟、拥塞控制、自适应路由等机制,仍主导着AI后端网络市场,但随着以太网部署方案的持续优化,以及超以太网联盟的生态加速完善,未来以太网方案的市场占比将持续攀升,直接带动以太网交换机的需求增长。

全行业入局,国内外厂商抢滩AI交换机赛道

AI交换机的巨大市场机遇,吸引了全球科技巨头与国内厂商的全面布局,从芯片到整机、从传统设备商到互联网企业,一场围绕AI交换机的技术与市场争夺战已然打响。

国际巨头中,英伟达的布局最为激进。其推出的Spectrum-x平台,是一套专为超大规模集群场景优化的以太网方案,凭借这一产品,英伟达仅用不到三年时间,便在交换机这一传统IT赛道实现了跨界突破。同时,英伟达已将下一代Rubin AI平台全面转向CPO(共封装光学)架构,并宣布进入量产阶段,让CPO从实验室概念,正式成为未来AI数据中心的“标准配置”。

博通也在去年推出了全球首款102.4 Tbps 交换机芯片 Tomahawk 6。该系列单芯片提供 102.4 Tbps 的交换容量,是目前市场上以太网交换机带宽的两倍。Tomahawk 6 专为下一代可扩展和可扩展 AI 网络而设计,通过支持 100G / 200G SerDes 和共封装光学模块(CPO),提供更高的灵活性。它提供业界最全面的 AI 路由功能和互连选项,旨在满足拥有超过一百万个 XPUs 的 AI 集群的需求。

国内传统设备厂商也快速跟进,接连推出旗舰级产品。

华为于2025年发布了两款旗舰产品:业界最高密的128×800GE 100T盒式以太交换机CloudEngine XH9330,凭借行业领先的高密端口设计,突破了AI集群的规模上限;业界首款128×400GE 51.2T液冷盒式以太交换机CloudEngine XH9230,助力企业打造绿色节能、超大规模的全液冷算力集群。

紫光股份旗下新华三,于2024年率先发布1.6T智算交换机H3C S98258C-G,支持全光网络3.0解决方案,单端口速率突破1.6T,整机交换容量达204.8T,可满足3.2万台AIGC节点的通信需求。该产品搭载自研智算引擎,时延可低至0.3微秒,通过了谷歌等国际客户的验证,成为其OCS整机核心供应商。此外,公司还推出了全球首款51.2T 800G CPO硅光数据中心交换机,为1.6T产品的技术迭代奠定了基础。

锐捷网络完成了基于CPO技术的51.2T交换机商用互联方案演示,该方案凭借超高集成度、显著的能效提升与可维护性设计,完美适配AI训练及超大规模计算集群的高速互联需求,为未来800G和1.6T网络升级提供了可行路径。其51.2T CPO交换机采用博通Bailly 51.2Tbps CPO芯片,在4RU空间内实现了128个400G FR4光交换端口,大幅提升了设备端口密度与带宽容量,核心亮点在于通过光引擎与交换芯片的共封装,大幅缩短电互联路径,降低信号衰减与传输功耗。

中兴通讯推出了国产超高密度230.4T框式交换机,以及全系列51.2T/12.8T盒式交换机,性能处于行业领先水平,已在运营商、互联网、金融等领域的百/千/万卡智算集群实现规模商用。

除了传统交换机厂商,互联网企业也纷纷下场,开启了自研交换机的进程,成为赛道中不可忽视的重要力量。

腾讯早在2022年便启动了CPO交换机的研发,同年推出并点亮业界首款25.6T CPO数据中心交换机——Gemini。该产品集成12.8T光引擎,提供16个800G光接口,剩余12.8T交换容量通过面板32个QSFP112可插拔接口提供。

字节跳动在火山引擎正式上线102.4T自研交换机,以此支撑新一代HPN 6.0架构,可满足十万卡级GPU集群的高效互联需求。该交换机实现全端口LPO支持,在4U空间内部署了128个800G OSFP端口。

阿里巴巴在云栖大会展出了自研的102.4T国产交换机,率先将3.2T NPO技术应用于新一代国产四芯片交换机。该设备单机集成4颗25.6T国产交换芯片,总交换容量达102.4T,还可通过升级至4×102.4T芯片,平滑演进至409.6T平台。

相比线性驱动可插拔光模块(LPO),近封装光学(NPO)能提供更高的带宽密度,同时降低对主芯片SerDes性能的要求,更利于产业生态发展;而相比共封装光学(CPO),NPO采用标准LGA连接器,保留了光模块的开放解耦特性,避免了主芯片与光引擎的绑定,更易被终端用户采纳。

为什么互联网企业要做交换机?

互联网企业纷纷下场自研交换机,并非偶然,而是技术趋势与市场需求的共同驱动。

技术层面,交换机白盒化的发展,为互联网企业自研提供了基础。白盒交换机实现了硬件与软件的解耦,硬件由开放化组件构成,软件则可由用户或第三方自由选择、定制,具备高灵活性、高可扩展性、低采购与运维成本的优势,目前已在互联网厂商与运营商网络中广泛应用,产业生态日趋成熟。锐捷网络作为白盒交换机领域的早期布局者,便与阿里、腾讯、字节跳动等互联网企业深度合作,通过JDM(联合设计制造)模式参与下一代交换机研发,2024年接连中标多家头部互联网客户的研发标,推动白盒交换机在互联网数据中心的规模化部署。而白盒交换机的软硬件解耦特性,大幅降低了自研的技术门槛,也成为大型互联网企业降低建网成本的关键。

市场层面,超大规模数据中心运营商面临着与传统企业完全不同的网络需求:一方面,阿里、腾讯、字节等企业拥有数万甚至数十万级的服务器规模,对网络的可扩展性、可运维性有极致要求;另一方面,AI训练集群尤其是万卡级GPU集群,对网络的低延迟、高带宽有着严苛的定制化需求。传统交换机厂商提供的标准化产品,难以完全匹配这些个性化、极致化的业务需求,最终促使互联网企业走向自研之路。

而自研交换机不仅能深度适配自身业务场景,实现网络能力的定制化优化,又能大幅降低集群建设的总体拥有成本(TCO),在AI算力军备竞赛中,掌握网络底层能力的主动权。

本文系作者 半导体产业纵横 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App