中科曙光发了个“标配版”超节点，AI推理算力的未来形态？-钛媒体官方网站

OpenClaw突然爆火，既是AI Agent赛道的一次必然出圈，也是AI推理算力市场的一场压力测试。

在2026年中关村论坛上，中科曙发布了世界首个无线缆箱式超节点scaleX40，在此之前，超节点是动辄数百卡甚至千卡规模的庞然大物，包括中科曙光发布的scaleX640、英伟达的NVL72、华为的昇腾384等。

这些顶级超节点专为超大规模模型训练而生，性能强悍，但部署门槛极高，定制化机柜、复杂的线缆连接、专业的运维团队，动辄数千万甚至上亿的投资，让它们注定只能服务于少数头部玩家，譬如互联网巨头或者大型央国企等。

在超节点的“反面”，是推理市场上传统且主流的8卡GPU服务器。这类产品部署灵活、成本可控，但在面对快速升级的AI推理算力需求时，性能显得有些不足。

"8卡机在当前来看已经远远落伍了，即便是把互联规模扩展到16卡，仍然满足不了模型推理服务发展的步伐。"中科曙光高级副总裁李斌表示，"支撑AI发展的算力基础设施，逐渐从原来的'算力工厂'变成了'Token工厂'。算力系统的主要服务对象，已经从过去支撑模型训练为主，转变到现在以服务于推理为主。"

在训练时代，评价算力系统的核心指标是有多少算力；而在推理时代，更关键的指标变成了"能以多经济的成本产出Token"。

图片来自AI生成

AI需求分化，推理算力远未满足

从当前市场需求来看，AI算力结构正在发生分层变化。根据行业机构预测，全球AI基础设施投入仍将保持较快增长，但新增需求正逐步从超大规模集群，转向企业级和行业应用场景。

在这一趋势下，算力配置的重点不再单纯追求规模上限，而是更加关注性能、成本与灵活性的平衡。业内普遍共识，几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求，这也是兼顾效率与投入的最大公约数区间。

但是，AI应用层的需求演化太快，包括像OpenClaw为代表的AI Agent的爆火，在改变传统行业应用的同时，对当下算力供给侧也带来了系统重构的需求。

第一是通信的瓶颈，现在MoE模型让通信成为提升算力利用率的核心卡点，尤其是专家分布的不确定性，导致大量跨卡、跨机通信，直接击穿了传统8卡服务器的算力架构。

第二是显存的瓶颈，上下文窗口持续扩展，OpenClaw所需的长上下文记忆能力，也让大显存、KV Cache的需求日渐激增，这同样是传统8卡服务器难以突破的局限。

第三是算力利用率的瓶颈，算力利用率和推理落地成本近乎反比，传统集群普遍存在算力利用率不足的问题，核心挑战不是单纯堆硬件，而是通过硬件架构创新，搭配配套系统工程、优化工程的协同发力，实现系统效能和有效算力的双重提升。

第四则是生态的瓶颈，国产算力生态体系复杂、厂商众多、产业链漫长，产业协作难度不小，这就需要借助开放计算架构，打通芯片、模型、应用等全产业链上下游，打造开放易用、开箱即用、经济普惠的算力底座。

中科曙光希望用40卡的“标配”超节点回应市场。"40卡这个甜点区，是我们跟各种客户调研摸索出来的。"中科曙光副总裁李柳表示，当前主流模型的参数规模和使用场景，32-40卡已经能够覆盖大多数行业需求，同时又能兼顾成本与性能的平衡。

scaleX40单节点集成40张GPU，总算力超过28PFLOPS（FP8精度），HBM显存容量超过5TB，访存带宽超过80TB/s。系统可靠性提升至99.99%。

scaleX40的规模配置，既具备支持大模型训练和推理的能力，又不会带来过重的投入压力，它向下可兼顾32卡，满足中小规模训练、推理和开发测试；向上，它可以通过扩展，组成更大规模集群。

李斌算了一笔账："传统5台8卡机器叠加各类成本的投入，与scaleX40基本相当，但scaleX40可以将训练性能提升120%，推理性能最高提升至330%。"

"Token需要算力来做产出，但评价的维度和指标变得更多了。"李斌认为，"对于普通用户，关注的是响应速度，问了一个问题，它能不能很快反馈回来；对于算力系统的运营者，要考虑能同时支撑多少用户的并发访问，同时满足基本的使用体验。"

智源研究院AI框架研发部门负责人敖玉龙也提出，"未来对算力供给方来说，关键指标是如何将算力转换成有效的Token，而不是无效的Token。谁能把这个成本降下去，谁才是真正的赢家。"

scaleX40的设计围绕这些新需求展开。144G大显存支持长上下文窗口，多级KV Cache缓存机制满足推理场景的大显存需求，40卡高带宽域的一级互联将专家通信的out-to-out流量收揽在单个节点内。这些特性都是在控制成本的前提下，最大化单位算力的Token产出效率。

无线缆箱式设计也是scaleX40一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达NVL72为例，其采用铜缆连接方案，机柜之间需要大量的线缆互联，不仅对机房环境要求苛刻，部署周期长，而且后期运维的故障率也居高不下。

scaleX40的解法和英伟达于今年GTC大会公布的最新解决方案相似，通过总线技术实现Scale-up扩展，计算节点与交换节点采用无线缆正交架构直接对插。

这一设计带来了多重收益，首先，总线技术性能达到传统NDR网络的10倍以上，支持内存语义和显存统一编址；其次，一层组网将P2P单向时延降至百纳秒以内，相比二层组网时延降低30%以上，故障率降低30%-50%。

其次，scaleX40采用标准19英寸箱式设计，单机高度仅16U，可以直接放入主流机柜，兼容现有数据中心环境，无需额外改造。

"过去很多产品要么柜子比较大，要么非标准化，要么机房改造非常复杂。"李柳说道，"scaleX40可以放在标准机柜里面，接标准机房的供电和冷却设备，部署和使用门槛大大降低。"

中国电信研究院智算网络技术负责人王子潇也表示："以超节点形态提供推理服务，性能比传统单机8卡提升约2.6倍。超节点的‘开箱即用’能力显著增强，Scale-out网络的配置复杂度有数量级降低，对于整个行业规模化应用非常有意义。"

更深层来看，scaleX40的发布也折射出国产算力生态的成熟。从芯片到系统软件，从存储到网络，从算子库到通信库，一条完整的产业链正在形成。正如李斌所言："我们在整个国内计算AI生态里，从芯片到系统软件，到上层模型和应用，在做垂直的跨层协同，通过垂直方向的耦合和协同去发挥更好的效率。"

当超节点开始以更简单的方式被部署和使用，当千行百业都能以合理的成本获得高端算力能力，中国AI的规模化应用，或许才真正迈出了关键一步。（本文作者 | 张帅，编辑 | 杨林）