中科曙光发了个“标配版”超节点,AI推理算力的未来形态?

AGI
在推理时代,关键指标变成“能以多经济的成本产出Token”。

OpenClaw突然爆火,既是AI Agent赛道的一次必然出圈,也是AI推理算力市场的一场压力测试。

在2026年中关村论坛上,中科曙发布了世界首个无线缆箱式超节点scaleX40,在此之前,超节点是动辄数百卡甚至千卡规模的庞然大物,包括中科曙光发布的scaleX640、英伟达的NVL72、华为的昇腾384等。

这些顶级超节点专为超大规模模型训练而生,性能强悍,但部署门槛极高,定制化机柜、复杂的线缆连接、专业的运维团队,动辄数千万甚至上亿的投资,让它们注定只能服务于少数头部玩家,譬如互联网巨头或者大型央国企等。

在超节点的“反面”,是推理市场上传统且主流的8卡GPU服务器。这类产品部署灵活、成本可控,但在面对快速升级的AI推理算力需求时,性能显得有些不足。

"8卡机在当前来看已经远远落伍了,即便是把互联规模扩展到16卡,仍然满足不了模型推理服务发展的步伐。"中科曙光高级副总裁李斌表示,"支撑AI发展的算力基础设施,逐渐从原来的'算力工厂'变成了'Token工厂'。算力系统的主要服务对象,已经从过去支撑模型训练为主,转变到现在以服务于推理为主。"

在训练时代,评价算力系统的核心指标是有多少算力;而在推理时代,更关键的指标变成了"能以多经济的成本产出Token"。

图片来自AI生成

图片来自AI生成

AI需求分化,推理算力远未满足

从当前市场需求来看,AI算力结构正在发生分层变化。根据行业机构预测,全球AI基础设施投入仍将保持较快增长,但新增需求正逐步从超大规模集群,转向企业级和行业应用场景。

在这一趋势下,算力配置的重点不再单纯追求规模上限,而是更加关注性能、成本与灵活性的平衡。业内普遍共识,几十卡规模已足够满足大多数行业场景模型训练、推理及开发测试的算力需求,这也是兼顾效率与投入的最大公约数区间。

但是,AI应用层的需求演化太快,包括像OpenClaw为代表的AI Agent的爆火,在改变传统行业应用的同时,对当下算力供给侧也带来了系统重构的需求。

第一是通信的瓶颈,现在MoE模型让通信成为提升算力利用率的核心卡点,尤其是专家分布的不确定性,导致大量跨卡、跨机通信,直接击穿了传统8卡服务器的算力架构。

第二是显存的瓶颈,上下文窗口持续扩展,OpenClaw所需的长上下文记忆能力,也让大显存、KV Cache的需求日渐激增,这同样是传统8卡服务器难以突破的局限。

第三是算力利用率的瓶颈,算力利用率和推理落地成本近乎反比,传统集群普遍存在算力利用率不足的问题,核心挑战不是单纯堆硬件,而是通过硬件架构创新,搭配配套系统工程、优化工程的协同发力,实现系统效能和有效算力的双重提升。

第四则是生态的瓶颈,国产算力生态体系复杂、厂商众多、产业链漫长,产业协作难度不小,这就需要借助开放计算架构,打通芯片、模型、应用等全产业链上下游,打造开放易用、开箱即用、经济普惠的算力底座。

中科曙光希望用40卡的“标配”超节点回应市场。"40卡这个甜点区,是我们跟各种客户调研摸索出来的。"中科曙光副总裁李柳表示,当前主流模型的参数规模和使用场景,32-40卡已经能够覆盖大多数行业需求,同时又能兼顾成本与性能的平衡。

scaleX40单节点集成40张GPU,总算力超过28PFLOPS(FP8精度),HBM显存容量超过5TB,访存带宽超过80TB/s。系统可靠性提升至99.99%。

scaleX40的规模配置,既具备支持大模型训练和推理的能力,又不会带来过重的投入压力,它向下可兼顾32卡,满足中小规模训练、推理和开发测试;向上,它可以通过扩展,组成更大规模集群。

李斌算了一笔账:"传统5台8卡机器叠加各类成本的投入,与scaleX40基本相当,但scaleX40可以将训练性能提升120%,推理性能最高提升至330%。"

从DeepSeek到OpenClaw,新的算力转折点

"Token需要算力来做产出,但评价的维度和指标变得更多了。"李斌认为,"对于普通用户,关注的是响应速度,问了一个问题,它能不能很快反馈回来;对于算力系统的运营者,要考虑能同时支撑多少用户的并发访问,同时满足基本的使用体验。"

智源研究院AI框架研发部门负责人敖玉龙也提出,"未来对算力供给方来说,关键指标是如何将算力转换成有效的Token,而不是无效的Token。谁能把这个成本降下去,谁才是真正的赢家。"

scaleX40的设计围绕这些新需求展开。144G大显存支持长上下文窗口,多级KV Cache缓存机制满足推理场景的大显存需求,40卡高带宽域的一级互联将专家通信的out-to-out流量收揽在单个节点内。这些特性都是在控制成本的前提下,最大化单位算力的Token产出效率。

无线缆箱式设计也是scaleX40一个很大的差异化。传统超节点的一个核心痛点在于部署复杂度。以英伟达NVL72为例,其采用铜缆连接方案,机柜之间需要大量的线缆互联,不仅对机房环境要求苛刻,部署周期长,而且后期运维的故障率也居高不下。

scaleX40的解法和英伟达于今年GTC大会公布的最新解决方案相似,通过总线技术实现Scale-up扩展,计算节点与交换节点采用无线缆正交架构直接对插。

这一设计带来了多重收益,首先,总线技术性能达到传统NDR网络的10倍以上,支持内存语义和显存统一编址;其次,一层组网将P2P单向时延降至百纳秒以内,相比二层组网时延降低30%以上,故障率降低30%-50%。

其次,scaleX40采用标准19英寸箱式设计,单机高度仅16U,可以直接放入主流机柜,兼容现有数据中心环境,无需额外改造。

"过去很多产品要么柜子比较大,要么非标准化,要么机房改造非常复杂。"李柳说道,"scaleX40可以放在标准机柜里面,接标准机房的供电和冷却设备,部署和使用门槛大大降低。"

中国电信研究院智算网络技术负责人王子潇也表示:"以超节点形态提供推理服务,性能比传统单机8卡提升约2.6倍。超节点的‘开箱即用’能力显著增强,Scale-out网络的配置复杂度有数量级降低,对于整个行业规模化应用非常有意义。"

更深层来看,scaleX40的发布也折射出国产算力生态的成熟。从芯片到系统软件,从存储到网络,从算子库到通信库,一条完整的产业链正在形成。正如李斌所言:"我们在整个国内计算AI生态里,从芯片到系统软件,到上层模型和应用,在做垂直的跨层协同,通过垂直方向的耦合和协同去发挥更好的效率。"

当超节点开始以更简单的方式被部署和使用,当千行百业都能以合理的成本获得高端算力能力,中国AI的规模化应用,或许才真正迈出了关键一步。(本文作者 | 张帅,编辑 | 杨林)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App