当下,人工智能技术正从基础模型阶段向智能体(Agentic AI)与物理AI(Physical AI)方向演进——智能体需要具备自主规划、决策与执行的能力,物理AI则要实现对物理世界的高精度实时模拟,两者都对计算资源提出了极高的需求。传统GPU集群规模有限,难以支撑这类复杂任务的大规模训练与推理,企业迫切需要更强大的端到端解决方案。
近日,NVIDIA与谷歌云宣布达成深度合作,联合推出基于NVIDIA Vera Rubin GPU架构的A5X云实例。该实例支持线性扩展至近100万颗Vera Rubin GPU,搭配谷歌云的高性能基础设施与Gemini多模态模型,为企业提供构建AI工厂的核心工具。此次合作主要通过线上技术发布会向全球开发者与企业公布,并未设置特定的线下发布场地。
从技术层面分析,A5X实例的核心在于Vera Rubin GPU的高性能计算能力与谷歌云的分布式网络优化。作为NVIDIA新一代GPU架构,Vera Rubin相比上一代H100,在FP8算力与内存带宽上都有明显提升,能高效处理智能体的多模态数据输入和物理AI的大规模并行模拟任务。谷歌云则借助其全球分布的数据中心与低延迟网络,保障百万级GPU集群的协同运行,同时集成Gemini模型,为企业提供从数据预处理到模型部署的全流程支持。
这次合作的价值在于,它缓解了企业构建AI工厂时面临的算力瓶颈与技术整合难题。比如,制造业企业可借助该方案训练智能机器人的自主操控模型,缩短训练周期并提升精度;自动驾驶公司则能通过物理AI模拟复杂路况,降低实车测试成本。麦肯锡2024年发布的《AI工厂白皮书》显示,这类大规模GPU集群解决方案能帮助企业将AI模型训练效率提升40%以上,同时降低35%的运营成本。
行业内,近期AWS也宣布与AMD合作,推出基于MI300X GPU的云实例,同样瞄准大模型训练与智能体应用;微软Azure则在持续扩展基于NVIDIA H100的超级集群,同时加速自研Azure Maia AI芯片的部署,意在AI基础设施领域与NVIDIA-谷歌云组合形成竞争。这些动作意味着,全球科技巨头正围绕AI计算资源展开激烈角逐,企业用户也将从中获得更多高性能、低成本的解决方案选择。






快报