NVIDIA与谷歌云联手打造百万级GPU集群推动智能体与物理AI突破

2026.04.22 23:53

近日，NVIDIA与谷歌云宣布深度合作，推出基于Vera Rubin GPU的A5X云实例，可扩展至近100万颗GPU规模，结合谷歌Gemini模型，助力企业构建高效AI工厂，加速智能体自主决策与物理AI实时模拟的落地应用。

当下，人工智能技术正从基础模型阶段向智能体（Agentic AI）与物理AI（Physical AI）方向演进——智能体需要具备自主规划、决策与执行的能力，物理AI则要实现对物理世界的高精度实时模拟，两者都对计算资源提出了极高的需求。传统GPU集群规模有限，难以支撑这类复杂任务的大规模训练与推理，企业迫切需要更强大的端到端解决方案。

近日，NVIDIA与谷歌云宣布达成深度合作，联合推出基于NVIDIA Vera Rubin GPU架构的A5X云实例。该实例支持线性扩展至近100万颗Vera Rubin GPU，搭配谷歌云的高性能基础设施与Gemini多模态模型，为企业提供构建AI工厂的核心工具。此次合作主要通过线上技术发布会向全球开发者与企业公布，并未设置特定的线下发布场地。

从技术层面分析，A5X实例的核心在于Vera Rubin GPU的高性能计算能力与谷歌云的分布式网络优化。作为NVIDIA新一代GPU架构，Vera Rubin相比上一代H100，在FP8算力与内存带宽上都有明显提升，能高效处理智能体的多模态数据输入和物理AI的大规模并行模拟任务。谷歌云则借助其全球分布的数据中心与低延迟网络，保障百万级GPU集群的协同运行，同时集成Gemini模型，为企业提供从数据预处理到模型部署的全流程支持。

这次合作的价值在于，它缓解了企业构建AI工厂时面临的算力瓶颈与技术整合难题。比如，制造业企业可借助该方案训练智能机器人的自主操控模型，缩短训练周期并提升精度；自动驾驶公司则能通过物理AI模拟复杂路况，降低实车测试成本。麦肯锡2024年发布的《AI工厂白皮书》显示，这类大规模GPU集群解决方案能帮助企业将AI模型训练效率提升40%以上，同时降低35%的运营成本。

行业内，近期AWS也宣布与AMD合作，推出基于MI300X GPU的云实例，同样瞄准大模型训练与智能体应用；微软Azure则在持续扩展基于NVIDIA H100的超级集群，同时加速自研Azure Maia AI芯片的部署，意在AI基础设施领域与NVIDIA-谷歌云组合形成竞争。这些动作意味着，全球科技巨头正围绕AI计算资源展开激烈角逐，企业用户也将从中获得更多高性能、低成本的解决方案选择。

作品声明：内容由AI生成

NVIDIA与谷歌云联手打造百万级GPU集群 推动智能体与物理AI突破

NVIDIA与谷歌云联手打造百万级GPU集群推动智能体与物理AI突破