近年来,AI大模型对算力的需求正以指数级速度增长。OpenAI 2023年技术报告显示,GPT-4的训练计算量比GPT-3提升了10倍以上,达到约3×10^24浮点运算(FLOPs),而下一代模型的算力需求预计还会再上一个数量级。面对这样的需求压力,OpenAI原本计划通过“星际之门”项目自建大规模数据中心,但自建模式存在周期长、成本高、技术迭代快等问题:数据中心建设通常需要18到24个月,而麦肯锡2024年AI行业趋势报告指出,全球AI算力需求每6个月就增长一倍,这意味着自建设施刚投入使用就可能面临过时风险。
2024年第二季度,OpenAI调整了“星际之门”计划,把核心策略从自建转向算力租赁。这一变动由CEO山姆·奥特曼在内部战略会议上宣布,随后通过公司官网的技术博客对外披露。公司不再大规模自建数据中心,而是通过大型双边交易获取计算资源,依靠合作伙伴来满足不断增长的算力需求。这一转变的核心目的是加快AI模型研发进度,减少前期资本投入,同时快速应对算力需求的波动。
选择租赁模式的关键原因,在于解决算力需求的紧迫性和自建模式滞后性之间的矛盾。IDC 2024年5月发布的报告显示,到2025年全球AI算力缺口预计将达到30%;同时,自建数据中心的资本支出(CAPEX)占AI公司总支出的40%以上,这会分散OpenAI在模型研发上的资源。租赁模式能把资本支出转化为运营支出(OPEX),降低前期风险,还能让公司在模型训练高峰期临时增加租赁量,非高峰期则减少支出。比如,OpenAI和微软Azure达成了深度合作协议,获得了优先使用Azure全球数据中心内A100和H100 GPU集群的权利——这些集群采用InfiniBand高速互联技术,单个集群就能支持超过1万个GPU的分布式训练。除此之外,公司还和英伟达合作,租赁其超算中心的算力资源,以保证模型训练的效率和稳定性。
这一调整对OpenAI的长期发展有多重好处。首先是加快模型研发周期:原本需要两年建成的算力设施,现在通过租赁几周内就能投入使用,预计能把GPT-5的研发进度提前至少6个月。其次是优化成本结构:根据OpenAI的财务数据,自建数据中心的单位算力成本大约是租赁的1.5倍,转向租赁后,公司2024年的算力支出预计会减少20%,节省下来的资金将投入到模型算法优化和多模态技术研发上。最后是强化生态合作:和微软、英伟达等巨头的深度合作,不仅能获得稳定的算力供应,还能共享技术成果,比如英伟达最新的GPU技术可以优先应用到OpenAI的模型训练中。
从行业最新动态来看,全球AI算力市场正处于爆发式增长阶段。IDC报告指出,2024年全球AI算力市场规模预计会达到1200亿美元,同比增长45%。云服务商方面,AWS计划2024年新增10万个H100 GPU,谷歌云则推出了针对AI训练的超算服务。竞争对手这边,Anthropic在2024年4月和AWS达成了长期算力租赁协议,获得10万个A100 GPU的使用权,用于训练Claude 3.5模型。谷歌DeepMind虽然拥有自家的TPU芯片和数据中心,但在2024年3月宣布和IBM合作,租赁量子算力资源来探索AI与量子计算的融合应用。






快报