全球AI大模型竞赛正进入白热化,作为人工智能领域的先驱,谷歌自研的张量处理单元(TPU)是支撑大模型训练的核心硬件。但近期,谷歌内部却爆发了TPU访问权的争夺,这一矛盾恰恰反映出AI行业算力供给与模型需求之间的深层失衡。
谷歌内部多个团队因TPU资源分配问题产生冲突,部分高优先级AI项目因此出现延迟。TPU是谷歌专为深度学习设计的ASIC芯片,自2016年推出以来已迭代至第五代:TPU v4采用台积电5nm工艺,每个Pod由4096个芯片组成,能提供1ExaFLOPS的混合精度算力;2023年推出的TPU v5e则主打成本优化,算力比v4低约30%,性价比却提升了近两倍,如今已是谷歌云服务和内部研发的主力算力单元。
资源短缺的根源在于AI模型规模的指数级增长。根据谷歌DeepMind公开数据,2018年的BERT模型参数仅1.1亿,2023年发布的Gemini Ultra模型参数已突破万亿级,涨幅接近千倍。模型规模的扩张直接导致训练所需算力呈几何级数攀升,尽管谷歌拥有20多个全球超大规模数据中心,但现有TPU集群的总算力仍难以满足内部多个团队同时推进大模型研发的需求。雪上加霜的是,全球内存芯片尤其是高带宽内存(HBM)的短缺:2023年HBM价格同比上涨55%,供应缺口达30%,而TPU v4和v5e都依赖HBM2e及以上规格的内存来支撑高吞吐量的数据处理。
资源分配的矛盾不仅暴露了算力供给的不足,也让分析师开始质疑谷歌的资源利用效率。部分行业分析师指出,谷歌的软件栈(如TensorFlow框架)在大模型训练中的资源利用率可能低于竞争对手OpenAI采用的PyTorch框架,同时其模型架构设计可能存在冗余,导致单位算力产出效率不高。例如,OpenAI训练GPT-4时采用分布式训练优化技术,将GPU集群利用率稳定在80%以上,而谷歌内部部分团队的TPU利用率仅约60%。此外,Alphabet的资本支出策略也加剧了这一矛盾:2023年Alphabet资本支出374亿美元,其中65%投向云基础设施,但云业务的短期收入增长(2023年云收入841亿美元,同比增长26%)与长期AI研发的算力需求之间存在张力,使得部分研发资源不得不优先供给云服务客户,而非内部项目。
TPU资源短缺已对谷歌AI研发进度造成实际影响,比如部分Gemini系列模型的迭代项目不得不推迟,这可能让谷歌在与OpenAI、Anthropic等对手的竞赛中失去先机。长期来看,如果无法解决算力供给与模型需求的失衡,谷歌的技术领先地位可能会被削弱。
为了缓解算力紧张,谷歌在2024年3月宣布扩大TPU v5e的部署范围,计划年内新增10个TPU v5e Pod集群,并与台积电达成合作协议,加速TPU芯片生产。反观竞争对手,OpenAI与微软的合作持续深化,微软Azure在2024年第一季度把AI基础设施投入提高了30%,新增超5000台NVIDIA H100 GPU;Anthropic则在2024年2月宣布获得亚马逊云科技40亿美元投资,用于扩充Claude模型的算力支持。






快报