生成式AI技术的快速普及正推动全球算力需求呈指数级增长,国际数据公司(IDC)2025年发布的报告指出,全球AI算力支出预计2026年突破1300亿美元,其中推理环节占比超65%,已成为数据中心算力消耗的核心部分。然而当前主流通用GPU推理方案存在能效比不足的瓶颈——以英伟达H100芯片为例,其推理场景下的能效比约为每瓦特3.2 teraflops(TFLOPS),数据中心每处理1 petabyte(PB)的推理数据需消耗约2.8兆瓦时电力,给企业运营成本带来不小压力。谷歌云2024年财报数据显示,AI推理业务能耗占总能耗的42%,同比上升18个百分点,成本控制正成为谷歌AI业务扩张的核心挑战。
在这一背景下,2026年4月19日,谷歌与半导体厂商Marvell分别在美国加州山景城和圣何塞启动联合研发AI推理专用芯片的磋商。双方计划整合谷歌在AI模型架构与推理负载特征上的积累,以及Marvell在定制化芯片设计和低功耗电路技术的优势,共同开发面向生成式AI推理场景的专用芯片。据知情人士消息,该芯片将重点优化Transformer模型的自注意力机制与张量运算效率,目标是把推理能效比提升至每瓦特5.0 TFLOPS以上,同时将数据中心单芯片电力消耗降至150瓦以内——这一指标较当前主流GPU降低约30%。
技术上,双方合作将聚焦三个核心方向:首先是存算一体架构的应用,Marvell计划引入最新3D堆叠内存技术,把芯片片上缓存容量提升至64GB,减少外部内存访问造成的能耗损失;其次是专用算子加速单元的设计,谷歌将提供Gemini模型的推理负载数据,Marvell据此开发针对多头注意力、矩阵乘法等关键算子的硬件加速电路,推理速度预计比通用GPU提升40%;最后是动态电压频率调节(DVFS)技术的优化,通过实时监测芯片负载调整运行参数,进一步降低空闲状态下的能耗。值得一提的是,Marvell此前为云计算客户定制的OCTEON TX3处理器已实现每瓦特2.5 TFLOPS的能效比,其在低功耗设计上的经验将为本次合作提供技术支撑。
这次合作对双方都有重要战略意义:对谷歌来说,专用推理芯片能帮助降低云服务运营成本,提升Gemini模型在推理场景下的响应速度,增强与亚马逊AWS、微软Azure的竞争优势;对Marvell而言,这是进入高端AI推理芯片市场的关键机会,有望打破英伟达在该领域的垄断——截至2026年第一季度,英伟达在AI推理芯片市场的份额约72%,而Marvell占比不足5%。不过目前合作还处于早期磋商阶段,双方尚未签署正式协议,具体技术路线和量产计划仍需进一步确认。
近期行业动态显示,AI推理芯片领域的竞争正愈发激烈:2026年3月,亚马逊AWS宣布与AMD合作研发第二代Graviton AI芯片,目标能效比达每瓦特4.8 TFLOPS;同年4月,微软与高通合作推出基于骁龙X Elite NPU的边缘推理方案,支持本地运行70亿参数的大模型。从竞争对手来看,英伟达在2026年Q1发布H100 NVL推理专用版,通过双芯片互联技术提升内存带宽,能效比较标准版提升22%;AMD则推出MI300X推理芯片,支持8位整数与4位浮点运算加速,图像生成任务速度较上一代提升50%。这些动向显示,AI推理芯片正朝着专用化、低功耗化方向发展,行业参与者需通过技术创新与生态合作巩固竞争优势。






快报