AI的记忆战争:Meta如何让几百Exabyte存储不再饿死GPU

2026.07.02 07:12
2026年7月1日,Meta工程团队发布AI存储蓝图,完整披露了支撑Llama系列模型训练和推理的存储基础设施演进。当训练数据集每年膨胀3.7倍、模型发布间隔从数月压缩到数周时,存储正在取代GPU成为AI创新的隐性天花板——Meta用四套新子系统和一个协议层重构,证明了"如何喂饱GPU"正在成为比"如何造出更强的GPU"更紧迫的工程命题。

2026年6月,在Meta的@Scale技术大会上,存储工程师Sidharth Bajaj抛出一个令人不安的问题:想象一个曼哈顿大小的数据中心,塞满了一排又一排的GPU机柜,你启动电源开始训练最新的大模型,却发现GPU利用率远低于预期。问题出在哪?

绝大多数人的第一反应是芯片。而Bajaj给出的答案藏在系统栈的更底层——不是GPU不够强,而是存储来不及把数据喂到GPU嘴里。在他展示的一段120秒示例窗口中,单个GPU出现了5次停顿,每一次都是因为等待数据。在一个曼哈顿规模的数据中心里,这种闲置时间对应的是数百万美元一小时的资本浪费。

“If AI is the brain, storage is the memory,”Meta工程团队在次日(7月1日)正式发布的博文中写道。“能力和速度高度依赖于记忆的大小和检索的速度。”

数据的指数级膨胀,正在推翻旧架构

Meta运营着数百个Exabyte级(1 Exabyte = 10亿GB)的存储集群,支撑Facebook、Instagram、Reality Labs、Meta AI、广告系统、数据仓库等所有产品线。这些集群的底层是Tectonic——一个横跨区域、多租户的分布式文件系统,基于纠删码技术提供持久性和可用性,支持HDD和闪存之间的分层存储。

但问题是,这套架构的设计前提是传统互联网应用。AI工作负载的到来,彻底打破了原有的假设。

Bajaj在演讲中展示了一组数据:从2010年到2026年,199个大模型所使用的训练数据集规模大约每年增长3.7倍——过去十六年间膨胀了近10个数量级。与此同时,模态从纯文本扩展到图像、音频、长短视频,数据生产者从全人类扩展到AI自己生成的合成数据。更多、更重、而且自我再生的数据流,正以前所未有的速度冲击着存储系统。

传统BLOB存储(对象存储)在数十年的演进中,叠加了一层又一层的状态ful中间件。当一条getObject请求抵达API服务器时,它需要依次经过namelayer、volumeslayer、containerlayer等多层元数据查询,才能最终将路径解析为(blockId, offset, size)元组。某些查询还需要跨区域完成。累积下来的延迟可以到数百毫秒。

在HDD时代,数百毫秒并非致命问题。但当AI训练需要在毫秒级从闪存中读取数据时,这套架构就成了灾难。

更致命的是分布式训练的同步机制。Meta的工程师画了一张图来说明问题:两个GPU并行训练,GPU1的存储读取延迟始终可控,GPU2则多次出现高延迟。关键在于——在分布式训练中,如果一块GPU因为I/O等待而停顿,所有GPU都会等它。“pMax延迟(最差情况下的延迟)”而非平均延迟,才是真正决定GPU利用率的指标。一个慢节点,拖慢整个集群。

四套手术刀,一次架构革命

Meta没有选择在旧架构上打补丁。他们设计了一个全新的BLOB存储架构,核心引入了四套新子系统,外加一套协议层面的深度优化。

第一,零拷贝读路径

在新架构下,API服务器不再代理数据。客户端直接与Tectonic层建立数据通道,消除了数据在API服务器层面的拷贝和转发。这一步将数据路径上的关键瓶颈直接移除。

第二,热元数据缓存层

传统架构中,每一次getObject都需经过完整的多层元数据查询链路。Meta在API服务器和元数据存储之间加了一层采用闪存介质的热元数据缓存,将频繁访问的权限检查、volume映射、container信息直接缓存。这部分优化后,关键元数据缓存的访问时间降到了1–2毫秒。

第三,分布式数据缓存

Meta利用了GPU主机上的空闲内存,构建了一个分布式数据缓存层,复用其内部的Owl子系统组件。每次数据访问都会先经过这个缓存层。实践中,这层缓存的命中率达到80%——也就是说,80%的数据读取请求根本不需要走到底层存储。

第四,工作负载感知的I/O调度器

AI工作负载的I/O模式和传统应用截然不同:突发性高吞吐、可预测的pMax延迟、可变的I/O模式。Meta开发了一个自适应I/O调度器,能够根据不同优先级和不同类型的请求动态分配带宽。传统存储的限流策略是“所有请求一视同仁”的硬限流,而Meta的新方案是“知道哪些请求更关键”的智能调度。

这四套子系统的叠加效果,用Meta自己的话说:“我们的新BLOB存储栈现在能够在不引起GPU stall的情况下服务AI工作负载,在Tectonic层之上只增加可忽略的额外开销。”

但Meta说,这还只解决了80%的问题。

协议层:剩下的20%

剩下20%的优化来自协议层面的深度调优,涉及一系列看似微小但实际影响巨大的细节问题。

Dataloader直连。 Meta的AI训练框架中的Dataloader组件被重构,使其能直接从BLOB存储层预取数据,而不需要经过额外的中间层缓存。这确保GPU在完成当前batch处理时,下一个batch的数据已经就位。

Readplan元数据缓存。 Readplan是指从路径到存储地址的映射。Meta现在将频繁访问的BLOB的readplan缓存在一个类似memcache的分布式内存存储中,访问延迟仅为1–2毫秒。

慢节点处理。 个别存储节点可能因为负载不均而成为掉队者(Laggards),推高尾延迟。Meta在客户端引入了hedged reads(对冲读取)机制——同时向多个副本发出请求,取最先返回的结果,以此消除慢节点的影响。

Checkpoint突发写入控制。 大模型训练需要定期写入checkpoint(模型权重快照),数据量可达TB级别。传统架构下,这些大块顺序写入会与数据加载的小块随机读取争抢I/O资源,造成拥堵和超时。Meta的方案采用顺序条带化写入(sequential striping),将checkpoint数据分布到NVMe层进行高速写入,同时在客户端SDK中加入动态并发控制机制,根据应用层的拥塞信号自动调节并行度。

Egress流量管理。 跨区域数据搬运过程中,Meta引入了流量调度器(Traffic Director)和透明缓存层。允许用户在预训练期间将数据预先加载到目标区域,训练过程中由本地缓存自动提供服务。

这些看似琐碎的优化,每一个单独拿出来都不算惊天动地。但它们组合在一起,构成了Meta口中“在不增加Tectonic层额外开销的前提下服务AI工作负载”的能力。这套优化哲学的启示是:当存储成为瓶颈时,解决方案通常不是换一套全新的存储系统,而是在现有系统上层层剥离延迟,在每个层级都用最轻量的方式解决最重的I/O问题。

更大的拼图:从训练到推理,从Meta到行业

Meta这篇蓝图的发布恰逢一个关键的行业节点。

过去两年,AI行业的叙事几乎完全被GPU主导——英伟达的供应量、CoWoS封装产能、各家大模型在基准测试上的排名。但一个更底层的战场正在形成。当训练数据集每年膨胀数倍、模型发布周期从数月压缩到数周时,存储——这个被视作“沉默的基础设施”的领域——正逐步成为决定AI成本、速度和迭代质量的核心变量。

这个趋势从Meta的AI基础设施演进系列就能清楚看到。2024年的@Scale,Meta讲的是文件API的调优,解决了Llama训练的基本存储需求。2025年,Meta部署了全球最大的QLC闪存集群。2026年,他们彻底重写了对象存储API——从“通用基础设施”进化为“AI原生的存储系统”。这种逐年递进的节奏本身就在说明:存储的AI化,不是一次性地推倒重来,而是一个持续三年的系统性工程。

更重要的是,Meta的存储挑战并非孤例。AWS有S3与FSx for Lustre、Google Cloud有Colossus、Azure有Blob Storage——每一个云巨头都在为其对象存储系统添加AI专用优化层。但Meta的独特之处在于,它不仅要支撑外部客户,更要支撑从Llama训练到Meta AI推理、从广告模型到Reality Labs计算机视觉的全线产品。这种内部“吃自己狗粮”的强度,是任何云厂商都难以复制的实战压力。

与此同时,存储焦虑正在从训练蔓延到推理。随着AI从阶段性训练转向持续的分布式推理,传统的文件型存储架构暴露出更多局限。推理工作负载的特征是更高的并发度、更低的单请求延迟、更多的随机小读取。Bajaj在演讲中提到,当前GPU集群的存储瓶颈问题,正在被网络瓶颈接替——每一代GPU的网络接口卡(NIC)带宽翻倍,但CPU I/O能力的提升跟不上这个节奏。这意味着,即便存储做好了,网络也可能成为下一道锁喉。

谁的战争,谁的机遇

对于Meta这样的超大规模玩家,这篇蓝图的发布既是对内的一次技术总结,也是对外的一次基础设施宣言:AI的竞争,已经从单纯地堆GPU,进入了基础设施的精细化运营阶段。

这个判断背后有一个值得深入思考的分类。对于需要训练万亿参数基础模型的头部玩家——Meta、谷歌、OpenAI、微软——存储基础设施的深度优化是不得不做的事。你需要数百Exabyte的数据规模、数万GPU的训练集群,才会遇到Meta面临的问题,也才有足够的经济动力去解决它。对于一个曼哈顿规模的数据中心,GPU闲置时间对应的是数百万美元一小时的损失——这笔账算下来,重建存储系统的投入只不过是九牛一毛。

而对于不需要训练基础大模型的创业公司和应用开发者来说,存储可能根本不会成为瓶颈。你的GPU利用率不是被存储限制的,而是被模型架构、数据质量、或者产品策略限制的。Meta的蓝图对这个群体最大的价值,不是提供了一个可以照搬的技术方案,而是揭示了一个趋势判断:AI基础设施的成本结构正在从“一切围绕GPU”转向“围绕GPU的数据供应链做全栈优化”。

如果把AI比作大脑,存储就是记忆。这句话,可能道出了AI基础设施下一个十年的核心矛盾:当你把越来越多的GPU塞进数据中心,真正的天花板不在芯片的算力,而在于记忆有多大、提取有多快。

作品声明:内容由AI生成