AI的记忆战争：Meta如何让几百Exabyte存储不再饿死GPU

2026年7月1日，Meta工程团队发布AI存储蓝图，完整披露了支撑Llama系列模型训练和推理的存储基础设施演进。当训练数据集每年膨胀3.7倍、模型发布间隔从数月压缩到数周时，存储正在取代GPU成为AI创新的隐性天花板——Meta用四套新子系统和一个协议层重构，证明了"如何喂饱GPU"正在成为比"如何造出更强的GPU"更紧迫的工程命题。

2026年6月，在Meta的@Scale技术大会上，存储工程师Sidharth Bajaj抛出一个令人不安的问题：想象一个曼哈顿大小的数据中心，塞满了一排又一排的GPU机柜，你启动电源开始训练最新的大模型，却发现GPU利用率远低于预期。问题出在哪？

绝大多数人的第一反应是芯片。而Bajaj给出的答案藏在系统栈的更底层——不是GPU不够强，而是存储来不及把数据喂到GPU嘴里。在他展示的一段120秒示例窗口中，单个GPU出现了5次停顿，每一次都是因为等待数据。在一个曼哈顿规模的数据中心里，这种闲置时间对应的是数百万美元一小时的资本浪费。

“If AI is the brain, storage is the memory，”Meta工程团队在次日（7月1日）正式发布的博文中写道。“能力和速度高度依赖于记忆的大小和检索的速度。”

数据的指数级膨胀，正在推翻旧架构

Meta运营着数百个Exabyte级（1 Exabyte = 10亿GB）的存储集群，支撑Facebook、Instagram、Reality Labs、Meta AI、广告系统、数据仓库等所有产品线。这些集群的底层是Tectonic——一个横跨区域、多租户的分布式文件系统，基于纠删码技术提供持久性和可用性，支持HDD和闪存之间的分层存储。

但问题是，这套架构的设计前提是传统互联网应用。AI工作负载的到来，彻底打破了原有的假设。

Bajaj在演讲中展示了一组数据：从2010年到2026年，199个大模型所使用的训练数据集规模大约每年增长3.7倍——过去十六年间膨胀了近10个数量级。与此同时，模态从纯文本扩展到图像、音频、长短视频，数据生产者从全人类扩展到AI自己生成的合成数据。更多、更重、而且自我再生的数据流，正以前所未有的速度冲击着存储系统。

传统BLOB存储（对象存储）在数十年的演进中，叠加了一层又一层的状态ful中间件。当一条getObject请求抵达API服务器时，它需要依次经过namelayer、volumeslayer、containerlayer等多层元数据查询，才能最终将路径解析为(blockId, offset, size)元组。某些查询还需要跨区域完成。累积下来的延迟可以到数百毫秒。

在HDD时代，数百毫秒并非致命问题。但当AI训练需要在毫秒级从闪存中读取数据时，这套架构就成了灾难。

更致命的是分布式训练的同步机制。Meta的工程师画了一张图来说明问题：两个GPU并行训练，GPU1的存储读取延迟始终可控，GPU2则多次出现高延迟。关键在于——在分布式训练中，如果一块GPU因为I/O等待而停顿，所有GPU都会等它。“pMax延迟（最差情况下的延迟）”而非平均延迟，才是真正决定GPU利用率的指标。一个慢节点，拖慢整个集群。

四套手术刀，一次架构革命

Meta没有选择在旧架构上打补丁。他们设计了一个全新的BLOB存储架构，核心引入了四套新子系统，外加一套协议层面的深度优化。

第一，零拷贝读路径

在新架构下，API服务器不再代理数据。客户端直接与Tectonic层建立数据通道，消除了数据在API服务器层面的拷贝和转发。这一步将数据路径上的关键瓶颈直接移除。

第二，热元数据缓存层

传统架构中，每一次getObject都需经过完整的多层元数据查询链路。Meta在API服务器和元数据存储之间加了一层采用闪存介质的热元数据缓存，将频繁访问的权限检查、volume映射、container信息直接缓存。这部分优化后，关键元数据缓存的访问时间降到了1–2毫秒。

第三，分布式数据缓存

Meta利用了GPU主机上的空闲内存，构建了一个分布式数据缓存层，复用其内部的Owl子系统组件。每次数据访问都会先经过这个缓存层。实践中，这层缓存的命中率达到80%——也就是说，80%的数据读取请求根本不需要走到底层存储。

第四，工作负载感知的I/O调度器

AI工作负载的I/O模式和传统应用截然不同：突发性高吞吐、可预测的pMax延迟、可变的I/O模式。Meta开发了一个自适应I/O调度器，能够根据不同优先级和不同类型的请求动态分配带宽。传统存储的限流策略是“所有请求一视同仁”的硬限流，而Meta的新方案是“知道哪些请求更关键”的智能调度。

这四套子系统的叠加效果，用Meta自己的话说：“我们的新BLOB存储栈现在能够在不引起GPU stall的情况下服务AI工作负载，在Tectonic层之上只增加可忽略的额外开销。”

但Meta说，这还只解决了80%的问题。

协议层：剩下的20%

剩下20%的优化来自协议层面的深度调优，涉及一系列看似微小但实际影响巨大的细节问题。

Dataloader直连。 Meta的AI训练框架中的Dataloader组件被重构，使其能直接从BLOB存储层预取数据，而不需要经过额外的中间层缓存。这确保GPU在完成当前batch处理时，下一个batch的数据已经就位。

Readplan元数据缓存。 Readplan是指从路径到存储地址的映射。Meta现在将频繁访问的BLOB的readplan缓存在一个类似memcache的分布式内存存储中，访问延迟仅为1–2毫秒。

慢节点处理。 个别存储节点可能因为负载不均而成为掉队者（Laggards），推高尾延迟。Meta在客户端引入了hedged reads（对冲读取）机制——同时向多个副本发出请求，取最先返回的结果，以此消除慢节点的影响。

Checkpoint突发写入控制。 大模型训练需要定期写入checkpoint（模型权重快照），数据量可达TB级别。传统架构下，这些大块顺序写入会与数据加载的小块随机读取争抢I/O资源，造成拥堵和超时。Meta的方案采用顺序条带化写入（sequential striping），将checkpoint数据分布到NVMe层进行高速写入，同时在客户端SDK中加入动态并发控制机制，根据应用层的拥塞信号自动调节并行度。

Egress流量管理。 跨区域数据搬运过程中，Meta引入了流量调度器（Traffic Director）和透明缓存层。允许用户在预训练期间将数据预先加载到目标区域，训练过程中由本地缓存自动提供服务。

这些看似琐碎的优化，每一个单独拿出来都不算惊天动地。但它们组合在一起，构成了Meta口中“在不增加Tectonic层额外开销的前提下服务AI工作负载”的能力。这套优化哲学的启示是：当存储成为瓶颈时，解决方案通常不是换一套全新的存储系统，而是在现有系统上层层剥离延迟，在每个层级都用最轻量的方式解决最重的I/O问题。

更大的拼图：从训练到推理，从Meta到行业

Meta这篇蓝图的发布恰逢一个关键的行业节点。

过去两年，AI行业的叙事几乎完全被GPU主导——英伟达的供应量、CoWoS封装产能、各家大模型在基准测试上的排名。但一个更底层的战场正在形成。当训练数据集每年膨胀数倍、模型发布周期从数月压缩到数周时，存储——这个被视作“沉默的基础设施”的领域——正逐步成为决定AI成本、速度和迭代质量的核心变量。

这个趋势从Meta的AI基础设施演进系列就能清楚看到。2024年的@Scale，Meta讲的是文件API的调优，解决了Llama训练的基本存储需求。2025年，Meta部署了全球最大的QLC闪存集群。2026年，他们彻底重写了对象存储API——从“通用基础设施”进化为“AI原生的存储系统”。这种逐年递进的节奏本身就在说明：存储的AI化，不是一次性地推倒重来，而是一个持续三年的系统性工程。

更重要的是，Meta的存储挑战并非孤例。AWS有S3与FSx for Lustre、Google Cloud有Colossus、Azure有Blob Storage——每一个云巨头都在为其对象存储系统添加AI专用优化层。但Meta的独特之处在于，它不仅要支撑外部客户，更要支撑从Llama训练到Meta AI推理、从广告模型到Reality Labs计算机视觉的全线产品。这种内部“吃自己狗粮”的强度，是任何云厂商都难以复制的实战压力。

与此同时，存储焦虑正在从训练蔓延到推理。随着AI从阶段性训练转向持续的分布式推理，传统的文件型存储架构暴露出更多局限。推理工作负载的特征是更高的并发度、更低的单请求延迟、更多的随机小读取。Bajaj在演讲中提到，当前GPU集群的存储瓶颈问题，正在被网络瓶颈接替——每一代GPU的网络接口卡（NIC）带宽翻倍，但CPU I/O能力的提升跟不上这个节奏。这意味着，即便存储做好了，网络也可能成为下一道锁喉。

谁的战争，谁的机遇

对于Meta这样的超大规模玩家，这篇蓝图的发布既是对内的一次技术总结，也是对外的一次基础设施宣言：AI的竞争，已经从单纯地堆GPU，进入了基础设施的精细化运营阶段。

这个判断背后有一个值得深入思考的分类。对于需要训练万亿参数基础模型的头部玩家——Meta、谷歌、OpenAI、微软——存储基础设施的深度优化是不得不做的事。你需要数百Exabyte的数据规模、数万GPU的训练集群，才会遇到Meta面临的问题，也才有足够的经济动力去解决它。对于一个曼哈顿规模的数据中心，GPU闲置时间对应的是数百万美元一小时的损失——这笔账算下来，重建存储系统的投入只不过是九牛一毛。

而对于不需要训练基础大模型的创业公司和应用开发者来说，存储可能根本不会成为瓶颈。你的GPU利用率不是被存储限制的，而是被模型架构、数据质量、或者产品策略限制的。Meta的蓝图对这个群体最大的价值，不是提供了一个可以照搬的技术方案，而是揭示了一个趋势判断：AI基础设施的成本结构正在从“一切围绕GPU”转向“围绕GPU的数据供应链做全栈优化”。

如果把AI比作大脑，存储就是记忆。这句话，可能道出了AI基础设施下一个十年的核心矛盾：当你把越来越多的GPU塞进数据中心，真正的天花板不在芯片的算力，而在于记忆有多大、提取有多快。