微软 Memora 终结 AI Agent 七秒记忆

微软研究院在 ICML 2026 上发表 Memora，一种谐波记忆表征方案，通过将存储与检索解耦，在 LoCoMo 和 LongMemEval 两项长期记忆基准上取得新 SOTA，同时最多少用 98% 的上下文 Token。这不仅是又一个 RAG 变体，它从架构层面重新定义了 AI Agent 应该怎样记住、忘记和回忆。

你有没有遇到过这种情况：跟一个 AI 助手聊了半小时，对话突然断掉，它把前面的上下文全忘了，你又得重新把需求复述一遍？这不仅是体验问题。这是当前所有 AI Agent 共同的致命伤。

今天的 AI 助手被包装成“协作者”“copilot”“队友”“自主 Agent”，但大多数在底层表现得像没有长期记忆的临时工。除非你把相关事实粘贴回对话窗口，或者让系统去外部数据库捞一遍，否则它什么都不记得。

这个弱点在一次对话或一封邮件里尚可容忍。但当任务横跨数周甚至数月，比如管理一个产品发布、跟踪一个跨部门项目，Agent 就必须记住最终里程碑日期，以及被废弃的替代方案、法务部门的反对意见、重塑妥协方案的客户约束、那个悄悄成为瓶颈的人。

微软研究院刚刚在 ICML 2026 上发表的一项研究，试图从根本上解决这个问题。

Agent 记忆的“不可能三角”

2026 年 6 月，微软研究院在机器学习顶级会议 ICML 2026 上展示了 Memora，一种谐波记忆表征（Harmonic Memory Representation）方案。论文作者包括首席研究经理 Xuchao Zhang、高级研究员 Molly Xia 和 Mayukh Das 等，全文发表于 arXiv:2602.03315。这个方案在 LoCoMo 和 LongMemEval 两个长期记忆基准上取得了新的最佳成绩，同时使用的上下文 Token 数远少于全历史提示方案。根据微软官方博客的数据，Memora 最多少用 98% 的上下文 Token。

Memora 的基本主张听起来简单但后果深远：未来的 Agent 不会仅仅靠往提示词里塞进更多对话历史就变得聪明。它们需要一个知道该保留什么、如何组织、何时检索的记忆系统。

为什么？因为这背后有一个 Agent 记忆领域的“不可能三角”。要同时做到完整保留细节、精准检索相关内容、控制 Token 成本，几乎不可能。

过去两年，AI 行业在拉伸上下文窗口上花了大量精力。Claude Sonnet 4 把窗口推到 1M，Gemini 做到 2M，Llama 4 Scout 宣称达到 10M。但更大的窗口并没有真正解决记忆的问题。它只是让临时工拥有了一张更大的便签纸。

一个上下文窗口不是记忆。至少不是企业用户理解的那种记忆。它是临时工作空间，不是有判断力的归档系统。

全上下文推理有一个诱人的暴力美学。把整个聊天历史摆在模型面前，让它去推理。在基准测试里这看起来是最干净的基线，因为没有刻意遗漏任何内容。但在真实系统里，这是一个成本高昂的坏习惯，尤其当大部分旧文本与当前决策无关时。

更深层的问题不只是 Token 成本。历史越积越长，矛盾、过时的计划、离题的讨论、半成型的想法全混在一起。一个接受了全部上下文的模型必须每次都重新判断什么重要。这就像不是翻阅一本整理好的项目笔记，而是从头重读一整条 Slack 频道。

传统的 RAG 改善了经济性。它索引片段，只提取看起来相关的块。但 RAG 本质上是为文档而非动态关系和决策演进设计的。它擅长找到语义相似的段落，却不擅长保存项目的叙事结构。当相关答案依赖于跨时间的更新链条时，RAG 往往会遗漏最关键的那一环。

摘要从相反的方向入手。它压缩对话，让模型可以携带前进。但压缩是一种暴力行为。未来争议中真正重要的细节，日期、例外、附带条件、名字、数字，往往是最先被牺牲的。

Memora 的真正巧思，解耦存储与检索

微软将 Memora 描述为一种“谐波记忆表征”。这个听起来像学术诗意的词组指向一个非常具体的设计选择。

在 Memora 中，每条记忆包含三层结构。

记忆值（Memory Value）保存所有有用细节：日期、数字、名字、前提条件、后续更新。这是记忆的“血肉”，但它在检索时并不被直接使用。

主要抽象（Primary Abstraction）是描述这条记忆本质关于什么的轻量级标签，通常只有 6 到 8 个词。它类似图书分类号，是真正被嵌入用于相似度搜索的检索键。关于同一主题的新信息不会创建新的独立条目，而是被合并到现有的记忆条目中。检索空间因此始终保持整洁。

提示锚点（Cue Anchor）是短小的上下文感知标签，从记忆值中提取，提供指向同一条记忆的替代检索路径。同一段记忆可以有多个锚点，从不同角度指向它：按主题、按时间、按人物、按项目阶段。这创造了一个记忆的“检索网格”。

关键反转就在这里：记忆值的详细内容不直接用作检索键。在普通向量检索中，存储的文本和检索表面往往是同一件事。如果一次对话包含同一项目时间线相关的三条更新，系统最终可能有三个独立块在竞争注意力。记忆在增长，但它并没有变得更聪明。

一个具体例子可以说明这种设计的威力。假设用户说：“Dave 和 Sarah 同意将原型推迟到 4 月 1 日，试点推迟到 5 月 2 日，MVP 推迟到 5 月 30 日。”在知识图谱系统中，你需要预定义实体类型和关系模式：Person → agreed_on → Milestone → has_date → Date。任何新关系类型都需要扩展模式。而在 Memora 中，主要抽象“Updated Project Orion timeline agreed by Dave and Sarah”充当规范接入点，而提示锚点如“Dave Project Orion update”、“Project Orion prototype schedule”、“Project Orion pilot timeline”则提供替代检索路径。后续对 Dave 近期贡献的查询、对原型进度的查询、对试点时间的查询，都能路由到同一条底层记忆，且无需承诺任何本体论。

Memora 基于这种结构采用了一种主动利用记忆连接的检索策略，能够超出直接语义相似性来检索相关信息。论文在理论上证明了标准的 RAG 和知识图谱记忆系统都是 Memora 框架的特例。

为什么说它比 RAG 更像记忆

理解 Memora 的价值，需要先理解 RAG 的固有盲区。

RAG 的核心假设是：只要有足够好的嵌入和足够大的向量库，正确的信息总能在语义上被召回。但这个假设在 Agent 场景中面临三重挑战。

语义不等于相关。一段对话中，用户说“把预算改为 50 万”在语义上可能和“项目预算”最相关。但真正需要的上下文是“之前谁在反对这个预算方案”。RAG 不会自动捕捉这种关联链条。

动态更新无法追踪。同一个项目时间表可能被修改三次。在 RAG 中，这三条修改被分块存储，彼此独立。Agent 检索时可能拿到旧版本而不知道已被覆盖。Memora 的主要抽象会把更新合并到同一条目下，确保检索到的总是最新状态。

上下文窗口不是记忆系统。即使把窗口扩展到 10M Token，也不能解决 Agent 需要跨会话记忆的问题。一次会话结束，窗口清空。下一次对话开始，Agent 又是白纸一张。Memora 是持久的外部状态，在下一次对话中可以被写入、更新、检索。

Memora 的回答不是放弃 RAG，而是将其作为一个子集吸收进自己的框架。当不需要记忆连接和更新合并时，Memora 退化为 RAG。当需要结构化关系时，它升级为类似知识图谱的系统。这种灵活性来自它的核心设计：记忆的存储形式和检索形式被有意解耦。

更好的架构比更大的窗口更有效

论文报告，Memora 在 LoCoMo 和 LongMemEval 两个长期记忆基准上取得了新的最优成绩，且最多少用 98% 的上下文 Token。

这背后的信号很清楚：在 Agent 记忆赛道里，更好的架构比更大的窗口更有效。

这在商业上也有直接意义。对于部署 AI Agent 的企业来说，Token 成本不是学术讨论。它是每月账单上的数字。一个能用更少 Token 达成更好记忆效果的系统，意味着更低的基础设施成本、更快的推理速度、更高的用户留存率。

微软在这个方向上的布局并非孤立。几乎同期，微软开源了 STATE-Bench（Stateful Task Agent Evaluation Benchmark），一个衡量 Agent 在真实企业任务中能否“越用越好”的基准测试框架，覆盖任务完成率、一致性、效率和沟通四个维度。Oracle 推出了基于 Oracle AI Database 的 Agent Memory 系统。Mem0 等创业公司发布了《2026 年 AI Agent 记忆现状报告》，系统梳理了 LoCoMo、LongMemEval 和 BEAM 三大主流记忆基准的最新格局。

整个行业正在意识到一个残酷的事实：Agent 的智能不只是模型的智能，更是记忆系统的智能。

从论文到产品，还有几步

Memora 目前是研究论文。它还没有变成微软产品中的默认设置。但微软研究院的定位很明确。这是下一波 Agent 生产力的关键基础设施。

从产业角度看，有几件事值得关注。

记忆即竞争壁垒。当模型本身的基准差距持续收窄时，决定 Agent 体验优劣的将是谁的记忆系统更好。微软在这个领域已经有 Copilot 生态的海量数据。Memora 如果集成进 Copilot，将形成数据与记忆的双重护城河。

长期记忆将成为 Agent 平台的标准功能。就像 2024 年的 RAG、2025 年的 MCP 协议一样，跨会话记忆正在快速从加分项变成基本要求。不能记住用户的 Agent，很快会被淘汰。

抽象的成本和风险。Memora 依赖 LLM 来生成主要抽象和提示锚点。这意味着记忆质量受限于底层模型的判断力。如果抽象生成错误，比如把“预算讨论”归类为“日程安排”，整个检索路径都会偏移。微软在论文中可能已经处理了这个问题，但在生产环境的长尾场景中，这是一块需要持续打磨的短板。

一个记住了你的 Agent，和记不住你的 Agent，是完全不同的两种产品。Memora 的核心洞见简单但深刻：记忆不仅仅是存储，而是在正确的粒度上组织信息，让相关性和时效性同时成立。AI 从“金鱼脑”到“大象记忆”的跨越，可能就从这篇论文开始。