你有没有遇到过这种情况:跟一个 AI 助手聊了半小时,对话突然断掉,它把前面的上下文全忘了,你又得重新把需求复述一遍?这不仅是体验问题。这是当前所有 AI Agent 共同的致命伤。
今天的 AI 助手被包装成“协作者”“copilot”“队友”“自主 Agent”,但大多数在底层表现得像没有长期记忆的临时工。除非你把相关事实粘贴回对话窗口,或者让系统去外部数据库捞一遍,否则它什么都不记得。
这个弱点在一次对话或一封邮件里尚可容忍。但当任务横跨数周甚至数月,比如管理一个产品发布、跟踪一个跨部门项目,Agent 就必须记住最终里程碑日期,以及被废弃的替代方案、法务部门的反对意见、重塑妥协方案的客户约束、那个悄悄成为瓶颈的人。
微软研究院刚刚在 ICML 2026 上发表的一项研究,试图从根本上解决这个问题。
Agent 记忆的“不可能三角”
2026 年 6 月,微软研究院在机器学习顶级会议 ICML 2026 上展示了 Memora,一种谐波记忆表征(Harmonic Memory Representation)方案。论文作者包括首席研究经理 Xuchao Zhang、高级研究员 Molly Xia 和 Mayukh Das 等,全文发表于 arXiv:2602.03315。这个方案在 LoCoMo 和 LongMemEval 两个长期记忆基准上取得了新的最佳成绩,同时使用的上下文 Token 数远少于全历史提示方案。根据微软官方博客的数据,Memora 最多少用 98% 的上下文 Token。
Memora 的基本主张听起来简单但后果深远:未来的 Agent 不会仅仅靠往提示词里塞进更多对话历史就变得聪明。它们需要一个知道该保留什么、如何组织、何时检索的记忆系统。
为什么?因为这背后有一个 Agent 记忆领域的“不可能三角”。要同时做到完整保留细节、精准检索相关内容、控制 Token 成本,几乎不可能。
过去两年,AI 行业在拉伸上下文窗口上花了大量精力。Claude Sonnet 4 把窗口推到 1M,Gemini 做到 2M,Llama 4 Scout 宣称达到 10M。但更大的窗口并没有真正解决记忆的问题。它只是让临时工拥有了一张更大的便签纸。
一个上下文窗口不是记忆。至少不是企业用户理解的那种记忆。它是临时工作空间,不是有判断力的归档系统。
全上下文推理有一个诱人的暴力美学。把整个聊天历史摆在模型面前,让它去推理。在基准测试里这看起来是最干净的基线,因为没有刻意遗漏任何内容。但在真实系统里,这是一个成本高昂的坏习惯,尤其当大部分旧文本与当前决策无关时。
更深层的问题不只是 Token 成本。历史越积越长,矛盾、过时的计划、离题的讨论、半成型的想法全混在一起。一个接受了全部上下文的模型必须每次都重新判断什么重要。这就像不是翻阅一本整理好的项目笔记,而是从头重读一整条 Slack 频道。
传统的 RAG 改善了经济性。它索引片段,只提取看起来相关的块。但 RAG 本质上是为文档而非动态关系和决策演进设计的。它擅长找到语义相似的段落,却不擅长保存项目的叙事结构。当相关答案依赖于跨时间的更新链条时,RAG 往往会遗漏最关键的那一环。
摘要从相反的方向入手。它压缩对话,让模型可以携带前进。但压缩是一种暴力行为。未来争议中真正重要的细节,日期、例外、附带条件、名字、数字,往往是最先被牺牲的。
Memora 的真正巧思,解耦存储与检索
微软将 Memora 描述为一种“谐波记忆表征”。这个听起来像学术诗意的词组指向一个非常具体的设计选择。
在 Memora 中,每条记忆包含三层结构。
记忆值(Memory Value)保存所有有用细节:日期、数字、名字、前提条件、后续更新。这是记忆的“血肉”,但它在检索时并不被直接使用。
主要抽象(Primary Abstraction)是描述这条记忆本质关于什么的轻量级标签,通常只有 6 到 8 个词。它类似图书分类号,是真正被嵌入用于相似度搜索的检索键。关于同一主题的新信息不会创建新的独立条目,而是被合并到现有的记忆条目中。检索空间因此始终保持整洁。
提示锚点(Cue Anchor)是短小的上下文感知标签,从记忆值中提取,提供指向同一条记忆的替代检索路径。同一段记忆可以有多个锚点,从不同角度指向它:按主题、按时间、按人物、按项目阶段。这创造了一个记忆的“检索网格”。
关键反转就在这里:记忆值的详细内容不直接用作检索键。在普通向量检索中,存储的文本和检索表面往往是同一件事。如果一次对话包含同一项目时间线相关的三条更新,系统最终可能有三个独立块在竞争注意力。记忆在增长,但它并没有变得更聪明。
一个具体例子可以说明这种设计的威力。假设用户说:“Dave 和 Sarah 同意将原型推迟到 4 月 1 日,试点推迟到 5 月 2 日,MVP 推迟到 5 月 30 日。”在知识图谱系统中,你需要预定义实体类型和关系模式:Person → agreed_on → Milestone → has_date → Date。任何新关系类型都需要扩展模式。而在 Memora 中,主要抽象“Updated Project Orion timeline agreed by Dave and Sarah”充当规范接入点,而提示锚点如“Dave Project Orion update”、“Project Orion prototype schedule”、“Project Orion pilot timeline”则提供替代检索路径。后续对 Dave 近期贡献的查询、对原型进度的查询、对试点时间的查询,都能路由到同一条底层记忆,且无需承诺任何本体论。
Memora 基于这种结构采用了一种主动利用记忆连接的检索策略,能够超出直接语义相似性来检索相关信息。论文在理论上证明了标准的 RAG 和知识图谱记忆系统都是 Memora 框架的特例。
为什么说它比 RAG 更像记忆
理解 Memora 的价值,需要先理解 RAG 的固有盲区。
RAG 的核心假设是:只要有足够好的嵌入和足够大的向量库,正确的信息总能在语义上被召回。但这个假设在 Agent 场景中面临三重挑战。
语义不等于相关。一段对话中,用户说“把预算改为 50 万”在语义上可能和“项目预算”最相关。但真正需要的上下文是“之前谁在反对这个预算方案”。RAG 不会自动捕捉这种关联链条。
动态更新无法追踪。同一个项目时间表可能被修改三次。在 RAG 中,这三条修改被分块存储,彼此独立。Agent 检索时可能拿到旧版本而不知道已被覆盖。Memora 的主要抽象会把更新合并到同一条目下,确保检索到的总是最新状态。
上下文窗口不是记忆系统。即使把窗口扩展到 10M Token,也不能解决 Agent 需要跨会话记忆的问题。一次会话结束,窗口清空。下一次对话开始,Agent 又是白纸一张。Memora 是持久的外部状态,在下一次对话中可以被写入、更新、检索。
Memora 的回答不是放弃 RAG,而是将其作为一个子集吸收进自己的框架。当不需要记忆连接和更新合并时,Memora 退化为 RAG。当需要结构化关系时,它升级为类似知识图谱的系统。这种灵活性来自它的核心设计:记忆的存储形式和检索形式被有意解耦。
更好的架构比更大的窗口更有效
论文报告,Memora 在 LoCoMo 和 LongMemEval 两个长期记忆基准上取得了新的最优成绩,且最多少用 98% 的上下文 Token。
这背后的信号很清楚:在 Agent 记忆赛道里,更好的架构比更大的窗口更有效。
这在商业上也有直接意义。对于部署 AI Agent 的企业来说,Token 成本不是学术讨论。它是每月账单上的数字。一个能用更少 Token 达成更好记忆效果的系统,意味着更低的基础设施成本、更快的推理速度、更高的用户留存率。
微软在这个方向上的布局并非孤立。几乎同期,微软开源了 STATE-Bench(Stateful Task Agent Evaluation Benchmark),一个衡量 Agent 在真实企业任务中能否“越用越好”的基准测试框架,覆盖任务完成率、一致性、效率和沟通四个维度。Oracle 推出了基于 Oracle AI Database 的 Agent Memory 系统。Mem0 等创业公司发布了《2026 年 AI Agent 记忆现状报告》,系统梳理了 LoCoMo、LongMemEval 和 BEAM 三大主流记忆基准的最新格局。
整个行业正在意识到一个残酷的事实:Agent 的智能不只是模型的智能,更是记忆系统的智能。
从论文到产品,还有几步
Memora 目前是研究论文。它还没有变成微软产品中的默认设置。但微软研究院的定位很明确。这是下一波 Agent 生产力的关键基础设施。
从产业角度看,有几件事值得关注。
记忆即竞争壁垒。当模型本身的基准差距持续收窄时,决定 Agent 体验优劣的将是谁的记忆系统更好。微软在这个领域已经有 Copilot 生态的海量数据。Memora 如果集成进 Copilot,将形成数据与记忆的双重护城河。
长期记忆将成为 Agent 平台的标准功能。就像 2024 年的 RAG、2025 年的 MCP 协议一样,跨会话记忆正在快速从加分项变成基本要求。不能记住用户的 Agent,很快会被淘汰。
抽象的成本和风险。Memora 依赖 LLM 来生成主要抽象和提示锚点。这意味着记忆质量受限于底层模型的判断力。如果抽象生成错误,比如把“预算讨论”归类为“日程安排”,整个检索路径都会偏移。微软在论文中可能已经处理了这个问题,但在生产环境的长尾场景中,这是一块需要持续打磨的短板。
一个记住了你的 Agent,和记不住你的 Agent,是完全不同的两种产品。Memora 的核心洞见简单但深刻:记忆不仅仅是存储,而是在正确的粒度上组织信息,让相关性和时效性同时成立。AI 从“金鱼脑”到“大象记忆”的跨越,可能就从这篇论文开始。






快报