当前位置：首页 > news >正文

北大提出把图结构视为 Agent 的长期记忆底座：SAGE 让大模型记忆自己进化！

news 2026/7/27 0:34:40

当大语言模型从“单轮问答工具”逐渐变成能够持续陪伴、持续协作、持续执行任务的 Agent 时，一个越来越明显的问题出现了：

模型不只是要会回答当下的问题，更要会记住过去、组织过去、调用过去，并且在新的交互中不断修正过去。

这篇论文提出的SAGE，全称是Self-Evolving Agentic Graph-Memory Engine，可以理解为一种“自我进化的 Agent 图记忆引擎”。它的目标不是简单地把外部资料塞进向量库，也不是只把知识图谱当作检索索引，而是把图本身当成 Agent 的长期记忆载体：
记忆可以被写入，可以被读取，也可以根据读取结果继续变好。

01｜为什么传统 RAG 不够用了？

传统 RAG 的基本逻辑是：
用户提出问题 → 系统从外部文档中检索相关片段 → LLM 根据片段生成答案。

这种方式在很多知识问答任务中有效，但放到长期 Agent 记忆场景中，就会暴露出明显短板。

因为 Agent 的长期记忆往往不是一段完整文本，而是分散在多轮对话、不同事件、不同实体、不同别名、不同时间线里的碎片。用户的问题也经常不是直接问：“某某是谁？”而是带有模糊线索，比如：

“上周实验室会议里 Alice 提到过一个和 Cornu Ammonis 有关的工作，在同一领域里有没有能帮助 Agent 记忆的例子？”

这个问题里真正有用的线索是分散的：Alice、lab meeting、Cornu Ammonis、agent memory。系统必须把这些线索串起来，连接到 hippocampus、HippoRAG、GraphRAG，最终才能定位到 SAGE。

这说明长期记忆检索不只是“找相似文本”，而是要完成一种更接近人类记忆的过程：

从零散线索中唤醒相关记忆，再沿着关系链找出完整证据。

传统向量检索容易停留在局部相似片段；很多 GraphRAG 方法虽然引入了图结构，但往往把图当成固定索引，依赖预设路径、社区、邻居扩展或启发式规则。作者认为，这还不够。

Agent 需要的是一种能持续写入、结构化读取、并且自我修正的长期记忆系统。

02｜SAGE 想解决的三个核心问题

作者把 Agent 图记忆的难点概括为三个方面。

① 从碎片线索中恢复完整证据链

长期记忆里的问题经常只有局部提示，真正的答案可能依赖中间实体或桥接节点。
如果系统只从问题中显式出现的实体开始扩展，很容易只找到表层相关内容，却错过关键桥梁。

SAGE 希望做到的是：
即使问题只给出少量线索，也能激活完整的记忆链条。

② 学会使用图结构，而不是机械扩展图结构

在图中，不同节点有不同角色：
有些是 hub，有些是 bridge，有些是 community core，有些只是噪声捷径。

传统方法可能会简单地扩展邻居，导致 hub 节点带来大量无关信息；也可能因为初始锚点不对，错过桥接节点。
SAGE 的目标是让 reader 学会区分这些结构角色：

hub 不能盲目扩展；
bridge 不能轻易漏掉；
噪声边需要抑制；
跨社区路径需要保留。

③ 记忆系统本身要能进化

现有很多 RAG / GraphRAG 方法默认外部记忆已经建好，核心问题只是“怎么检索”。
但长期 Agent 场景里，写入记忆本身就是核心任务。

如果 reader 发现某些证据总是检索不到，说明 writer 写图时可能缺少关键边、关键别名或关键桥接关系。
因此，检索失败不应该只是失败，而应该成为下一轮写入和更新的反馈。

这就是 SAGE 的关键思想：

Reader 负责读出记忆，Writer 负责写入记忆；Reader 的结果反过来指导 Writer 改善图记忆。

03｜SAGE 的整体框架：一个“写—读—反馈”的图记忆引擎

SAGE 的系统可以拆成两个核心角色：

Memory Writer：负责把交互历史或候选文档写成图记忆。
Memory Reader：负责基于图记忆进行结构感知检索，并把结果反馈给 Writer。

在输入上，每个样本包含问题、候选历史记忆片段、支持答案的黄金证据，以及标准答案。
Writer 会逐步构建图；Reader 会在图上进行查询相关传播，得到实体级相关性分数，再映射到文档级证据，最后把检索到的文档、子图和路径交给 LLM 生成答案。

这个设计把“记忆”从静态外部数据库变成了动态对象：

历史片段 / 对话 / 文档 ↓ Memory Writer 写成图 ↓ Graph Memory 存储实体、关系、文档、来源锚点 ↓ Memory Reader 在图上激活证据链 ↓ 检索结果变成奖励和反馈 ↓ Writer 下一轮写得更好

这种闭环使 SAGE 不再只是一个检索模块，而更像一个会逐渐调整自身记忆结构的长期记忆系统。

04｜Memory Writer：不是简单抽三元组，而是学习“怎么写才方便以后读”

SAGE 的 Writer 被建模成一个顺序决策策略。
每一步，它看到当前问题、候选文档、已经写出的部分图、已经处理过的文档，然后决定下一步写入什么。

它的动作主要包括：

写入实体—关系—实体三元组；
记录这些三元组来自哪个文档；
为后续 reader 建立实体到文档的 source anchor。

这里的重点不是“抽取越多越好”，而是要写出对后续检索和推理真正有帮助的图结构。

作者给 Writer 设计了 reader-aware reward，也就是让 Writer 的奖励来自 Reader 实际使用这张图之后的效果。主要包括三类：

第一类：Recover Reward

衡量系统是否能找回支持答案的证据。
Recall 鼓励覆盖必要证据，Precision 防止引入太多无关证据。

第二类：Deduced Reward

衡量检索到的证据是否足以推出标准答案。
这比单纯检索匹配更进一步，因为有些证据虽然相关，但未必能支撑完整推理链。

第三类：Answer-level Reward

衡量最终答案和标准答案之间的匹配程度，让图写入更贴近端到端问答目标。

同时，作者还加入重复惩罚，避免 Writer 为了提高覆盖率而堆叠大量重复三元组。最后，Writer 使用 GRPO 进行更新。

表 5 展示了不同 Writer 训练奖励的效果。RL-Hybrid 在 Precision 和 Recall 上表现最好，达到 0.902 和 0.917；Hybrid + frozen answer API 的 Deducible 最高，为 0.526。这个表适合说明“混合奖励比单一奖励更平衡”。

表 6 说明 Writer 的跨域迁移能力。作者发现，从 HotpotQA / MuSiQue 学到的写入策略可以迁移到 GRBench、HaluMem、LongMemEval，但目标域继续训练仍然非常重要。

表 7 解释了写入协议和交互轮数的影响。更宽松的写入预算能提高 Recall，但可能降低 Deducible；多轮交互有助于补全跨文档桥接路径，但并不是轮数越多越好。

05｜Memory Reader：用 Graph Foundation Model 进行结构感知读取

SAGE 的 Reader 不是普通 dense retriever，也不是固定分布上的传统 GNN。
作者选择使用Graph Foundation Model，GFM作为 Reader 的核心，因为 GFM 可以通过多图预训练学习跨图结构先验，更适合面对不断变化的 graph memory。

Reader 的目标是输出三类结果：

① 查询相关的实体分布 ② 最终检索到的文档分布 ③ 可解释的查询激活子图

为了做到这一点，SAGE Reader 设计了几个关键模块。

① 结构化 Query Planning

作者认为，人类在回忆长期记忆时，往往不会只使用原始问题本身，而是会自动生成多个联想线索。
因此，SAGE 不把自然语言问题当成单一检索命令，而是先把问题拆解成多种检索探针，包括：

显式实体；
候选别名；
关系线索；
硬约束；
目标答案类型；
多个伪查询或检索意图。

这一步相当于先帮系统“想清楚该从哪些方向唤醒记忆”。

② Soft Addressing：从模糊线索中预激活记忆

SAGE 不只匹配完全出现的实体，还综合考虑别名、描述相似度、类型、约束、实体链接等因素，为每个实体计算 query-conditioned entry score。

这一步可以理解为：
不是只点亮一个明确节点，而是先点亮一片可能相关的记忆区域。

这样可以缓解“话到嘴边却想不起来”的问题，也能让系统在缺少显式桥接实体时，仍然有机会找到正确路径。

③ 结构门控传播：区分 hub、bridge 和噪声边

SAGE 的 Reader 会计算节点级、边对级、图级结构特征，并通过 edge-level vector structural gating 控制信息传播。

它不是简单地让信息沿所有边均匀扩散，而是学习：

哪些边像有效证据路径；
哪些节点是关键桥梁；
哪些 hub 容易带来噪声；
哪些局部重复信息应该被削弱；
哪些跨社区关联应该被保留。

这也是 SAGE 相比许多启发式 GraphRAG 方法更关键的地方：
它不是“使用图”，而是“学习如何使用图”。

④ Context–Schema 双通道

由于 Writer 每一轮都会修改图，Reader 面对的图分布也会变化。
所以 Reader 不能只依赖某一张固定图上的传播模式。

作者设计了两条通道：

Context Channel：适应当前这张图的具体结构和噪声。 Schema Channel：保留跨图学到的通用结构先验。

这类似于人类记忆中的两种能力：
一方面根据当前语境灵活调整，另一方面又保留稳定的结构化回忆习惯。

06｜自演化闭环：SAGE 真正特别的地方

SAGE 最核心的创新点之一，是 writer–reader self-evolution。

整个过程可以概括成两步交替进行：

第一步：固定 Reader，训练 Writer Reader 读取当前图并给出检索反馈，Writer 根据反馈学习如何写出更可读、更有用的图。 第二步：固定更新后的 Writer，训练 Reader Writer 生成新的图记忆，Reader 在这些新图上继续学习如何读取。

这样就形成了一个闭环：

Writer 写得更好，Reader 就更容易读出证据；Reader 读得更准，Writer 就能获得更准确的反馈。

作者还从理论上说明了这个闭环可以被看成对联合记忆效用的近似坐标改进。
也就是说，Writer 更新改善图的可读性，Reader 更新减少图分布变化带来的偏差，两者共同推动系统向更好的记忆状态演化。

07｜实验结果：SAGE 在多类任务中验证了什么？

作者在五类场景中评估 SAGE，包括开放域问答、多跳问答、电商评论问答、长期 Agent 记忆和记忆幻觉诊断。

① 开放域检索：NQ 上零样本表现很强

在 NQ 和 PopQA 上，SAGE 使用零样本迁移设置。
结果显示，SAGE 在 NQ 上达到：

Recall@2 = 82.5 Recall@5 = 91.6

这个结果明显高于表中多个传统检索和 GraphRAG 基线。
在 PopQA 上，SAGE 的 Recall@2 / Recall@5 为 41.5 / 52.3，表现具有竞争力，但并不是所有指标都超过最强基线。

② 多跳问答：自演化轮数带来明显收益

在 HotpotQA、MuSiQue、2WikiMultiHopQA 三个多跳问答数据集上，作者比较了 BM25、Contriever、ColBERTv2、GraphRAG、LightRAG、HippoRAG、PropRAG、GFM-RAG、IRCoT 等方法。

SAGE 的一个重点结果是：
经过两轮自演化后，SAGE 在多跳 QA 的平均排名达到 2.5，是表中最优平均排名。

其中：

ours +2 round： HotpotQA F1 = 80.8 MuSiQue F1 = 53.1 2WikiMultiHopQA F1 = 80.4 Avg. Rank = 2.5

这说明，SAGE 的自演化机制确实帮助系统更好地恢复多跳证据链，而不只是提升单次检索分数。

③ 检索效率：速度优势非常明显

SAGE 在检索时间上表现非常突出。
在 HotpotQA、MuSiQue、2Wiki 上，SAGE 的检索时间分别为：

HotpotQA：0.032 秒 MuSiQue：0.034 秒 2Wiki：0.019 秒

相比 GraphRAG、LightRAG、HippoRAG + IRCoT 等方法，SAGE 的速度优势非常明显。
这说明它不仅强调结构化记忆，也考虑了大规模部署时的效率问题。

08｜可解释性：SAGE 不只给答案，还能给路径

除了最终答案，SAGE 还可以输出查询激活子图和推理路径。
这对于图记忆系统非常重要，因为长期 Agent 不只要“答对”，还要能说明答案是从哪些记忆节点、哪些关系路径中推出来的。

论文中的案例展示了一个多跳问题：

“哪位提出 Australia 2022 FIFA World Cup bid 的人出生于 1930 年 10 月 22 日？”

SAGE 找到的路径把两个约束连接起来：

Australia 2022 FIFA World Cup bid → representative → Frank Lowy → equivalent → Sir Frank P. Lowy → born on → 22 October 1930

这个例子说明，SAGE 能够处理实体别名、反向关系、多跳路径和约束对齐。

09｜总结：SAGE 的价值在哪里？

这篇论文的核心贡献可以概括为一句话：

作者提出了一种把图记忆视为动态长期记忆对象的 Agent Memory 框架，让记忆能够被写入、被读取、被反馈，并在读写闭环中自我进化。

相比传统 RAG，SAGE 的重点不是“检索更多文本”，而是：

从碎片线索中恢复证据链； 从图结构中识别关键桥梁； 从 Reader 反馈中改进 Writer； 从静态索引走向动态记忆。

相比普通 GraphRAG，SAGE 的图不是一次性构建好的外部索引，而是一个会随着任务反馈不断修正的长期记忆基底。当然，论文结果也显示，SAGE 在长期 Agent 记忆系统上还没有全面超过最强工程化基线，尤其在知识更新、高覆盖抽取、长期一致性维护方面仍有提升空间。
但它提出了一个很有启发性的方向：

未来的 Agent 记忆系统，不应只是“存储过去”，而应学会“组织过去、读取过去、修正过去”。

这正是现在agent+kg系列论文正在试图迈出的关键一步。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～