当前位置：首页 > news >正文

Mem0g用图谱拿到 68.4%，TiMem5 层时间树为什么走另一条路

news 2026/5/5 5:19:39

我前阵子在跑一个长会话的 agent demo，连续 200 轮对话之后用户突然问：“我上次说的那个公司你还记得吗？”

Mem0 选择性 pipeline 检索回来的是用户两个月前提过一次的公司名，但用户中途已经换了工作。Agent 一本正经地用了过期信息回答，被用户当场拆穿。

这个 case 让我重新审视了 2026 年这波 AI agent 记忆方案——尤其是 Mem0 团队在 v1.0.0 推出的图增强变体 Mem0g 之后。

Mem0g 的设计思路很直接：在 Mem0 原本的向量存储之外，额外搭一层有向、带标签的知识图谱。

具体运作链路是三件套：

Entity extractor 从对话文本里抽出节点（用户、公司、产品、地点）
- Relations generator 推断节点之间的标签化边（works at、located in、prefers）
- Conflict detector 检测新信息和已有图谱节点/边的冲突
  ECAI 2025 那篇 benchmark 论文（arXiv 2504.19413）里给出的数据很有说服力：在 LOCOMO 多跳推理子集上，Mem0 LLM Score 是 66.9%，加了图谱的 Mem0g 提到 68.4%，p95 latency 从 1.44s 涨到 2.59s。

1.5 个百分点的精度提升，换 1.8 倍的延迟开销——在多跳关系推理题目上，这笔账算得过来。

Mem0g 的图谱方案有一个隐性前提——conflict detector 必须能可靠识别"新信息和旧节点冲突"。

放到开头那个例子：用户两个月前说"我在 A 公司"，今天说"我刚跳槽到 B"。一个理想的 conflict detector 会标记 (user, works_at, A) 和 (user, works_at, B) 冲突，然后做覆盖。

实际跑下来的问题：

冲突检测依赖 LLM 的语义判断，模型一旦没把"跳槽"识别成 works_at 关系的更新，老节点就不会被淘汰
1. 图谱写入是离线 pipeline，下次召回时如果两个节点都还在，单跳查询可能返回任意一个
1. 对时间序的处理是"事后打补丁"——每个节点上要额外挂时间戳，召回时再做时间过滤
  这些细节在 paper 里被一句"conflict detector flagging contradictions"轻轻带过了。

TiMem（github.com/TiMEM-AI/timem）不走"向量 + 图谱"的双结构路线，走的是 5 层 Temporal Memory Tree (TMT)。

5 层从下往上是：

回到跳槽的例子，用 TiMem 跑：

第 1 轮：“我在 A 公司” → fragment + evidence (timestamp: t1)
- 第 200 轮：“我跳槽到 B 了” → fragment + evidence (timestamp: t2)
- consolidation 触发时，新 evidence 升级到 fact 层时用 t2 覆盖 t1
  不需要专门跑 conflict detector，时间序本身就是 conflict 的解。

LOCOMO 的对话长度还没那么夸张。真正考验长程一致性的是 LongMemEval-S——平均会话长度比 LOCOMO 长一倍以上，且专门测试"模型是否被早期错误信息误导"。

TiMem 在 LongMemEval-S 上是 SOTA。

为什么？因为这个 benchmark 的题目大量是"用户某个事实在中途变化了，agent 应该用新的还是旧的"——这正好是时间分层最擅长的领域。Mem0g 的图谱在这里需要 conflict detector 拼命兜底，TiMem 的 5 层结构相当于在系统层解决了同一个问题。

不给一个谁吊打谁的结论，因为两套方案的最佳战场不一样。

选 Mem0g 的场景：

短到中等长度会话（< 50 轮）
- 多跳关系推理是主要任务（比如"用户的同事的项目用了什么技术栈"）
- 团队已经在用向量数据库，不想引入新的存储模型
  选 TiMem 的场景：
长程会话（数百轮以上）
- 用户状态/偏好会持续变化
- 要 selective forgetting（记住，但用最新的）
- 不想为"实体提取 + 关系生成 + 冲突检测"三件套单独维护一条 pipeline
  最近 ICLR 2026 接收的那篇 MemoryAgentBench（arXiv 2507.05257）把 agent 记忆的核心能力归为四类：accurate retrieval、test-time learning、long-range understanding、selective forgetting。前两类 Mem0g 不输甚至更强，后两类 TiMem 的结构性优势会更明显。

如果你正在选型，与其纠结"哪个框架更强"，不如先看自己的场景落在哪个能力维度上。

那个让我重新审视方案的 demo 后来用 TiMem 重跑了一次。同样 200 轮对话，用户问"我上次说的那个公司"，agent 用的是最新的 B 公司——没用 conflict detector，没写额外的过滤逻辑，时间序自己解决了问题。

这是我决定换路线的真正原因。