[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准
H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions
📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code
如果您对我们的工作感兴趣,希望您能为我们的Github仓库点一个star,以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。
🧩 一、为什么要做这个工作?
随着大模型逐渐进入真实应用场景(会议助手、医疗记录、智能助理等),一个关键问题开始变得重要:
AI在“长时间、多人物、多模态”的真实对话中,到底能不能可靠地记住信息?
但现有评测普遍存在一个问题:
- 只关注人类 ↔ AI 对话
- 大多是纯文本
- 交互结构单一
但目前agent的应用已经扩展到了新的场景,agent在人与人的对话中作为观察者。
这种状况下的难点在于:
- 多人同时参与(A/B/C/D)
- 图片 + 文本混合出现
- 信息甚至可能互相冲突
因此,我们提出了一个新的benchmark:
🧪 H2HMem
🌍 二、H2HMem到底解决什么问题?
H2HMem专门模拟一种更真实的设定:
AI作为“观察者”,被动记录人类之间的对话,并在之后回答问题。
它包含三个核心特点:
- 🧑🤝🧑 多人对话(dyadic + multi-party)
- 🖼️ 多模态信息(图像 + 文本)
- ⏳ 长时序多session交互
简单说就是:
不再是“你和AI聊天”,而是“AI在旁边听你们聊天”。
🏗️ 三、我们是怎么构建这个数据集的?
整体采用human-in-the-loop + LLM生成 pipeline:
- ① 先构建人物设定(性格/背景/职业/说话方式)
- ② 再生成多session场景(旅游、医疗、宠物等)
- ③ 引入图像(检索 + 生成 + 人工修正)
- ④ 用LLM生成完整多人物对话
- ⑤ 自动生成 + 人工校验QA任务
整个过程确保:
对话是连续的、图文是对齐的、人物关系是稳定的
🧪 四、我们如何评估“记忆能力”?
我们将memory能力拆成三大类:
1️⃣ Memory Recall(记住发生了什么)
包括:
- 单模态事实回忆(UPR)
- 图文对齐检索(CRR)
- 多session信息更新(KR)
2️⃣ Memory Reasoning(理解发生了什么)
包括:
- 时间顺序推理(TR)
- 因果推理(MCR)
- 指代与人物关系追踪(RET)
3️⃣ Memory Application(如何用记忆)
包括:
- 测试时学习(TTL)
- 冲突检测(CD)
- 信息缺失时拒答(AR)
📊 五、实验结果
我们在多种主流方法(RAG / multimodal memory / agent memory)上进行了测试。
整体结果呈现出一个比较一致的趋势:
当前模型在“检索信息”方面表现尚可,但在“组织和理解记忆”方面仍然明显不足。
更具体来说:
🧠 1. 跨模态对齐仍然是主要瓶颈
模型可以找到信息,但经常无法正确对齐:
- 文本 ↔ 图像关系
- 图像属于哪个说话人
- 图像对应哪个事件
🧑🤝🧑 2. 多人对话引入明显混淆
在multi-party场景中:
- speaker attribution错误增加
- 人物关系容易混乱
- 冲突信息难以区分
⏳ 3. 时间与因果推理能力较弱
尤其在:
- 事件顺序
- 多session更新
- 逻辑因果关系
这些任务上表现明显下降
💡 六、一个更本质的发现
如果从整体来看,我们可以总结一个核心现象:
当前大模型的“记忆”更像是信息检索,而不是结构化理解。
它们可以:
- 找到相关片段
- 回忆局部事实
但难以做到:
- 将多模态信息对齐
- 在多人之间正确归属信息
- 在时间维度上保持一致性
- 处理冲突信息
🚀 七、H2HMem的意义
H2HMem的目标不仅仅是一个benchmark,而是希望推动:
下一代memory agent从“记忆检索系统”走向“结构化认知系统”
未来的AI如果要真正进入真实世界,需要具备:
- 多人交互理解能力
- 多模态长期记忆能力
- 跨时间一致性建模能力
📌 总结
H2HMem揭示了一个很关键的现实:
记住信息并不难,但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。
八、资源
| Type | Link |
| 📄Paper | https://arxiv.org/abs/2606.09461v1 |
| 💻Code | https://github.com/varib1/H2HMEM |
| 🏆Leaderboard | https://h2hmemleaderboard1.vercel.app/ |
| 🤗Dataset | https://huggingface.co/datasets/varib/H2HMEM |
| 🌐Project Page | https://h2hmemprojectpage.vercel.app/ |
我们在此处提供了我们论文相关的资源。
