当前位置: 首页 > news >正文

[论文分享]H2HMem:当AI开始“偷听人类对话”,我们才发现它的记忆远没有想象中可靠——一个面向多模态人类交互的记忆评测基准

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

如果您对我们的工作感兴趣,希望您能为我们的Github仓库点一个star,以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。

🧩 一、为什么要做这个工作?

随着大模型逐渐进入真实应用场景(会议助手、医疗记录、智能助理等),一个关键问题开始变得重要:

AI在“长时间、多人物、多模态”的真实对话中,到底能不能可靠地记住信息?

但现有评测普遍存在一个问题:

  • 只关注人类 ↔ AI 对话
  • 大多是纯文本
  • 交互结构单一

但目前agent的应用已经扩展到了新的场景,agent在人与人的对话中作为观察者。

​​

这种状况下的难点在于:

  • 多人同时参与(A/B/C/D)
  • 图片 + 文本混合出现
  • 信息甚至可能互相冲突

因此,我们提出了一个新的benchmark:

🧪 H2HMem


🌍 二、H2HMem到底解决什么问题?

H2HMem专门模拟一种更真实的设定:

AI作为“观察者”,被动记录人类之间的对话,并在之后回答问题。

它包含三个核心特点:

  • 🧑‍🤝‍🧑 多人对话(dyadic + multi-party)
  • 🖼️ 多模态信息(图像 + 文本)
  • ⏳ 长时序多session交互

简单说就是:

不再是“你和AI聊天”,而是“AI在旁边听你们聊天”。


🏗️ 三、我们是怎么构建这个数据集的?

整体采用human-in-the-loop + LLM生成 pipeline

  • ① 先构建人物设定(性格/背景/职业/说话方式)
  • ② 再生成多session场景(旅游、医疗、宠物等)
  • ③ 引入图像(检索 + 生成 + 人工修正)
  • ④ 用LLM生成完整多人物对话
  • ⑤ 自动生成 + 人工校验QA任务

整个过程确保:

对话是连续的、图文是对齐的、人物关系是稳定的


🧪 四、我们如何评估“记忆能力”?

我们将memory能力拆成三大类:

1️⃣ Memory Recall(记住发生了什么)

包括:

  • 单模态事实回忆(UPR)
  • 图文对齐检索(CRR)
  • 多session信息更新(KR)

2️⃣ Memory Reasoning(理解发生了什么)

包括:

  • 时间顺序推理(TR)
  • 因果推理(MCR)
  • 指代与人物关系追踪(RET)

3️⃣ Memory Application(如何用记忆)

包括:

  • 测试时学习(TTL)
  • 冲突检测(CD)
  • 信息缺失时拒答(AR)

📊 五、实验结果

我们在多种主流方法(RAG / multimodal memory / agent memory)上进行了测试。

整体结果呈现出一个比较一致的趋势:

当前模型在“检索信息”方面表现尚可,但在“组织和理解记忆”方面仍然明显不足。

更具体来说:


🧠 1. 跨模态对齐仍然是主要瓶颈

模型可以找到信息,但经常无法正确对齐:

  • 文本 ↔ 图像关系
  • 图像属于哪个说话人
  • 图像对应哪个事件

🧑‍🤝‍🧑 2. 多人对话引入明显混淆

在multi-party场景中:

  • speaker attribution错误增加
  • 人物关系容易混乱
  • 冲突信息难以区分

⏳ 3. 时间与因果推理能力较弱

尤其在:

  • 事件顺序
  • 多session更新
  • 逻辑因果关系

这些任务上表现明显下降


💡 六、一个更本质的发现

如果从整体来看,我们可以总结一个核心现象:

当前大模型的“记忆”更像是信息检索,而不是结构化理解。

它们可以:

  • 找到相关片段
  • 回忆局部事实

但难以做到:

  • 将多模态信息对齐
  • 在多人之间正确归属信息
  • 在时间维度上保持一致性
  • 处理冲突信息

🚀 七、H2HMem的意义

H2HMem的目标不仅仅是一个benchmark,而是希望推动:

下一代memory agent从“记忆检索系统”走向“结构化认知系统”

未来的AI如果要真正进入真实世界,需要具备:

  • 多人交互理解能力
  • 多模态长期记忆能力
  • 跨时间一致性建模能力

📌 总结

H2HMem揭示了一个很关键的现实:

记住信息并不难,但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。

八、资源

TypeLink
📄Paperhttps://arxiv.org/abs/2606.09461v1
💻Codehttps://github.com/varib1/H2HMEM
🏆Leaderboardhttps://h2hmemleaderboard1.vercel.app/
🤗Datasethttps://huggingface.co/datasets/varib/H2HMEM
🌐Project Pagehttps://h2hmemprojectpage.vercel.app/

我们在此处提供了我们论文相关的资源。

http://www.jsqmd.com/news/1079166/

相关文章:

  • 100 05黄大年茶思屋榜文第100期 第5题 无微调适配多领域的NL2SQL技术
  • Claude Code/AI 工具接入自定义 API Key、Base URL 与模型名的完整配置排错指南
  • 同样有测试需求的小伙伴可以直接参考这个配置,简单高效,但注意密码的地方
  • 企业如何判断许可证短缺是阶段性问题,还是长期资源缺口
  • 程序员“门派”风云:纯手敲、AI 辅助还是平衡之道?
  • Spring Boot 自定义 Starter 模板
  • 终极指南:Visual C++运行库合集(vcredist AIO)完整安装与配置手册
  • Brave浏览器安全Headers配置实战:防御XSS与CSRF攻击
  • 小厂前端面经
  • 253.示波器x1与x10档如何选择,如何测电源纹波
  • 058、Zephyr RTOS内核基础:中断管理基础
  • 张量可视化实战:用厨房类比理解多维张量结构
  • ApiGo:AI 驱动的企业级低代码 API 平台,5.0.1 版本更新助力数字化转型!
  • 2026 企业 AI 生产环境 API 聚合平台选型全解析
  • 印尼开发者必备:一个收录 200 多个本地 API 的开源清单
  • Wireshark核心解析引擎深度解析:epan_dissect_t结构体架构揭秘
  • MuMu模拟器6.0即将上线多ROM版本随心切换
  • 2026年双机热备软件选型指南:从国际品牌到国产替代,一份排名帮你决策。
  • 企业级数据对账与令牌管理方案:从JWT到自定义WToken的实战解析
  • 滑动窗口解法:最短子数组长度代码解释与优化
  • 电机性能测试系统:集性能评估与耐久验证于一体
  • Kioxia签署第20届亚运会和第5届亚残运会合作协议
  • 专知智库 × 余行专利 × 自指专利池让“自指”为新院校插上科研与产业化的翅膀
  • 为什么专业图像查看器是游戏开发者的必备工具?探索Tacent View的完整解决方案
  • 2026年低成本创作指南,高性价比 AI 视频生成工具实测盘点
  • Security Onion:一体化开源安全监控平台部署与实战指南
  • 在Windows上进行Docker 部署速成指南(SpringBoot + Vue + MySQL + Redis)
  • AI新闻发布:出海品牌构建长期传播资产的内容路径
  • 2026 年高效的 ai 做网站系统有哪些,新手建站工具整理
  • “中标公示”与“合同公告”同日发布,真的违法吗?