当前位置: 首页 > news >正文

论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

目录

一、为什么我们需要 H2HMem?

二、H2HMem 是什么?

🎯 核心特点

三、数据集设计

📌 数据规模

📌 对话结构

📌 构建流程(很关键)

四、任务设计(核心创新)

🧠 Memory Recall

1. UPR(Basic Recall)

2. CRR(Cross-modal Retrieval)

3. KR(Knowledge Resolution)

🧠 Memory Reasoning

4. MCR(Multimodal Reasoning)

5. RET(Reference Tracking)

6. TR(Temporal Reasoning)

🧠 Memory Application

7. TTL(Test-time Learning)

8. CD(Conflict Detection)

9. AR(Answer Refusal)

五、实验结果及发现

❗ 1. 多人对话显著更难

❗ 2. 最大问题不是“记不住”,而是“对不齐”

❗ 3. Retrieval 不等于理解

六、核心结论

七、总结


一、为什么我们需要 H2HMem?

近年来,agents的从聊天机器人拓展到了新的场景:

  • 🏥 医疗记录助手(旁听医生对话)
  • 💼 会议纪要 AI
  • 🎓 教学课堂助理
  • 🧑‍🤝‍🧑 多人对话分析系统

在 Human-Assitant Interaction 和 Human-Human Interaction 中 agents 身份的不同:

在Human-Human Interaction场景中的关键能力:

👉在复杂的人类对话中持续记住、理解并利用信息


❌ 现有 Memory Benchmark 的局限

大多数 benchmark 都是:

  • Human ↔ AI 对话
  • 单人交互
  • 单模态或弱多模态
  • 无复杂说话人结构

而Human-Human Interaction场景中是:

❗ AI 在“旁听人类对话”,而不是直接参与对话


因此,论文提出了一个新的基准:

🧠 H2HMem Benchmark


二、H2HMem 是什么?

H2HMem(Human-to-Human Multimodal Memory Benchmark)是一个用于评测:

👉 多模态智能体在多人对话环境中的长期记忆能力


🎯 核心特点

H2HMem 同时具备:

  • 🧑‍🤝‍🧑 Human-Human conversation(双人及多人)
  • 🖼️ Multimodal data(文本 + 图片)
  • 🔁 Multi-session long-term memory
  • 🧠 Memory reasoning + retrieval + application

三、数据集设计

📌 数据规模

  • 20 个双人对话(dyadic)
  • 5 个多人对话(multi-party)
  • 300+ sessions
  • 7000+ dialogue rounds
  • 1000+ images
  • 2000+ QA pairs

📌 对话结构

每个 conversation 包含:

  • 多个 session(跨时间)
  • 多个 topic(如 travel / food / shopping)
  • 多模态输入(图片 + 文本)

📌 构建流程(很关键)

论文采用了 human-in-the-loop pipeline:Human as a director and LLM as a scriptwriter.

  1. Persona 生成(人物设定)
  2. 场景与话题规划
  3. 图片收集与校验
  4. 对话生成(LLM + image caption)
  5. QA 自动生成 + 人工验证

四、任务设计(核心创新)

H2HMem 将 memory 任务系统化为9 大任务类型


🧠 Memory Recall

1. UPR(Basic Recall)

  • 简单事实回忆

2. CRR(Cross-modal Retrieval)

  • 图文结合检索

3. KR(Knowledge Resolution)

  • 处理信息更新/冲突

🧠 Memory Reasoning

4. MCR(Multimodal Reasoning)

  • 图 + 文联合推理

5. RET(Reference Tracking)

  • “this / that” 指代解析

6. TR(Temporal Reasoning)

  • 时间顺序理解

🧠 Memory Application

7. TTL(Test-time Learning)

  • 利用记忆解决新问题

8. CD(Conflict Detection)

  • 判断信息是否冲突

9. AR(Answer Refusal)

  • 信息不存在时拒答


👉 这一设计的关键意义是:

不再只测“记住没”,而是测“理解 + 对齐 + 推理 + 更新”


五、实验结果及发现

论文实验发现了几个关键结论:


❗ 1. 多人对话显著更难

在 multi-party setting 中:

  • KR 性能从 0.49 → 0.25
  • 性能大幅下降

👉 说明:多人交互会严重干扰 memory system


❗ 2. 最大问题不是“记不住”,而是“对不齐”

错误主要来自:

  • 🖼️ Modal misalignment(图文对不齐)
  • 👤 Speaker attribution error(说话人混乱)

👉 模型经常:

记住了,但不知道是谁说的


❗ 3. Retrieval 不等于理解

虽然模型可以 retrieve 信息:

但无法:

  • 过滤噪声
  • 理解上下文关系
  • 处理冲突信息

六、核心结论

❗ Memory systems are not failing because they forget,
but because they fail to reconstruct coherent multimodal interaction history.


换句话说:

❌ 不是“记忆容量问题”
✔ 是“结构化理解问题”


七、总结

H2HMem 提供了一个非常重要的方向:

👉 未来 AI 记忆系统不只是“RAG + 向量库”,而是“结构化交互历史建模”

如果您对我们的工作感兴趣,希望您能为我们的Github仓库点一个star,以便更多的人关注到我们的工作。

http://www.jsqmd.com/news/1072793/

相关文章:

  • 鸿蒙PC适配llvm-gcc-compat编译安装第三方库convert_case,打造Rust 第三方字符串命名风格互相转换
  • 5分钟搞定OpenCode Go套餐无缝接入Claude Code,性价比直接起飞!
  • 鸿蒙 PC使用ohos-pip-autosign激活自动签名工具,安装第三方库arrow实现Python人性化时间处理库
  • 嵌入式linux学习记录十四、术语
  • 第二章 基本数据类型及其操作4
  • SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
  • 智谱清言能生成 word 吗?AI 导出鸭一站式搞定文档导出难题
  • 31. 完美转发:将参数原样传递
  • 在MacOS上如何安装配置工时通
  • 驱动更新工具
  • 第30章 「对称破缺」—— 悦儿篇
  • Agent 到底是什么?它不是会聊天的 AI,而是会执行任务的系统
  • 古籍版本流传信息目录页爬取实战:用 Python 抽取书名、版本、刊刻年代、藏馆与链接
  • 计算机毕业设计之高校社团管理网站
  • HoRain云--R循环实战:从语法到高效向量化技巧
  • 【C++】new/delete 还是 malloc/free?C++内存管理的“世纪抉择
  • 大型电网企业数字化转型全解析:从国网顶层战略到基层落地实践深度剖析(PPT)
  • 第31章:构建自定义Code Agent——打造专属的代码助手
  • 使用 Python 调用商品条形码查询API并解析商品信息
  • FAST-LIVO2 源码精读(九):VoxelMap 体素地图——哈希索引与八叉树平面拟合
  • 西瓜/甜瓜智能病虫害防控喷雾机上位机 Qt信创完整项目
  • 计算机网络基础:实时运输协议 RTP
  • Power BI 6 月重磅更新:9 大新功能全面提升数据分析效率
  • 牛客发布2026春季校园招聘白皮书:AI招聘趋势洞察
  • window显示驱动开发-Direct3D 着色器代码
  • 电脑蓝屏反复发作?这样排查最有效
  • 学Simulink——基于双 PWM 变流器的背靠背(Back‑to‑Back / B2B)整流‑逆变系统仿真
  • 【plant simulation自学】三、发生器和吸收器统计
  • 【ComfyUI】在Windows电脑上安装 ComfyUI并通过python脚本调用API批量生成图片
  • 2026年最受好评的EC风机企业,市场口碑盘点来了