当前位置：首页 > news >正文

论文分享➲ arXiv2026 | H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

news 2026/6/24 12:59:29

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

📄 Paper • 🤗 Dataset • 🏆 Leaderboard • 🌐 Project Page • 💻 Code

一、为什么我们需要 H2HMem？

二、H2HMem 是什么？

🎯 核心特点

三、数据集设计

📌 数据规模

📌 对话结构

📌 构建流程（很关键）

四、任务设计（核心创新）

🧠 Memory Recall

1. UPR（Basic Recall）

2. CRR（Cross-modal Retrieval）

3. KR（Knowledge Resolution）

🧠 Memory Reasoning

4. MCR（Multimodal Reasoning）

5. RET（Reference Tracking）

6. TR（Temporal Reasoning）

🧠 Memory Application

7. TTL（Test-time Learning）

8. CD（Conflict Detection）

9. AR（Answer Refusal）

五、实验结果及发现

❗ 1. 多人对话显著更难

❗ 2. 最大问题不是“记不住”，而是“对不齐”

❗ 3. Retrieval 不等于理解

六、核心结论

七、总结

一、为什么我们需要 H2HMem？

近年来，agents的从聊天机器人拓展到了新的场景：

🏥 医疗记录助手（旁听医生对话）
💼 会议纪要 AI
🎓 教学课堂助理
🧑‍🤝‍🧑 多人对话分析系统

在 Human-Assitant Interaction 和 Human-Human Interaction 中 agents 身份的不同：

在Human-Human Interaction场景中的关键能力：

👉在复杂的人类对话中持续记住、理解并利用信息

❌ 现有 Memory Benchmark 的局限

大多数 benchmark 都是：

Human ↔ AI 对话
单人交互
单模态或弱多模态
无复杂说话人结构

而Human-Human Interaction场景中是：

❗ AI 在“旁听人类对话”，而不是直接参与对话

因此，论文提出了一个新的基准：

🧠 H2HMem Benchmark

二、H2HMem 是什么？

H2HMem（Human-to-Human Multimodal Memory Benchmark）是一个用于评测：

👉 多模态智能体在多人对话环境中的长期记忆能力

🎯 核心特点

H2HMem 同时具备：

🧑‍🤝‍🧑 Human-Human conversation（双人及多人）
🖼️ Multimodal data（文本 + 图片）
🔁 Multi-session long-term memory
🧠 Memory reasoning + retrieval + application

三、数据集设计

📌 数据规模

20 个双人对话（dyadic）
5 个多人对话（multi-party）
300+ sessions
7000+ dialogue rounds
1000+ images
2000+ QA pairs

📌 对话结构

每个 conversation 包含：

多个 session（跨时间）
多个 topic（如 travel / food / shopping）
多模态输入（图片 + 文本）

📌 构建流程（很关键）

论文采用了 human-in-the-loop pipeline：Human as a director and LLM as a scriptwriter.

Persona 生成（人物设定）
场景与话题规划
图片收集与校验
对话生成（LLM + image caption）
QA 自动生成 + 人工验证

四、任务设计（核心创新）

H2HMem 将 memory 任务系统化为9 大任务类型：

🧠 Memory Recall

1. UPR（Basic Recall）

简单事实回忆

2. CRR（Cross-modal Retrieval）

图文结合检索

3. KR（Knowledge Resolution）

处理信息更新/冲突

🧠 Memory Reasoning

4. MCR（Multimodal Reasoning）

图 + 文联合推理

5. RET（Reference Tracking）

“this / that” 指代解析

6. TR（Temporal Reasoning）

时间顺序理解

🧠 Memory Application

7. TTL（Test-time Learning）

利用记忆解决新问题

8. CD（Conflict Detection）

判断信息是否冲突

9. AR（Answer Refusal）

信息不存在时拒答

👉 这一设计的关键意义是：

不再只测“记住没”，而是测“理解 + 对齐 + 推理 + 更新”

五、实验结果及发现

论文实验发现了几个关键结论：

❗ 1. 多人对话显著更难

在 multi-party setting 中：

KR 性能从 0.49 → 0.25
性能大幅下降

👉 说明：多人交互会严重干扰 memory system

❗ 2. 最大问题不是“记不住”，而是“对不齐”

错误主要来自：

🖼️ Modal misalignment（图文对不齐）
👤 Speaker attribution error（说话人混乱）

👉 模型经常：

记住了，但不知道是谁说的

❗ 3. Retrieval 不等于理解

虽然模型可以 retrieve 信息：

但无法：

过滤噪声
理解上下文关系
处理冲突信息

六、核心结论

❗ Memory systems are not failing because they forget,
but because they fail to reconstruct coherent multimodal interaction history.

换句话说：

❌ 不是“记忆容量问题”
✔ 是“结构化理解问题”

七、总结

H2HMem 提供了一个非常重要的方向：

👉 未来 AI 记忆系统不只是“RAG + 向量库”，而是“结构化交互历史建模”

如果您对我们的工作感兴趣，希望您能为我们的Github仓库点一个star，以便更多的人关注到我们的工作。

查看全文

http://www.jsqmd.com/news/1072793/

鸿蒙PC适配llvm-gcc-compat编译安装第三方库convert_case，打造Rust 第三方字符串命名风格互相转换

5分钟搞定OpenCode Go套餐无缝接入Claude Code，性价比直接起飞！

鸿蒙 PC使用ohos-pip-autosign激活自动签名工具，安装第三方库arrow实现Python人性化时间处理库

嵌入式linux学习记录十四、术语

第二章基本数据类型及其操作4

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models

智谱清言能生成 word 吗？AI 导出鸭一站式搞定文档导出难题

Agent 到底是什么？它不是会聊天的 AI，而是会执行任务的系统

古籍版本流传信息目录页爬取实战：用 Python 抽取书名、版本、刊刻年代、藏馆与链接

计算机毕业设计之高校社团管理网站

HoRain云--R循环实战：从语法到高效向量化技巧

【C++】new/delete 还是 malloc/free？C++内存管理的“世纪抉择

大型电网企业数字化转型全解析：从国网顶层战略到基层落地实践深度剖析（PPT）

第31章：构建自定义Code Agent——打造专属的代码助手

使用 Python 调用商品条形码查询API并解析商品信息

FAST-LIVO2 源码精读（九）：VoxelMap 体素地图——哈希索引与八叉树平面拟合

西瓜/甜瓜智能病虫害防控喷雾机上位机 Qt信创完整项目

计算机网络基础：实时运输协议 RTP

Power BI 6 月重磅更新：9 大新功能全面提升数据分析效率

牛客发布2026春季校园招聘白皮书：AI招聘趋势洞察

window显示驱动开发-Direct3D 着色器代码

电脑蓝屏反复发作？这样排查最有效

学Simulink——基于双 PWM 变流器的背靠背（Back‑to‑Back / B2B）整流‑逆变系统仿真

【plant simulation自学】三、发生器和吸收器统计

【ComfyUI】在Windows电脑上安装 ComfyUI并通过python脚本调用API批量生成图片

2026年最受好评的EC风机企业，市场口碑盘点来了

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

一、为什么我们需要 H2HMem？

🧠 H2HMem Benchmark

二、H2HMem 是什么？

🎯 核心特点

三、数据集设计

📌 数据规模

📌 对话结构

📌 构建流程（很关键）

四、任务设计（核心创新）

🧠 Memory Recall

1. UPR（Basic Recall）

2. CRR（Cross-modal Retrieval）

3. KR（Knowledge Resolution）

🧠 Memory Reasoning

4. MCR（Multimodal Reasoning）

5. RET（Reference Tracking）

6. TR（Temporal Reasoning）

🧠 Memory Application

7. TTL（Test-time Learning）

8. CD（Conflict Detection）

9. AR（Answer Refusal）

五、实验结果及发现

❗ 1. 多人对话显著更难

❗ 2. 最大问题不是“记不住”，而是“对不齐”

❗ 3. Retrieval 不等于理解

六、核心结论

七、总结

相关文章：