当前位置: 首页 > news >正文

Almanac:基于行动层面的智能体协作心智模型标注数据集与行为预测基准

Almanac:基于行动层面的智能体协作心智模型标注数据集与行为预测基准

📊 数据集概览 (Dataset Overview)

Almanac是一个专为智能体协作研究设计的行动级心智模型(Action-Level Mental Model)标注数据集。该数据集旨在弥合 LLM 任务完成能力与人类式协作能力(Collaborative Competence)之间的差距,通过引入理论驱动的心智模型标注,使智能体不仅能执行任务,还能模拟人类在协作过程中的心理状态。

  • 数据来源:基于经典的Map Task(双人路由协作任务)改编为文本远程协作环境。
  • 数据规模:包含2,987个协作行动(Collaboration Actions),覆盖25个双人社团(Dyadic Sessions)和50名人类参与者。
  • 核心目标:为智能体提供理论化的心智模型标注,使其能够预测队友意图、对齐共享目标并记录自反推理(Self-Reasoning)。

🔍 标注框架与实验设计 (Annotation Framework)

Almanac 的标注过程结合了理论化的团队协作流程、情境感知(Situation Awareness)、共同基础(Common Ground)和工作空间意识(Workspace Awareness)理论。

标注结构

每个行动在时间点ttt被时间戳标记,并关联一个完整的心智模型元组:
mt=(rt,gt,it,et,αt)m_t = (r_t, g_t, i_t, e_t, \alpha_t)mt=(rt,gt,it,et,αt)

  • rtr_trt:自反推理(Self-reasoning)
  • gtg_tgt:感知到的团队目标(Perceived team goal)
  • iti_tit:感知到的队友意图(Perceived partner intent)
  • ete_tet:外部状态(Contextual actions)
  • αt\alpha_tαt:对齐状态(Alignment status)

标注流程

步骤方法细节说明
1. 会话中检查点 (In-Session Checkpoints)实时诱饵 (Real-time elicitation)在进度达到25%50%75%时触发语音记录(10-20秒),捕捉实时团队目标、队友意图及自反推理。
2. 会话后标注 (Post-Session Annotation)回溯性标注 (Retrospective labeling)利用行动轨迹、截图及记忆锚点(Memory Anchors)重建每个行动背后的推理逻辑;包含结构化选择与自由形式理由。

实验条件设置

  • CvisibleC_{visible}Cvisible(可见条件):引导者(Guide)可以看到跟随者(Follower)的实时画布。(13个会话,1,518个行动)
  • Cnot_visibleC_{not\_visible}Cnot_visible(不可见条件):引导者仅能看到自己的地图。(12个会话,1,469个行动)
  • 行动类型映射:地图被标准化为离散网格(Discrete grids),行动类型包括:消息(Message)、绘制(Draw)、擦除(Erase)、撤销(Undo)、重置(Reset)。

📈 基准实验与结果分析 (Benchmark Experiments)

基准实验包含两个互补的预测任务,评估大模型模拟协作过程的能力:

1. 下一步行为预测 (Next Behavior Prediction)

预测交互历史中下一个动作类型或消息内容。

  • 结果趋势:共享组件(团队目标、队友意图)比私有自反推理更容易推断。在可见条件下,模型通过显式的基础动作(如 “Continue”、“Acknowledge”)表现出更高的对齐性。

2. 心智模型预测 (Mental Model Prediction)

预测参与者的内部心理状态(团队目标、队友意图等)。

  • 角色非对称性:跟随者的心智模型比引导者更容易预测,因为引导者的空间规划更丰富且推理过程更具私有性。

评估模型设置

  • Prompt-based:Qwen3-35B-A3B, Llama 3.3 70B, GPT-5.5, Claude 4.6 Sonnet
  • Fine-tuned:Qwen3-4B FT, Qwen3-30B-A3B FT
  • Prompting 策略:Persona-based prompting、输入 Mental Model 上下文、使用 Chain-of-Thought (CoT)
指标与发现详细结果分析
Mental Model Input引入理论驱动的心智模型输入后,预测准确率持续提升(例如在CvisibleC_{visible}Cvisible中,GPT-5.5 跟随者准确率从0.56升至0.58)。
Private Reasoning当前 LLM 的瓶颈:私有自反推理是预测难点。大模型擅长推断公开状态,但在私有推理上表现较弱。
Fine-Tuning Effect微调的高效性:在 Almanac 上进行微调的小型模型(如Qwen3-4B FT)表现出极具竞争力的性能,迅速缩小了与大型专有模型的性能差距。
Condition EffectsCnot_visibleC_{not\_visible}Cnot_visible显示出更高的行为变异性;而CvisibleC_{visible}Cvisible与更高的团队对齐度和更明确的 grounding acts 相关。

🔑 核心发现 (Key Findings)

  1. 心智模型提供可操作信号:将理论驱动的心智模型标注加入 Prompt,能够显著提升模型在协作预测中的性能,超越仅依靠交互历史的预测能力。
  2. 私有推理是性能瓶颈:当前 LLM 在公开状态推理上表现优异,但在捕捉参与者私有的、特定于参与者的自反推理(Self-Reasoning)时存在显著不足。
  3. 行为 ≠ 心智模型:成功预测可观察行为(如绘制路径)并不意味着成功预测内部心智状态。这凸显了对齐过程级监督(Process-level Supervision)的重要性。
  4. 微调 Almanac 数据高度有效:针对心智模型标注进行靶向监督(Targeted Supervision),可显著增强模型的协作相关推理能力。

⚠️ 局限性与未来工作 (Limitations & Future Work)

  • 回忆偏差 (Recall Bias):会话后标注可能存在合理化现象(Rationalization)。缓解策略:使用会话中检查点作为记忆锚点。
  • 数据集规模与范围:25个会话且单一任务领域限制了泛化能力。未来扩展:向协作式写作、编程及现实世界领域扩展。
  • 空间表示:文本格式网格可能无法完全捕捉视觉空间关系。未来探索:探索多模态模型用于联合视觉-文本处理。
  • 训练基线:缺乏 RLHF 基线和跨数据集比较(如 CaSiNo, DealNoDeal)。

📝 核心引用与文献来源

“有效的协作要求参与者在协作过程中持续保持和对其自身推理、队友意图及共享目标的心智模型。”(Effective collaboration, however, requires collaborators to continuously maintain and align mental models of their own reasoning, partners’ intentions, and shared goals.)

🔗 资源与下载链接

  • 论文标题:Almanac: Action-Level Mental Model Annotations for Agent Collaboration
  • 原始 HTML:https://arxiv.org/html/2606.06388v1
  • 摘要与 PDF:https://arxiv.org/abs/2606.06388
  • 实验复现链接:https://arxiv.org/html/2606.06388v1

💡 专家总结与评估

Almanac数据集的创新之处在于将人类协作理论(如共同基础理论)与 LLM 行为预测相结合。它不再仅仅关注智能体“是否完成任务”,而是深入评估智能体“是否理解队友”。

给开发者的建议:

  1. 引入私有推理监督:在开发多智能体系统时,不仅要优化任务执行路径,还应增加对“自反推理”(Self-reasoning)的标注与监督。
  2. 利用 Almanac 进行微调:若资源有限,使用 Almanac 对开源模型(如 Qwen、Llama)进行微调,是提升其协作预测能力的最高效手段之一。
  3. 重视可见性条件:在真实系统中,确保智能体间视觉或状态的可观察性(Visibility),能显著降低协作的变异性并提升对齐度。
http://www.jsqmd.com/news/971650/

相关文章:

  • 量子计算基础:两层级门的原理与应用
  • llama-cpp-python:llama.cpp 的 Python 绑定库
  • C/C++ 基础笔记(九)
  • 杨逢昌——管理咨询与6S实战专家
  • 在AutoDL云服务器上无图形界面安装Matlab 2018b:一份给深度学习研究者的保姆级教程
  • Agent 的规划、执行、反思闭环怎么实现?别把 Reflect 写成小作文
  • 别再让数据裸奔了!手把手教你为Hadoop HDFS 3.x配置透明加密(附KMS避坑指南)
  • STM32MP157双核开发实战:用STM32CubeIDE搞定M4核固件,并与A7核Linux通信(OpenAMP示例解析)
  • 中央空调-水系统 全面解析
  • uniapp小兔新儿day2
  • 2026年 HC420/780DP高强钢厂家推荐榜单:汽车轻量化/冷成形性能/双相钢核心优势与选购指南 - 品牌发掘
  • Mac —— Docker Desktop(Milvus和Redis)部署
  • AD20库管理实战:从零创建一个带3D封装的STM32芯片集成库
  • 打通资产数据壁垒,固定资产管理系统实现全流程数字化
  • 大模型微调避坑指南:LoRA/QLoRA 从数据清洗到部署的实战全录
  • 【闲聊】孩子越长大为什么越不愿意和父母讲心里话(亿点不一样)
  • 在Windows电脑上畅享酷安社区:Coolapk UWP桌面版完全指南
  • 贝叶斯逻辑回归与并行MCMC方法实践指南
  • 2026年泉州管道疏通推荐 千里到管道疏通24年匠心保障快速上门 - 本地品牌推荐
  • 信号处理实战:用db4小波分析你的传感器数据(MATLAB验证+C语言移植指南)
  • KMS智能激活终极指南:5分钟永久激活Windows和Office的完整教程
  • RuoYi-Vue + Flowable 6.5:一个Java程序员的容器化部署实战与源码踩坑记录
  • 2026东北号卡分销攻略:线上引流+线下锁单双模式,翼卡云领跑本地变现 - 卡圈快讯
  • 文本文件复制(字符缓冲流)
  • 别再乱用data和xdata了!深入解析51单片机不同存储区的访问速度与功耗影响
  • 神经渲染重塑未来城市:从NeRF原理到智慧城市场景全解析
  • 想知道闻喜哪家玻璃厂实力强?这几家品质过硬口碑好选了准不踩坑
  • 抖音无水印视频批量下载完整指南:告别繁琐手动操作
  • 管理思维:抓大放小
  • Agent模型冷启动问题