当前位置：首页 > news >正文

Almanac：基于行动层面的智能体协作心智模型标注数据集与行为预测基准

news 2026/6/8 1:56:00

Almanac：基于行动层面的智能体协作心智模型标注数据集与行为预测基准

📊 数据集概览 (Dataset Overview)

Almanac是一个专为智能体协作研究设计的行动级心智模型（Action-Level Mental Model）标注数据集。该数据集旨在弥合 LLM 任务完成能力与人类式协作能力（Collaborative Competence）之间的差距，通过引入理论驱动的心智模型标注，使智能体不仅能执行任务，还能模拟人类在协作过程中的心理状态。

数据来源：基于经典的Map Task（双人路由协作任务）改编为文本远程协作环境。
数据规模：包含2,987个协作行动（Collaboration Actions），覆盖25个双人社团（Dyadic Sessions）和50名人类参与者。
核心目标：为智能体提供理论化的心智模型标注，使其能够预测队友意图、对齐共享目标并记录自反推理（Self-Reasoning）。

🔍 标注框架与实验设计 (Annotation Framework)

Almanac 的标注过程结合了理论化的团队协作流程、情境感知（Situation Awareness）、共同基础（Common Ground）和工作空间意识（Workspace Awareness）理论。

标注结构

每个行动在时间点ttt被时间戳标记，并关联一个完整的心智模型元组：
mt=(rt,gt,it,et,αt)m_t = (r_t, g_t, i_t, e_t, \alpha_t)mt=(rt,gt,it,et,αt)

rtr_trt：自反推理（Self-reasoning）
gtg_tgt：感知到的团队目标（Perceived team goal）
iti_tit：感知到的队友意图（Perceived partner intent）
ete_tet：外部状态（Contextual actions）
αt\alpha_tαt：对齐状态（Alignment status）

标注流程

步骤	方法	细节说明
1. 会话中检查点 (In-Session Checkpoints)	实时诱饵 (Real-time elicitation)	在进度达到`25%`、`50%`、`75%`时触发语音记录（10-20秒），捕捉实时团队目标、队友意图及自反推理。
2. 会话后标注 (Post-Session Annotation)	回溯性标注 (Retrospective labeling)	利用行动轨迹、截图及记忆锚点（Memory Anchors）重建每个行动背后的推理逻辑；包含结构化选择与自由形式理由。

实验条件设置

CvisibleC_{visible}Cvisible(可见条件)：引导者（Guide）可以看到跟随者（Follower）的实时画布。（13个会话，1,518个行动）
Cnot_visibleC_{not\_visible}Cnot_visible(不可见条件)：引导者仅能看到自己的地图。（12个会话，1,469个行动）
行动类型映射：地图被标准化为离散网格（Discrete grids），行动类型包括：消息（Message）、绘制（Draw）、擦除（Erase）、撤销（Undo）、重置（Reset）。

📈 基准实验与结果分析 (Benchmark Experiments)

基准实验包含两个互补的预测任务，评估大模型模拟协作过程的能力：

1. 下一步行为预测 (Next Behavior Prediction)

预测交互历史中下一个动作类型或消息内容。

结果趋势：共享组件（团队目标、队友意图）比私有自反推理更容易推断。在可见条件下，模型通过显式的基础动作（如 “Continue”、“Acknowledge”）表现出更高的对齐性。

2. 心智模型预测 (Mental Model Prediction)

预测参与者的内部心理状态（团队目标、队友意图等）。

角色非对称性：跟随者的心智模型比引导者更容易预测，因为引导者的空间规划更丰富且推理过程更具私有性。

评估模型设置

Prompt-based:Qwen3-35B-A3B, Llama 3.3 70B, GPT-5.5, Claude 4.6 Sonnet
Fine-tuned:Qwen3-4B FT, Qwen3-30B-A3B FT
Prompting 策略：Persona-based prompting、输入 Mental Model 上下文、使用 Chain-of-Thought (CoT)

指标与发现	详细结果分析
Mental Model Input	引入理论驱动的心智模型输入后，预测准确率持续提升（例如在CvisibleC_{visible}Cvisible中，GPT-5.5 跟随者准确率从`0.56`升至`0.58`）。
Private Reasoning	当前 LLM 的瓶颈：私有自反推理是预测难点。大模型擅长推断公开状态，但在私有推理上表现较弱。
Fine-Tuning Effect	微调的高效性：在 Almanac 上进行微调的小型模型（如`Qwen3-4B FT`）表现出极具竞争力的性能，迅速缩小了与大型专有模型的性能差距。
Condition Effects	Cnot_visibleC_{not\_visible}Cnot_visible显示出更高的行为变异性；而CvisibleC_{visible}Cvisible与更高的团队对齐度和更明确的 grounding acts 相关。

🔑 核心发现 (Key Findings)

心智模型提供可操作信号：将理论驱动的心智模型标注加入 Prompt，能够显著提升模型在协作预测中的性能，超越仅依靠交互历史的预测能力。
私有推理是性能瓶颈：当前 LLM 在公开状态推理上表现优异，但在捕捉参与者私有的、特定于参与者的自反推理（Self-Reasoning）时存在显著不足。
行为 ≠ 心智模型：成功预测可观察行为（如绘制路径）并不意味着成功预测内部心智状态。这凸显了对齐过程级监督（Process-level Supervision）的重要性。
微调 Almanac 数据高度有效：针对心智模型标注进行靶向监督（Targeted Supervision），可显著增强模型的协作相关推理能力。

⚠️ 局限性与未来工作 (Limitations & Future Work)

回忆偏差 (Recall Bias)：会话后标注可能存在合理化现象（Rationalization）。缓解策略：使用会话中检查点作为记忆锚点。
数据集规模与范围：25个会话且单一任务领域限制了泛化能力。未来扩展：向协作式写作、编程及现实世界领域扩展。
空间表示：文本格式网格可能无法完全捕捉视觉空间关系。未来探索：探索多模态模型用于联合视觉-文本处理。
训练基线：缺乏 RLHF 基线和跨数据集比较（如 CaSiNo, DealNoDeal）。

📝 核心引用与文献来源

“有效的协作要求参与者在协作过程中持续保持和对其自身推理、队友意图及共享目标的心智模型。”(Effective collaboration, however, requires collaborators to continuously maintain and align mental models of their own reasoning, partners’ intentions, and shared goals.)

🔗 资源与下载链接

论文标题：Almanac: Action-Level Mental Model Annotations for Agent Collaboration
原始 HTML:https://arxiv.org/html/2606.06388v1
摘要与 PDF:https://arxiv.org/abs/2606.06388
实验复现链接:https://arxiv.org/html/2606.06388v1

💡 专家总结与评估

Almanac数据集的创新之处在于将人类协作理论（如共同基础理论）与 LLM 行为预测相结合。它不再仅仅关注智能体“是否完成任务”，而是深入评估智能体“是否理解队友”。

给开发者的建议：

引入私有推理监督：在开发多智能体系统时，不仅要优化任务执行路径，还应增加对“自反推理”（Self-reasoning）的标注与监督。
利用 Almanac 进行微调：若资源有限，使用 Almanac 对开源模型（如 Qwen、Llama）进行微调，是提升其协作预测能力的最高效手段之一。
重视可见性条件：在真实系统中，确保智能体间视觉或状态的可观察性（Visibility），能显著降低协作的变异性并提升对齐度。

查看全文

http://www.jsqmd.com/news/971650/