当前位置：首页 > news >正文

面向指令执行的具身智能对话数据集TEACh

news 2026/7/6 19:39:51

用于训练家用机器人遵循人类指令的新数据集

公开的 TEACh 数据集包含来自模拟环境的 3000 余组对话及相关的视觉数据。

通过智能家居设备和系统，客户已能指示虚拟助手执行诸如打开车库门、开关灯或启动洗碗机等操作。但未来的人工智能助手应能协助完成更广泛、更复杂的任务，包括执行日常家务，例如准备早餐。要完成此类任务，AI 助手需要能够与现实世界中的物体互动、理解自然语言指令以完成任务，并与用户进行对话以澄清模糊指令。

某机构启动全新Alexa Prize SimBot挑战赛

日前，某机构还宣布了Alexa Prize SimBot挑战赛，这是一项旨在助力开发下一代虚拟助手的竞赛，该助手将协助人类完成现实世界的任务。TEACh数据集中的一个基准任务将成为该挑战赛公开基准阶段的基础。

为了助力此类AI助手的开发，我们公开了一个名为TEACh（Task-driven Embodied Agents that Chat，即任务驱动型具身对话代理）的全新数据集。TEACh 包含 3000 余组模拟对话——在对话中，人类指导机器人完成家务任务——以及来自模拟环境的相关视觉数据。

在每组对话中，人类和机器人的角色均由受聘的众包工作者扮演。扮演机器人的工作者不知道需要完成的具体任务，完全依赖另一名工作者的指令。每位工作者都能接收到模拟环境中第一人称视角的实时视觉信息。两名工作者均可在环境中自由移动，但只有机器人能够与物体进行交互。工作者需要通过协作与沟通来成功完成任务。

该模拟家居环境基于某中心研发的 AI2-THOR 模拟器，该模拟器包含四种房型（厨房、客厅、卧室、浴室），每种房型各有30种不同的布局变体。数据集中的每一次游戏会话都包含：模拟环境的初始与最终状态、一个以物体属性需满足条件来定义的任务，以及众包工作者执行的一系列动作序列。这些动作包括在环境中移动、与物体交互（机器人可执行拿起/放置物体、打开/关闭橱柜/抽屉/电器、开关灯、操作电器与水龙头、切割物体、将一个物体中的液体倒入另一个容器等）。

[图表：一次“准备早餐”任务的游戏会话示例。机器人需制作咖啡和一份带生菜的三明治。用户提供逐步指令，但偶尔会在机器人完成上一步之前就提供下一步指令（例如切面包）。偶尔，用户提供的帮助过晚，例如当机器人因用户未告知位置而通过自行搜索找到刀具后，用户才提供刀具位置。]

数据收集

为收集该数据集，我们首先开发了一种任务定义语言，用于精确指定环境中哪些属性条件被满足后才能视作任务完成。例如，要检查咖啡是否已制作好，需确认环境中存在一个干净的、装好咖啡的马克杯。我们实现了一个框架，用于在 AI2-THOR 模拟器中检测不同任务的完成状态，并为剩余待完成步骤提供了自然语言提示。

随后，我们通过网络界面配对两名众包工作者，并将其置于同一模拟房间内。用户可以看到描述待完成步骤的提示，并通过聊天界面将其传达给机器人。此外，用户可以通过点击步骤提示或在虚拟空间中搜索来确定关键物体的位置——这样，机器人就无需为了寻找藏在某个抽屉里的刀具而打开厨房的每一个抽屉。

[图表：数据集中的一个任务定义示例（左）以及模拟环境的视图（右），该视图让扮演用户角色的众包工作者能够监控任务完成的进度。]

我们对标注人员使用的聊天界面未施加任何约束。因此，用户提供的指令呈现出不同的粒度级别。有的用户可能会说：“先拿个干净的杯子煮咖啡”，而有的用户可能会将此分解为多个步骤：“从冰箱里拿出脏杯子”、“去水槽里清洗它”、“把杯子放入咖啡机”，并等待机器人完成上一步后才发出下一步指令。

用户提供的指令可能过早（例如，在机器人尚未完成咖啡制作时要求其切面包），也可能过晚（例如，在机器人已自行找到刀具并切完面包后才告知刀具位置）。用户还可能协助机器人纠正错误或摆脱困境（例如，要求机器人在将新物体放入水槽前先清理水槽）。

我们共收集了 4,365 个会话，其中 3,320 个会话成功。在这些成功的会话中，有 3,047 个能够在 AI2-THOR 模拟器上成功重放，这意味着执行相同的动作序列能够复现出相同的模拟器状态。TEACh 会话涵盖了模拟器中所有的 30 个厨房以及大部分的客厅、卧室和浴室。成功的 TEACh 会话涵盖了 12 种任务类型，包含超过 45,000 条语句，平均每次会话包含 8.40 条用户语句和 5.25 条机器人语句。

基准任务

我们提出了三项基准任务，机器学习模型可利用我们的数据集进行训练以执行这些任务：

基于对话历史的执行 (EDH)：在该基准中，模型接收部分对话历史、机器人已执行的动作以及对应游戏会话中采集的第一人称观察数据。模型需预测机器人下一步将执行的几个动作，并在每个动作执行后接收新的第一人称观察。模型的评判标准是其执行动作序列是否产生了与原始游戏会话中玩家动作相同的结果。EDH 基准也将成为同日公布的 Alexa Prize SimBot 挑战赛公开基准阶段的基础。SimBot 挑战赛致力于推动下一代虚拟助手的发展，使其能够通过持续学习和获得常识推理能力来协助人类完成现实世界的任务。
基于完整对话的轨迹预测 (TfD)：在该基准中，模型接收完整的对话历史，并需预测机器人所执行的全部动作序列，在每次动作后接收第一人称观察。
双代理任务协作 (TATC)：在该基准中，开发者需要构建两个模型，一个模拟用户，一个模拟机器人。用户模型接收人类工作者所见过的相同任务信息及环境状态，并需与负责在环境中执行动作以完成任务的机器人模型进行通信。

我们在已发布于预印本平台的论文中包含了基线模型在这些基准上的性能表现，期望该基线能为其他研究团队未来的工作提供参考。针对 EDH 和 TfD 基准，我们创建了“验证集-已见环境”和“测试集-已见环境”的数据划分，用以评估模型在训练过的房间布局中泛化至新对话和新执行路径的能力；同时创建了“验证集-未见环境”和“测试集-未见环境”的数据划分，用以评估模型在从未见过的全新房间布局中泛化至新对话和新执行路径的能力。这些数据划分方式旨在便于模型与另一个相关数据集 ALFRED 进行相互迁移，ALFRED 同样使用了 AI2-THOR 的场景布局并采用了类似的数据划分策略。

致谢：本项目凝聚了某机构 Alexa AI 团队多位成员的努力与支持。在此感谢所有为本项目做出贡献的人员。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

查看全文

http://www.jsqmd.com/news/378063/