当前位置：首页 > news >正文

CRAFT框架：大模型驱动的多机器人协作训练方案

news 2026/7/22 19:27:27

1. CRAFT框架：大模型驱动的机器人协作训练革命

在机器人协作领域，让多个智能体完成复杂任务一直是个棘手难题。想象一下，要让两只机械臂协同抬起一个重物，或者让四足机器人团队有序通过狭窄通道，传统的编程方法往往捉襟见肘。这正是我们团队开发CRAFT框架的初衷——利用大语言模型的强大推理能力，为多机器人系统设计智能化的训练方案。

CRAFT(Collaborative Robot Agent Framework for Training)的核心创新在于将大模型作为"教练"，自动分解复杂任务为可训练的课程序列，并动态优化奖励函数。与需要人工设计每个训练阶段的传统方法不同，我们的框架能自主生成从简单到复杂的子任务，并实时调整奖励机制。在四足机器人闸门穿越任务中，CRAFT训练出的策略成功率比基线方法高出4个百分点；在双臂协同搬运任务中，更是实现了100%的成功率。

2. 技术架构与核心模块

2.1 整体训练流程设计

CRAFT的工作流程像一位经验丰富的教练制定训练计划：

课程生成：LLM将复杂任务分解为递进式子任务
奖励设计：为每个子任务生成定制化奖励函数
策略训练：在仿真环境中执行强化学习
效果评估：VLM分析策略表现并给出改进建议
奖励优化：根据反馈迭代改进奖励函数

这种闭环设计特别适合长时程、高维度的协作任务，因为大模型能捕捉人类设计者可能忽略的细微协作模式。

2.2 课程生成模块详解

课程生成是CRAFT最核心的创新点。我们设计了两阶段提示工程：

# 第一阶段：生成候选课程 prompt = """ 你是一个课程生成器，需要为多智能体强化学习任务设计训练课程。 请生成不超过5个子任务，每个任务包含： 1. 名称 2. 描述 3. 设计理由 注意： - 不能改变环境初始状态 - 必须考虑所有机器人 - 最终任务要与环境目标一致 """

以双臂搬运为例，生成的典型课程包括：

末端执行器与把手对齐
双手同步抓取把手
小幅抬升保持平衡
达到目标高度
完整搬运流程整合

2.3 奖励函数动态优化机制

传统奖励设计常陷入局部最优，比如机械臂碰到把手就停止学习。CRAFT通过三重机制解决这个问题：

基础奖励生成：LLM根据任务描述编写Python奖励函数
策略评估：VLM分析训练视频，指出失败原因
奖励优化：LLM根据建议调整奖励函数

例如在搬运任务中，初始奖励函数只在完全抬起时给奖励，导致学习停滞。优化后的版本增加了：

抬升高度的连续奖励
倾斜角度的平滑惩罚
抓握稳定性的时间积分

3. 关键实现技术与工程细节

3.1 大模型提示工程实践

有效的提示设计是CRAFT成功的关键。我们总结了以下最佳实践：

结构化输出：强制要求LLM按指定格式生成内容
变量约束：限制只能使用预设的环境变量
示例引导：提供高质量示例减少随机性
多阶段验证：先广后精的生成策略

对于奖励函数生成，我们特别添加了以下约束：

必须使用numpy/scipy计算
总奖励归一化到[0,1]区间
包含各分项奖励的详细说明

3.2 多模态评估系统

VLM评估器通过分析两种输入来判断策略表现：

视觉输入：关键帧截图序列
状态轨迹：所有智能体的历史状态数据

评估输出采用结构化格式：

Decision: [Success/Failure] Reason: - 原因1 - 原因2 ...

这种设计使反馈信息可直接用于奖励优化，形成闭环。在实际测试中，VLM的评估准确率达到92%，与人工评估高度一致。

3.3 实际部署的工程适配

将仿真训练的策略迁移到真实机器人需要特别注意：

动作空间缩放：不同机器人的关节范围需重新映射
延迟补偿：实际控制延迟需在仿真中建模
随机化训练：增加仿真参数随机性提升鲁棒性

我们在Unitree Go1/Go2四足机器人上的测试表明，经过适当调整，仿真策略可以零样本迁移到现实世界，成功率保持在65%以上。

4. 典型应用场景与性能分析

4.1 四足机器人闸门穿越

在这个任务中，两台四足机器人需要依次通过狭窄通道而不相撞。CRAFT生成的课程包括：

单机器人路径规划
距离保持训练
时序协调练习
完整穿越流程

经过VLM优化的奖励函数特别强调：

相对距离的指数衰减奖励
通过顺序的时间差惩罚
身体朝向的一致性奖励

实验结果对比如下：

指标	CRAFT	基线方法
有效课程率	80%	20%
最高成功率	90%	86%
平均训练时间	4.2h	5.8h

4.2 双臂协同搬运任务

这个任务要求两只机械臂协同抬起带把手的容器，难点在于：

高维动作空间（7DoF×2）
精确的时序配合需求
负载平衡的持续保持

CRAFT生成的奖励函数包含以下创新设计：

# 抬升奖励计算示例 elevation = self._get_pot_elevation() tilt_bonus = max(0, (cos_z - cos_30)/(1 - cos_30)) lift_reward = min(elevation/threshold, 1.0) * tilt_bonus

这种设计解决了传统方法中抬升与平衡目标冲突的问题。最终策略在20次测试中全部成功抬起容器，且倾斜角度始终小于15度。