当前位置：首页 > news >正文

GRM奖励模型：机器人强化学习的视觉评估与优化

news 2026/4/30 7:51:57

1. GRM奖励模型的核心设计理念

在机器人强化学习领域，奖励函数的设计一直是决定算法成败的关键因素。传统手工设计的奖励函数往往需要耗费大量工程时间，且难以覆盖复杂任务的所有场景。GRM（General Reward Model）通过视觉输入自动评估任务进度，从根本上改变了这一局面。

GRM的核心创新在于将任务进度评估分解为两个互补的指标：Hop值和全局进度估计。Hop值（Hop Value）反映的是相邻状态间的瞬时变化，类似于人类判断"这一步动作是否让情况变好了"；而全局进度（Global Progress）则是对任务整体完成度的连续评估，范围从0（未开始）到1（完全完成）。这种双重评估机制使得GRM既能捕捉细微的动作效果，又能保持对长期目标的跟踪。

关键洞察：Hop值的计算不依赖于绝对位置或姿态，而是关注相对变化。这使得GRM对初始位置误差和临时干扰具有天然的鲁棒性。

在实际实现中，GRM采用三视图输入系统：

全局视角：判断物体间的空间关系和整体任务状态
左腕部视角：监测左手抓取质量、接触状态和精细操作
右腕部视角：监测右手相应状态

这种多视角融合的设计特别适合双臂协作任务，例如实验中展示的"合上拉链"和"盖笔帽"等需要双手协调的操作。当不同视角的判断出现冲突时，GRM采用"安全优先"原则——任何视角检测到的危险状态（如碰撞、抓取失效）都会立即反映在奖励信号中。

2. GRM的离线训练与在线优化流程

2.1 离线阶段：基于示范数据的保守学习

GRM的训练分为离线和在线两个阶段。离线阶段使用人类示范数据集D，通过以下目标函数进行训练：

L_offline(θ) = βL_BC + ηL_Q + αL_保守

其中：

L_BC是行为克隆损失，确保策略不会偏离示范数据太远
L_Q是标准的贝尔曼误差项
L_保守是保守正则项，防止在数据分布外的区域过度自信

这个阶段的关键参数设置（见表10）中，β=1.0和η=0.1的比值表明初期更依赖示范数据而非强化学习探索。保守系数α=0.1则提供了适度的正则化，避免过早固化策略。

2.2 在线阶段：实时交互与策略优化

当策略部署到真实机器人后，系统转入在线优化阶段。此时目标函数调整为：

L_online(ψ) = β'L_BC + η'L_Q

参数变化非常关键：β'降至0.5，而η'提升至1.0。这意味着：

减少对示范数据的依赖（β'降低）
增强对环境实际反馈的响应（η'提高）
完全移除了保守项，因为在线数据已能有效约束分布偏移

在线阶段的数据源也扩展为D∪R，其中R是实时交互产生的转移样本。这种混合采样策略既保留了专家技巧，又能适应实际环境动态。

实战经验：在线学习初期建议设置较高的探索率（ε=0.3-0.5），随着成功率提升逐步降低。在实验中，插入方块任务经过约20分钟训练就达到了95%的成功率。

3. 八项真实世界任务的实验验证

研究团队设计了八项代表性任务来全面评估GRM的性能，这些任务覆盖了机器人操作的多个维度：

任务类型	代表任务	关键指标	特殊挑战
单臂精细	插入方块	毫米级定位	高精度需求
单臂长周期	取放玩具	多阶段连贯	错误累积
双臂精细	盖笔帽	双手协调	微小容差
双臂长周期	整理花朵	时序规划	状态记忆