当前位置: 首页 > news >正文

IEEE RAL 2026 | 西工大 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA

点击下方“大模型与具身智能”,关注我们

机器人在狭窄空间里“走位”有多难?想象一下,21个自由度的仿人机器人要在堆满障碍物的室内摘苹果、在工业管道里检测缺陷,从初始位置到目标位置,每一步都得避开碰撞,还要快、准、稳——这背后的路径规划,一直是机器人领域的老大难问题。

最近有研究团队提出了一款叫RewardRRT的全新路径规划算法,专门攻克狭窄环境下多自由度机器人的路径规划难题,不仅在仿真中把规划速度提升了8.18%~38.45%,平均规划成功率更是飙到88.25%,还在真实的苹果采摘实验中完美落地!今天就带大家扒一扒这个超实用的算法~

先来看核心的算法总体结构图(图1),这张图能帮我们快速看懂RewardRRT的核心逻辑:它把RRT算法的采样树当成“智能体”,先用奖励函数给每个采样状态打分,再靠卡尔曼滤波预测奖励变化,动态调整采样概率,最后根据预测的奖励值决定优先扩展哪棵树——不是传统的交替扩展,而是盯着奖励低的树重点“攻坚”,从根上提升探索效率。

论文信息

题目: RewardRRT: Path Planning for Multi-Degree-of-Freedom Robots in Narrow Environments
奖励RRT:面向狭窄环境中多自由度机器人的路径规划算法
作者:Qinhu Chen, Wenqiang Wang, Zeming Fan, Meilin Kang, Chuan Yu, Ho Seok Ahn

为啥传统算法在狭窄环境里不好使?

先聊聊痛点:狭窄环境里障碍物多,机器人关节又多(比如实验里的21自由度轮式仿人机器人),传统路径规划算法要么“瞎采样”,在无效区域浪费时间;要么采样概率固定,没法适应环境变化;要么双向扩展树时盲目交替,收敛慢得离谱。

就拿OMPL库中表现最好的算法来说,在狭窄场景下成功率也就58.5%,规划速度还慢,根本满足不了实际应用的需求。而RewardRRT就是冲着这些痛点来的,核心做了4件大事:

1. 给采样状态“发奖励”,再也不瞎探索

RewardRRT最核心的创新,就是给每个采样的机器人状态设计了一套“动态奖励机制”——不是靠死板的局部启发式,而是用全局的奖励信号引导探索方向。

简单说,每个采样点的“奖励分”怎么算?离目标位置越近,奖励越高;如果碰到障碍物(自碰撞或碰环境),直接扣大分;还加了“遗忘因子”,避免算法陷在局部最优里出不来。而且还设置了奖励上下限,防止个别极端采样点把整体判断带偏。

有了这个奖励机制,算法就像有了“导航仪”,不用在满是障碍物的狭窄空间里乱撞,每一次采样都朝着“高奖励”的目标位置走,探索效率直接拉满。

2. 动态调整采样概率,比“固定值”聪明多了

传统RRT算法常用固定的偏置采样概率(比如OMPL默认的0.05),但狭窄环境里,固定概率要么太保守、要么太激进。

RewardRRT用了卡尔曼滤波来解决这个问题:它把采样树的累积奖励、奖励增量当成“状态”,用卡尔曼滤波预测这些状态的变化,再通过Sigmoid函数把预测结果转换成动态的采样偏置概率。而且为了保证算法的完备性,把奖励引导采样的最大概率限制在0.9,留10%的随机采样兜底,既聪明又稳妥。

实验也证明,这种动态概率比固定概率的成功率高一大截(看图4),尤其是在工业管道这种超窄场景里,优势特别明显。

3. 不搞“平均主义”,树扩展只盯“弱势方”

传统双向RRT算法是“你扩一下、我扩一下”的交替扩展模式,不管哪棵树离目标近、哪棵树探索效率低,都一视同仁。

RewardRRT直接打破这种模式:先用卡尔曼滤波预测两棵树(从初始点出发的树、从目标点出发的树)的累积奖励,谁的预测奖励低,就优先扩展谁。这种“靶向扩展”思路,让算法能集中精力补短板,收敛速度直接起飞。

4. 环境建模更高效,适配多自由度机器人

要规划路径,先得把环境摸清楚。研究团队用八叉树结构处理点云数据(看图2),既能高效做碰撞检测,又能减少数据存储,完美适配21自由度机器人的复杂状态空间——不管是单臂、双臂操作,还是头部、腰部、移动平台的协同,都能覆盖到。

图2

实测效果有多顶?数据说话!

研究团队在4个典型狭窄场景里做了测试:室内服务、医疗测试、室内温室采摘、工业管道缺陷检测(全在图2里),还对比了OMPL库中31种基于采样的算法,最大规划时间设为5秒,每个场景测50次,结果直接碾压:

规划速度:场景1(室内服务)平均规划时间0.4146秒,比OMPL最优算法快38.45%;场景2(医疗测试)快8.18%,场景3(温室采摘)快9.88%,场景4(工业管道)快14.98%;

成功率:平均88.25%,比OMPL最优的BiTRRT(58.5%)高出29.75%;

探索效率:同样的任务,RewardRRT探索的状态数比RRTConnect少50%以上,甚至在工业管道场景里少了95%~96%,少走弯路就是省时间!

更关键的是,算法还在真实场景中落地了!团队搭建了室内苹果采摘环境,机器人先用摄像头定位苹果,再用RewardRRT规划路径,最后精准控制左臂、腰部和移动平台,成功完成采摘(看图3)——从理论到实践,一步到位。

图3

最后再放一张动态概率vs固定概率的对比图(图4),能清晰看到动态概率在成功率和整体性能上的优势,尤其是在复杂的场景4里,差距一眼就能看出来。

总结&未来展望

RewardRRT的核心思路,就是把强化学习的奖励机制和经典的RRT算法结合,用卡尔曼滤波做动态调整,用非对称扩展提收敛速度——没有复杂的模型训练,却解决了狭窄环境下的大问题。

当然算法也还有提升空间,比如目前的奖励只考虑了距离,没兼顾轨迹平滑度、能量消耗这些;在动态环境、多机器人场景下的适配性也还需要验证。不过研究团队已经规划了后续方向:优化奖励结构、尝试分层设计、拓展到动态场景,相信后续会更厉害!

总的来说,这款算法让多自由度机器人在狭窄环境里的“走位”更丝滑了,不管是室内服务、农业采摘还是工业检测,都有实实在在的应用价值——以后机器人在复杂环境里干活,再也不用“磕磕绊绊”啦~

http://www.jsqmd.com/news/336951/

相关文章:

  • 计算机毕业设计springboot图书在线借阅系统 基于SpringBoot的智慧图书馆借阅服务平台 高校数字化图书借还管理系统的设计与实现
  • 2026年 电子蜡烛厂家推荐排行榜:充电/防水/户外/圣诞/LED/摇摆/亚克力/茶蜡,创意照明与氛围营造实力之选 - 品牌企业推荐师(官方)
  • 2026年质量好的白刚玉炉料/白刚玉微粉厂家推荐及采购指南 - 品牌宣传支持者
  • 2026年Agent领域十大趋势判断 甲子光年
  • 探讨双马拉链的品牌忠诚度高吗?这品牌值得试试吗? - 工业品网
  • 华为OD机试双机位C卷 - FLASH坏块监测系统 (C语言 C++ Python JAVA JS GO)
  • 面向对象思想:从面向过程到面向对象的转变
  • 2026年 电液执行器/电液伺服/液压执行机构厂家推荐排行榜:尖端驱动与智能联动技术深度解析 - 品牌企业推荐师(官方)
  • 设计手工DIY教程推荐工具,输入DIY类型,(饰品/家居/烘焙),推荐适配教程,标注材料及步骤,帮手工爱好者快速上手。
  • 分析2芬畅香水香精适合什么人群,推荐不容错过 - mypinpai
  • 格式化输入输出:控制输出精度与对齐方式
  • Clawdbot背后的技术原理,吴恩达出官方课程了
  • 一种基于 cpolar 的内网 Java 服务远程调试实战【远程调试系统设计与应用验证】
  • 不锈钢户外耐候柔性护栏选购,小水牛科技值得考虑吗 - myqiye
  • 数据加密测试全流程精解:从原理到GDPR合规实战
  • Wijmo管理 JavaScript 应用程序中的混乱数据
  • 浙江春城冷却在本地市场口碑怎么样,华东工业冷却方案费用多少 - 工业推荐榜
  • 2026手动验证实战指南:破解AI盲区,锁定30%致命漏洞
  • SQL注入操作检查:原理、检测与防范
  • netCHARTING从WinForms将图表数据导出CSV文件
  • AI SaaS产品如何设计弹性伸缩架构?完整方案解析
  • 便携充电宝,电路原理图,PCB文件,程序源码,BOM详细设计说明文件。 用户按键控制便携式电源...
  • 全栈信创融合AI 打造自主可控的智能算力底座
  • 强化学习框架下的政策真空期:本周五非农“爽约”下AI驱动的宏观经济指标替代方案评估
  • 韩国英拓克ID271/720A/220V直流调速器
  • 【Linux命令大全】009.备份压缩之ar命令(实操篇)
  • 【Linux命令大全】009.备份压缩(理论篇)
  • Kimi喊话:搜“Kimi官网”前4个都是广告;何小鹏回应小鹏IRON人形机器人首秀行走摔倒;甲骨文拟裁员2-3万人| 极客头条
  • U-Boot 核心作用与核心知识点
  • 韩国英拓克ID271/200A/380V直流调速器