当前位置: 首页 > news >正文

实用指南:ICRA-2025 | 机器人具身探索导航新策略!CTSAC:基于课程学习Transformer SAC算法的目标导向机器人探索

  • 作者: Chunyu Yang, Shengben Bi, Yihui Xu, Xin Zhang
  • 单位:中国矿业大学信息与控制工程学院
  • 论文标题:CTSAC: Curriculum-Based Transformer Soft Actor-Critic for Goal-Oriented Robot Exploration
  • 论文链接:https://arxiv.org/pdf/2503.14254v1
  • 代码链接:https://github.com/ShengbenBi/CTSAC

主要贡献

  • 提出了基于课程学习的 Transformer 强化学习算法(CTSAC),用于提高目标导向机器人探索的效率和迁移性能。
  • 将 Transformer 集成到soft actor - critic(SAC)框架的感知网络中,使机器人能够利用历史信息,增强策略的远见性,从而处理机器人缺乏长期视野以及容易陷入循环的问题。
  • 引入了基于定期复习的课程学习策略,提高了训练效率,同时减轻了课程转换过程中的灾难性遗忘问题。
  • 对激光雷达聚类进行了优化,减少了Sim-To-Real的差距,并在 ROS - Gazebo 连续机器人仿真平台上进行了训练,利用实验验证了 CTSAC 算法在成功率和成功率加权探索时间方面优于现有的非学习和基于学习的算法,且在现实世界实验中展现了强大的 S2R 迁移能力。

研究背景

任务描述

问题概述

马尔可夫决策过程的定义

  • 状态(State):令 sts_tst表示机器人在时间ttt的状态,包括以下信息:
    • 从预处理后的激光雷达观测l1,…,ldl_1, \dots, l_dl1,,ld中获得的周围障碍物信息。
    • 机器人的线速度vrv_rvr 和角速度 ωr\omega_rωr
    • 目标点与机器人之间的相对距离dtd_tdt 和角度 θt\theta_tθt
  • 动作(Action):基于策略 π\piπ,机器人选择一个动作ata_tat,包括线速度vcv_cvc 和角速度 ωc\omega_cωc,且这些动作在机器人的运动学限制内。
  • 奖励(Reward):环境根据机器人的动作ata_tat 提供奖励 rtr_trt,随后机器人状态转移到下一个状态st+1s_{t+1}st+1。这个过程不断重复,直到机器人达到预设的目标状态。

CTSAC 途径

端到端目标导向机器人探索框架

  • 系统架构:机器人配备激光雷达(LiDAR)和惯性测量单元(IMU),用于环境感知和状态估计。

  • 激光雷达数据预处理:对激光雷达数据进行预处理,根据其维度特性将扫描区域划分为多个段,并对每个段内的激光雷达数据进行聚类。与传统的均匀分割途径相比,本文优化了分割方法,使其与机器人的运动方向相关,增强了机器人在前进方向上的感知能力,并减少了网络的决策时间。
  • 奖励函数设置:奖励函数由多个部分组成,包括目标到达奖励、碰撞惩罚、转弯惩罚、目标接近奖励、障碍物接近惩罚、徘徊惩罚和步数惩罚等。这些奖励和惩罚机制共同引导机器人高效、安全地达成探索任务。

基于 Transformer 的SAC算法

基于定期复习的课程学习策略

  • 课程学习机制
    • 采用基于定期复习的课程学习技巧来训练基于 Transformer 的soft actor - critic(TSAC),以加速训练速度和稳定性,防止陷入局部最优导致训练发散,并缓解课程学习中常见的灾难性遗忘挑战。
    • 在每个训练阶段,定期回顾之前的任务,以确保在新环境中成功学习的同时有效保留早期阶段获得的知识。
  • 环境设置与算法流程
    • 设计了不同难度级别的训练环境,包括死胡同、各种大小的障碍物、随机出现的动态障碍物以及可能因随机障碍物而被阻塞的路径等情况。
    • 课程学习包含六个阶段,随着阶段的推进,环境容器会添加相应难度的世界。下图展示了课程学习的伪代码,其中详细描述了如何在不同阶段采样环境并进行训练,以及如何根据成功率进行阶段切换。

实验与讨论

仿真实验

实验设置

实验结果
  • 轨迹图:上图(a)显示了在 World 6-1 中的轨迹图,CTSAC 能够快速到达目标,而 TD3 由于前端检测精度有限而难以找到狭窄入口,FP 因缺乏对环境的理解而陷入死胡同,RRT* 沿墙行走,存在安全问题。
  • 性能对比:上图(d) 显示了在不同测试世界中的性能对比。TD3 在 World 4 中表现最佳,但缺乏泛化能力。CTSAC 在所有环境中都搭建了高成功率和较短的探索时间,表现出最优的性能。基于学习的方法尽管方差较大,但展示了更大的灵活性和泛化能力。

消融实验

Transformer 的验证
  • 实验设置:将 CTSAC 与没有 Transformer 的 SAC 算法(CSAC)进行比较,两者在相同的设置下进行训练。
  • 实验结果
    • 轨迹图:上图(b) 表明了在 World 6-2 中的轨迹图,CTSAC 成功绕过了障碍物,而 CSAC 继续徘徊。CTSAC 通过 Transformer 的自注意力机制有用利用了长期历史信息,从而能够做出更准确的决策并避免停滞。
    • 性能对比:上图(e) 显示了在不同测试世界中的性能对比,CTSAC 的 SR 和 SET 比 CSAC 高出 10%,这表明 CTSAC 不仅提高了任务的成功率,还通过减少冗余行为优化了探索效率。在更麻烦的环境中,性能差距更加明显。
课程学习的验证

现实世界实验

  • 实验设置
    • 测试场地:选择了一个面积为 45m×60m 的地下停车场,该环境有柱子、狭窄通道、可能打开或关闭的门以及行人。
    • 机器人:使用 AgileX Bunker 机器人,配备 NVIDIA Jetson Orin NX 和 Velodyne VLP16 激光雷达。
    • 对比算法:与 FP 和 TD3 进行比较。
    • 测试次数:每个算法测试 40 次。

  • 结果与分析
    • 性能对比:上表显示了实验结果,CTSAC 实现了最高的成功率 0.8,比 FP 高出 22%,与 TD3 相当。然而,CTSAC 展示了更短的探索时间,表明其路径规划效率更高。
    • 轨迹图:图(g) 显示了在现实世界中的轨迹图,CTSAC 成功从 FP 卡住的局部最优中逃脱,通过狭窄通道到达目标。相比之下,TD3 由于观察性能差而未能通过狭窄通道。
    • CTSAC 在现实世界中的表现验证了其从仿真到现实(S2R)的迁移能力。尽管机器人在实验中出现了打滑现象,表明速度跟踪控制器未能奏效跟踪命令,这需要在未来的工作中加以解决。

结论与未来工作

http://www.jsqmd.com/news/33188/

相关文章:

  • 浅谈java中的悲观锁,乐观锁以及CAS操作
  • 2025年水泥板破碎机供货厂家口碑推荐榜:江苏环硕建设领跑
  • 2025年11月冷再生机生产厂家推荐榜单:江苏环硕建设领跑行业
  • 2025年11月冷再生机生产厂家推荐榜单
  • 2025年冷再生机源头厂家口碑排行
  • 微信小程序开发入门学习记录(一)
  • 2025 年 11 月 12Cr1MoVG 合金管,15CrMoG 合金管,P22 合金管公司最新推荐,实力品牌深度解析采购无忧之选!
  • Create RAC database using DBCA silent mode
  • P1011 [NOIP 1998 提高组] 车站
  • 2025年广东小儿穴位按摩培训机构权威推荐榜单:小儿穴位推拿培训/小儿推拿学习/小儿按摩学习源头机构精选
  • 2025年国内塑料栈板品牌综合评测:谁家塑料栈板夺魁?
  • 2025年11月6日
  • 2025年钣金机架工厂权威推荐榜单:铝型材设备机架/铝型材防护罩/设备机架制作源头厂家精选
  • PG故障处理:PG归档空间耗尽案例分析
  • 树莓派软路由wifi烧录pi3
  • 室内潮玩运动馆:特色项目/美味小吃/团建适配性权威指南
  • 12c RAC添加节点
  • 十五五规划释放AI产业新信号,边缘智能或成下一个风口
  • 2025 年锻钢阀源头厂家最新推荐排行榜:聚焦精工智造与节能减排,碳钢锻钢阀/手动锻钢阀/锻造钢阀/丝扣锻钢阀公司推荐
  • 2025年11月洗选煤成套设备厂家推荐排行榜前十强:山东鑫佳重工科技领衔
  • 揭秘MySQL优化器:为何索引在手却选择全表扫描?
  • manim边做边学--文字创建销毁的打字机效果
  • 2025年河北泵用挤压软管体验权威推荐:河北抽负压真空胶管清洁/河北抽真空胶管安装/河北真空侵胶管维护源头厂家精选
  • 2025年移动照明车灯塔工厂权威推荐:液压升降移动照明车/拖车式移动照明车/太阳能移动照明车源头厂家精选
  • 学习Hyperledger Fabric2.5
  • DHTMLX Gantt 9.1 的核心目标——在保持稳定性能的基础上,带来更智能的时间刻度优化、更灵活的任务渲染、更高效的实时协作能力及更完善的资源管理功能。
  • 量化选股与量化交易第857篇:通达信主升操盘 - Leone
  • 【中大厂前端】Java常见面试题 - 教程
  • 量化选股与量化交易第858篇:通达信擒龙三把锁 - Leone
  • 量化选股与量化交易第861篇:通达信绝杀大牛 - Leone