2025_NIPS_Learning from Visual Observation via Offline Pretrained State-to-Go Transformer
文章总结与翻译
一、主要内容
本文针对视觉观察学习(LfVO)中现有方法存在的在线学习效率低、依赖特定任务信息(如目标状态)等问题,提出了一种两阶段框架,核心是离线预训练的State-to-Go(STG)Transformer,用于从纯视觉观测数据中恢复强化学习(RL)策略,无需动作标签和环境奖励。
- 问题背景:传统强化学习存在样本效率低、探索困难等问题,模仿学习虽有改善,但获取动作标签成本高;现有视觉观察学习方法或依赖在线训练(效率低)、或需要额外状态信息(不适用于开放式任务),难以处理高维视觉观测场景(如游戏、机器人)。
- 核心框架:
- 第一阶段(离线预训练):同时训练三个组件——特征编码器(自监督学习时序对齐的视觉表征)、STG Transformer(对抗性训练预测潜在空间状态转移)、鉴别器(区分专家转移与预测转移,生成内在奖励)。
- 第二阶段(在线强化学习):利用预训练组件提供的内在奖励,通过PPO算法训练智能体策略,无需环境奖励信号。
- 实验验证:在Atari(Breakout、Freeway等4款游戏)和Minecraft(4个开放式任务)中进行测试,结果表明该方法显著优于BCO、GAIfO等基线方法,部分任务性能接近基于环境奖励训练的策略。
- 消融实验:验证了时序距离回归器(TDR)、Wasserstein距离度量、多任务预训练等组件的有效性,证明时序对齐表征、对
