当前位置：首页 > news >正文

2025_NIPS_Learning from Visual Observation via Offline Pretrained State-to-Go Transformer

news 2026/6/23 16:19:27

文章总结与翻译

本文针对视觉观察学习（LfVO）中现有方法存在的在线学习效率低、依赖特定任务信息（如目标状态）等问题，提出了一种两阶段框架，核心是离线预训练的State-to-Go（STG）Transformer，用于从纯视觉观测数据中恢复强化学习（RL）策略，无需动作标签和环境奖励。

问题背景：传统强化学习存在样本效率低、探索困难等问题，模仿学习虽有改善，但获取动作标签成本高；现有视觉观察学习方法或依赖在线训练（效率低）、或需要额外状态信息（不适用于开放式任务），难以处理高维视觉观测场景（如游戏、机器人）。
核心框架：
- 第一阶段（离线预训练）：同时训练三个组件——特征编码器（自监督学习时序对齐的视觉表征）、STG Transformer（对抗性训练预测潜在空间状态转移）、鉴别器（区分专家转移与预测转移，生成内在奖励）。
- 第二阶段（在线强化学习）：利用预训练组件提供的内在奖励，通过PPO算法训练智能体策略，无需环境奖励信号。
实验验证：在Atari（Breakout、Freeway等4款游戏）和Minecraft（4个开放式任务）中进行测试，结果表明该方法显著优于BCO、GAIfO等基线方法，部分任务性能接近基于环境奖励训练的策略。
消融实验：验证了时序距离回归器（TDR）、Wasserstein距离度量、多任务预训练等组件的有效性，证明时序对齐表征、对