当前位置：首页 > news >正文

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation

news 2026/7/20 4:43:12

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation
- 0x00 概要
- 0x01 On-Policy Distillation
  - 1.1 核心定位：解决传统方法的两难
  - 1.2 通俗类比
    - 1.2.1 概述
    - 1.2.2 详述
      - 普通 RL 游戏
      - OPD 游戏
  - 1.3 持续学习中的知识注入与能力保持困境
    - 1.3.1 SFT的激进性与灾难性遗忘
    - 1.3.2 RL的保守性与样本效率瓶颈
    - 1.3.3 SFT vs RL
      - 训练分布不同：off-policy VS on-policy
      - 目标函数本质不同：模仿VS偏好
      - KL约束+重要性采样：天然的"防遗忘锚点"
    - 1.3.4 OPD：一种融合稳定与高效的协同范式
  - 1.4 核心原理与数学形式
    - 1.4.1 核心流程(三步闭环)
    - 1.4.2 与 RL 的理论等价性
  - 1.5 关键技术变体与演进
    - 1.5.1 G-OPD (广义 On-Policy Distillation)
    - 1.5.2 OPCD (On-Policy Context Distillation)
    - 1.5.3 SDPO (Self-Distilled Policy Optimization)
  - 1.6 核心优势
  - 1.7 与 DPO/PPO/KD 的核心区别
  - 1.8 小结
- 0x02 Hindsight-Guided On-Policy Distillation
  - 2.1 理解难点识别
  - 2.2 实际信号
  - 2.3 具体实现
    - 2.3.1 目标
    - 2.3.2 深入技术细节
    - 2.3.3 提取 Hint
    - 2.3.4 比喻
    - 流程
    - 2.3.5 具体流程伪代码
  - 2.4 小结
- 0x03 对比
  - 3.1 标准 OPD vs OpenClaw OPD
    - 3.1.1 标准 OPD (原始论文 + Slime 官方实现)
    - 3.1.2 OpenClaw OPD (两种变体)
      - 变体 A：标准 OPD (advantage-based)
      - 变体 B: Top-K OPD (reverse KL loss)
    - 3.1.3 核心区别对比表
    - 3.1.4 架构层面的区别
    - 3.1.5 哲学差异
  - 3.2 正向 KL vs 反向 KL
    - 3.2.1 定义
    - 3.2.2 核心行为差异
    - 3.2.3 直觉记忆法
    - 3.2.4 具体例子
    - 3.2.5 梯度对比
    - 3.2.6 在 LLM 蒸馏中的应用
    - 3.2.7 澄清
    - 3.2.8 总结
- 0xEE 广告
- 购买链接
- 0xFF 参考

0x00 概要

本系列的目的是：借着对 OpenClaw-RL 源码的学习，来梳理强化学习的一些相关概念和思想。所以，会有一些基础知识、扩展和发散，OpenClaw-RL 只是一个切入点。而且，因为整篇系列是一个整体，所以有些概念的解读/学习会在不同的文章中出现，还请大家谅解。

OpenClaw-RL 是一个用于在线强化学习（Online RL）的框架，专门针对智能体工具使用场景。它通过从环境反馈中提取过程奖励信号来训练语言模型，支持三种主要模式：

openclaw-rl：基于二元奖励的强化学习（Binary RL / GRPO）
openclaw-opd：基于后见之明提示的在线策略蒸馏（On-Policy Distillation, OPD）
openclaw-combine：联合方法，在同一 PPO 更新中同时利用 RL reward 和 OPD teacher signal

0x01 On-Policy Distillation

OPD是整个架构中最深入、最有差别化的核心设计，是剖析整个框架优势的最佳切入点。

On-Policy Distillation(策略内蒸馏 / 同策略蒸馏) 是强化学习(RL)与知识蒸馏(KD)融合的训练范式，核心是让学生模型在自身生成的轨迹(On-Policy)上学习，同时获得教师模型提供的逐步骤密集监督信号，兼顾了传统 RL 的 “贴合自身分布” 与监督蒸馏的 “高效学习” 两大优势。

1.1 核心定位：解决传统方法的两难

传统 RL 与离线知识蒸馏存在固有缺陷，OPD 旨在打破此困境：

方法	样本来源	反馈信号	核心优势	致命缺陷
标准 RL (PPO)	On-Policy（学生自生成）	稀疏（最终奖励）	贴合自身策略、探索有效	反馈稀疏、训练极慢、成本高
离线蒸馏 (SFT)	Off-Policy（教师生成）	密集（逐 token）	学习高效、收敛快	分布偏移、学生易 “纸上谈兵”、难泛化
On-Policy Distillation	On-Policy（学生自生成）	密集（逐 token）	兼顾贴合自身 + 高效学习	需维护教师模型、计算成本略增

1.2 通俗类比

1.2.1 概述

RL：自己下棋，只知输赢，不知错步，要自己摸索
离线蒸馏：看大师棋谱，照搬但不理解自身棋局。
OPD：自己下棋，大师实时逐步点评，精准纠错。有具体建议+正确示范，学得更快。

所以，OPD就像是给AI配了一个超级耐心的老师，让它在帮你做事的过程中，不断地变得更聪明、更贴心！

1.2.2 详述

想象你在玩两款不同的学习游戏！

普通 RL 游戏

普通RL游戏：“猜对了才有分“

游戏规则：
- 你做题：老师给你一道题，你给出答案
- 老师打分：老师只说“对！“或“X错！“
- 自己琢磨：如果错了，你要自己想“到底哪里错了？“
举个例子：
- 题目：小明有5个苹果，吃了2个，还剩几个？
- 你的答案：还剩8个！
- 老师反馈：错！(就这一个字！)
- 你的困惑：“啊？到底是加法错了？还是减法错了？还是数字算错了？“
这个游戏的特点：
- 很难学：因为只知道对错，不知道怎么改进
- 要试很多次：可能要猜好多次才能找到正确方法
- 容易放弃：总是被说“错”，但不知道为什么错
AI助手是怎么学习的？
- 像独自摸索的学生
- 被用户说“不对“时，只能自己猜哪里错了
- 需要很多很多次练习才能变聪明

OPD 游戏

OPD游戏：“超级老师手把手教“

游戏规则：
- 你做题：老师给你一道题，你给出答案
- 智能提示：系统自动分析你的错误，给出具体建议
- 老师示范：超级老师现场演示正确做法
- 对比学习：你可以看到自己的答案和老师的答案有什么不同
举个例子：
- 题目：小明有5个苹果，吃了2个，还剩几个？
- 第一步：AI开始尝试
  - 你的答案：还剩：8个！
- 第二步：老师给出一个超级有用的“后见之明“提示
  - 智能提示：“记住：吃了要用减法，不是加法哦！下次遇到吃了、用了、花了这样的词，要想到减法！“
  - 这个提示就是“后见之明“一意思是“事后才知道的聪明建议”。
- 第三步：AI 重新思考
  - 现在，AI助手拿到了这个提示，它会这样想：“哦！原来如此！题目里说吃了2个，应该是5-2=3个才对！“
- 第四步：老师示范正确做法
  - 老师看到同样的题目和提示，会这样回答：“小明原来有5.个苹果，吃了2个，所以要用减法：5-2=3。答案是3个苹果。
- 第五步：学生AI向老师学习
  - 你的领悟：“哦！原来吃了是要减掉的！我明白了！
这个游戏的特点：
- 学得快：直接告诉你怎么改进
- 不迷茫：知道具体的错误原因
- 有信心：有老师带着你一步步进步
AI助手是怎么学习的？
- 像有私人教练的学生
- 每次犯错都有“后见之明提示“告诉它怎么改进
- 还有“超级老师AI"给它做正确示范
- 所以学得特别快，很快就变得很聪明！

1.3 持续学习中的知识注入与能力保持困境

在构建能够持续进化的智能系统时，一个核心挑战在于如何平衡“可塑性”与“稳定性”。模型既要具备足够的可塑性以吸纳新知识，又要维持足够的稳定性来保护已有的能力储备。传统的监督微调（SFT）与强化学习（RL）作为两种主流技术路径，在这一目标上各自存在显著的局限性。

1.3.1 SFT的激进性与灾难性遗忘

监督微调（SFT）本质上是一种离策略（Off-Policy）的学习过程。它强制模型去拟合由外部专家数据定义的标注分布，这种做法相当于将模型参数强行拉向一个新的、往往是局部最优的解空间。由于缺乏对原始模型参数空间的显式约束，这种激进的优化方式极易破坏模型在预训练阶段习得的通用知识结构和底层表征，从而引发严重的灾难性遗忘。简而言之，SFT在高效注入特定领域知识的同时，往往会以牺牲模型的通用能力为代价，导致“学新忘旧”的现象。

1.3.2 RL的保守性与样本效率瓶颈

相比之下，强化学习（RL）通常表现出更强的稳定性。其在线策略（On-Policy）的特性意味着模型是在自身当前的认知边界内进行探索和优化，这天然地限制了其行为偏离原始能力的范围。然而，RL的短板在于其对稀疏奖励信号的依赖。它擅长通过试错来优化行为策略，却难以实现高密度、细粒度的知识传递。因此，RL的训练过程往往伴随着高昂的计算成本和较低的样本效率，使其在需要快速、精准注入大量新知识的场景下显得力不从心。

1.3.3 SFT vs RL

我们再回头对比下RL和SFT。

SFT 在改写模型；RL 在唤醒模型。改写需要小心，唤醒天然安全。

维度	SFT	RL
学什么	每token模仿固定 y	在自己的输出空间里挑好答案
泛化机制	靠数据多样性外推	靠信息瓶颈+流形采样内推
遗忘控制	无显式机制	KL锚点 + clip + on-policy
失败模式	过拟合、暴力位移	reward hacking、采不到目标解

训练分布不同：off-policy VS on-policy

SFT 是off-policy

训练数据来自人工/教师模型，模型从未自己生成过这些 trajectory。这导致两个问题：

Exposure bias：训练时 prefix 永远是 ground truth，推理时 prefix 是模型自己的输出→分布偏移
Catastrophic forgetting：要拟合外来分布，权重大幅偏移；与原模型分布远的样本会"挤压"已有能力

RL是on-policy(或近似)

训练数据永远从模型当前能产出的轨迹里挑。这有几个直接好处：

模型只在自己的"行为支撑集"内更新，权重不会被外来分布拽离原始流形
更新本质是重新加权(re-weighting)已有能力，而不是注入新映射
不需要的能力不会被显式抑制(reward 不惩罚它)

一个直观比喻

SFT像强制让你抄一遍标准答案 → 你可能记住了这一题，但不一定理解
RL像老师对你自己写的答案打+1/-1分 → 你被迫从"自己已会做的解法里"挑出最稳的那个，然后强化它

目标函数本质不同：模仿VS偏好

SFT的目标

\[\mathcal{L}{\text{SFT}} =-\mathbb{E}{(x,y)\sim\mathcal{D}},\log \pi_\theta(y \mid x) \]

这是强匹配目标：要求模型在每一个 token 上复刻训练数据。问题在于：

数据集$\mathcal{D}$里的$y$是众多可行解中的一条特定路径
SFT不区分$y$的"答案正确"与"表达方式"，两者一起被记忆
任何与$y$不同的输出都被视为"错"，包括等价改写、不同推理顺序

因此，SFT在做行为克隆(behavior cloning)，必然倾向记忆而非抽象。

RL的目标(以PPO/GRPO为例)

\[\mathcal{L}^{\text{CLIP}} = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] \]

这是弱匹配目标：模型可以走任何路径到达高reward，区别仅在路径之间的相对优劣。

维度	SFT	RL
监督粒度	每token全监督	序列级标量 / token级advantage
等价解	视为错误	视为同等优
探索性	零	强(采样自身)
信号KL容量	高(把整个y烙进模型)	低(只告诉"好/坏")

RL的reward信号只携带1_{log(候选数)bit；SFT的cross-entropy信号每token都有}loglVlbit。信号位数少→ 模型必须靠抽象去拟合，无法靠死记。这是RL泛化更强的最深刻原因：信息瓶颈强制泛化。

KL约束+重要性采样：天然的"防遗忘锚点"

PPO/GRPO 等 on-policy RL 算法都有：

\[\mathcal{L} = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}\left( r_t(\theta), 1 - \epsilon, 1 + \epsilon \right) \hat{A}_t \right) \right] - \beta \cdot \text{KL}(\pi_\theta || \pi_{\text{ref}}) \]

两个机制天然抑制遗忘：

PPO clip：限制每步策略相对 $\pi_{\text{old}}$的概率比变化在 $[1-\epsilon，1+\epsilon]$(典型 0.2)→单步更新幅度被卡死
KL惩罚：直接把$\pi_\theta$拉回参考模型 $\pi_{\text{ref}}$(通常是SFT后的模型)→显式锚定原能力_

SFT 没有任何与原分布的距离约束，loss=0时仍可能离 $\pi_{\text{ref}}$任意远。这就是为什么：

SFT 上一个新领域→老领域大幅退化(catastrophic forgetting)
RL上一个新任务→老能力基本保留(KL锚点+on-policy不引入分布外样本)

1.3.4 OPD：一种融合稳定与高效的协同范式

在线策略蒸馏（OPD）的出现，为解决上述两难困境提供了一种优雅的协同方案。它巧妙地结合了RL的稳定性和SFT的高效性。

该范式的核心机制在于，首先让学生模型依据其当前策略自主生成交互轨迹。随后，教师模型并非在一个预设的、静态的数据集上进行指导，而是在学生模型真实访问到的状态上，提供逐词元（Token-level）的监督信号。这种设计实现了双重优势：

继承稳定性： 由于监督信号是基于学生模型自身的在线策略产生的，整个学习过程天然地保持在模型原有的能力分布附近，极大地缓解了参数空间的剧烈偏移，从而有效抑制了灾难性遗忘。
提升效率： 教师提供的密集监督信号，如同为学生铺设了一条清晰的优化路径，避免了RL中因稀疏奖励而导致的盲目探索，显著提升了知识注入的效率和精度。

综上所述，OPD范式通过将对齐过程锚定于学生模型的实时策略之上，成功地在知识吸收的效率与既有能力的保持之间找到了一个更优的平衡点。它不仅是一种技术上的改进，更代表了一种新的持续学习思路：即通过引导模型在其自身的能力边界上进行自我修正与扩展，而非强行施加外部标准，从而实现真正意义上的稳健进化。

1.4 核心原理与数学形式

1.4.1 核心流程(三步闭环)

On-Policy 采样：学生模型 π_θ 基于输入 x 自主生成完整序列 y=[y1,y2,...,yt]。
教师密集评估：教师模型 π_teacher 对学生生成的每一步 yt 评估，输出分布概率。
反向 KL 优化：学生最小化与教师在自身生成轨迹上的方向 KL 散度(Reverse KL)，即 $D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{teacher}})$。

$\mathcal{L}_{\text{OPD}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta} \left[ \frac{1}{T} \sum_{t=1}^T D_{\text{KL}} \left( \pi_\theta(\cdot | x, y_{<t}) \parallel \pi_{\text{teacher}}(\cdot | x, y_{<t}) \right) \right]$
- 侧重让学生在自己会犯错的地方贴近教师，抑制低概率错误，稳定性更强。

1.4.2 与 RL 的理论等价性

OPD 本质是带密集隐式奖励的 KL 正则化 RL：

等价目标：$\max_\theta \mathbb{E}[r_t] - D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})$
密集奖励：$r_t = \log \pi_{\text{teacher}}(y_t | x, y_{<t})$(每步即时奖励)
标准 OPD 约束：奖励与 KL 正则项权重固定为 1:1

1.5 关键技术变体与演进

1.5.1 G-OPD (广义 On-Policy Distillation)

突破标准 OPD 的 1:1 约束，引入奖励缩放因子 α 与灵活参考模型：

$\mathcal{L}_{\text{G-OPD}} = \mathbb{E} \left[ \alpha \cdot \log \pi_{\text{teacher}} \right] - D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})$

ExOPD (奖励外推)：当 α>1 时，学生可超越教师性能。
强师弱生优化：用教师预训练基模型作参考，提升蒸馏稳定性。

1.5.2 OPCD (On-Policy Context Distillation)

面向大模型上下文学习，让学生内化上下文知识：

学生无上下文生成 y → 教师带上下文评估 y → 学生优化以匹配上下文感知的教师分布。

1.5.3 SDPO (Self-Distilled Policy Optimization)

自我蒸馏：无需外部教师，以模型自身历史优策略为教师，实现闭环自我迭代。

1.6 核心优势

效率革命：训练成本降至传统 RL 的 1/10，收敛速度提升 10 倍。
分布对齐：在学生自身分布上学习，无分布偏移，泛化性强。
稠密反馈：逐 token 监督，精准定位错误，避免信用分配难题。
稳定可靠：Reverse KL（$D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{teacher}})$）与 On-Policy 采样结合，训练过程极稳定、不掉点。
小模型利器：8B 小模型可高效继承 70B 大模型能力，支持低成本部署。

1.7 与 DPO/PPO/KD 的核心区别

VS PPO：OPD 是密集奖励，PPO 是稀疏奖励；OPD 收敛更快、更稳。
VS 离线 KD：OPD 是On-Policy(学生自生成)，KD 是 Off-Policy(教师数据)；OPD 无分布偏移。
VS DPO：DPO 基于偏好排序，OPD 基于教师完整分布；OPD 监督更密集、信息更丰富。

为了更直观体现各方法的差异与适配场景，下表从核心定位、样本来源、监督信号、损失核心、关键优势、核心缺陷、适配场景7 个核心维度梳理，同时标注各方法的核心关键词和训练效率(以★数量表示，★越多效率越高)。

对比维度	On-Policy Distillation (OPD)	PPO (近端策略优化)	DPO (直接偏好优化)	离线 KD (知识蒸馏)
核心定位	RL+KD 融合，学生自实践 + 教师实时逐步指导	经典 On-Policy RL，纯策略自我迭代优化	偏好对齐 RL，用人类 / AI 偏好替代奖励	纯监督蒸馏，教师教学生照搬已有经验
样本来源	On-Policy（学生自身生成的轨迹 / 序列）	On-Policy（策略自生成的交互数据）	Mix-Policy（部分自生成 + 部分偏好样本）	Off-Policy（教师预生成的固定数据集）
监督信号	密集逐步：教师模型的逐 token 概率分布	稀疏：环境反馈的最终奖励值	成对偏好：样本对的相对优劣排序	密集逐步：教师模型的逐 token 概率分布
损失核心	Reverse KL 散度 $D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{teacher}})$（学生∥教师），聚焦纠正自身错误。	裁剪优势函数 + KL 正则，限制策略更新幅度	偏好损失，最大化优选样本的相对概率	KL 散度（学生∥教师）/MSE，拟合教师固定分布
核心关键词	同策略、密集监督、无分布偏移、教师依赖	同策略、稳定更新、纯强化、信用分配	偏好对齐、免奖励建模、易落地、弱监督	异策略、高效拟合、数据固定、强教师依赖
关键优势	1. 兼顾同策略分布对齐 + 密集监督效率；2. 无分布偏移，泛化性强；3. 精准纠正逐步错误，避免信用分配难题	1. On-Policy RL 中稳定性最优，不易发散；2. 纯自主探索，无需外部教师 / 偏好标注；3. 适配复杂环境交互，策略探索性强	1. 免手动设计奖励函数，对齐更贴合实际需求；2. 标注成本低于逐步监督，落地难度低；3. 可结合少量自生成样本优化	1. 训练效率最高，收敛速度极快；2. 无需环境交互，纯静态数据训练；3. 小模型快速继承大模型核心能力
核心缺陷	1. 需维护教师模型，额外占用计算资源；2. 教师性能上限决定学生最优性能；3. 相比离线 KD，采样阶段有少量计算成本	1. 奖励稀疏，训练周期长、成本高；2. 存在信用分配难题，难以定位逐步错误；3. 样本利用率低，需持续重新采样	1. 偏好监督信息较稀疏，优化粒度粗；2. 部分场景存在偏好偏移，泛化性弱于 OPD；3. 策略探索性弱于纯 PPO	1. 严重分布偏移，学生 “纸上谈兵”，泛化性极差；2. 无自主探索能力，难以适配动态环境；3. 对数据集质量高度敏感，易过拟合
训练效率	★★★★（高效，约为 PPO 的 10 倍）	★★（低效，样本利用率低）	★★★（中高效，兼顾标注与优化）	★★★★★（极高效，纯静态拟合）
适配场景	1. LLM 精细对齐（数学推理 / 代码生成）；2. 垂直领域小模型高效训练；3. 游戏 AI 实时策略学习（需精准逐步优化）	1. 复杂动态环境交互（机器人 / 无人车）；2. 无外部监督 / 教师的纯策略探索场景；3. 需强探索性的游戏 AI（如星际争霸）	1. 大模型人类偏好对齐（对话 / 指令遵循）；2. 标注成本有限，无法做逐步监督的场景；3. 对策略精细度要求不高的对齐任务	1. 小模型快速冷启动，继承大模型基础能力；2. 静态任务建模（如文本分类 / 固定问答）；3. 无环境交互的纯生成任务快速拟合

1.8 小结

On-Policy Distillation 是当前大模型与强化学习融合的主流高效范式，以 “学生自主实践 + 教师实时点评” 为核心，完美解决了效率与性能的平衡问题，成为训练高性能、低成本小模型的首选技术。

0x02 Hindsight-Guided On-Policy Distillation

本节文字参考神仙思路！普林斯顿提出OpenClaw-RL：Agent在线挨骂在线升级！。

2.1 理解难点识别

理解论文的关键在于如何把自然语言的反馈变成大模型能处理的梯度更新信号。其中最具挑战性的部分是后见之明引导的同策略蒸馏(Hindsight-Guided On-Policy Distillation, OPD)。传统的RLHF只能给出标量总分，但OPD能精确到每一个Token的修改方向。OPD机制是全文需要重点解释的核心概念。

2.2 实际信号

OpenClaw-RL 关心一个贴近真实部署的问题：”agent 在线运行时，每一步交互后天然产生的 next-state signal，能不能直接被回收成训练信号？” 。这里的 next state 可以是很多东西：用户下一句回复、工具执行结果、终端 stdout/stderr、GUI 状态变化、SWE 环境中的测试 verdict 或报错 trace。传统系统通常只把这些内容当成下一轮推理的上下文，而 OpenClaw-RL 的核心观察是：它们其实天然包含了对上一步动作的监督，而且这种监督几乎是”免费”的，因为 agent 本来就在持续收到这些信号。

OpenClaw-RL 把 next-state signal 明确拆成两类。

第一类是 evaluative signal，也就是”这一步做得好不好”的信号，比如用户重新追问往往意味着上一轮回答没有解决问题，测试通过意味着当前修改有效，命令报错或 GUI 没有产生预期变化则意味着这一步失败了。
第二类是 directive signal，也就是”这一步应该怎么改”的信号，比如用户说”你应该先检查文件再编辑”，或者环境返回的错误信息明确暴露出 bug 类型和出错位置。

前者最适合转成 scalar reward，用 RL 吃掉；后者则更适合转成 token-level 的 directional supervision，用 OPD 吃掉。也正因为此，OpenClaw-RL 的意义并不只是再提一个 OPD 变体，而是把 next-state 中本来混在一起的两类监督同时回收：一部分进入 binary / process RL，另一部分进入 hindsight-guided OPD。

2.3 具体实现

2.3.1 目标

目标：将指导性下一状态信号转化为Token级方向性监督信号。

OPD的核心洞察是：如果将原始提示与从$s_{t+1}$中提取的文本提示相结合，同一模型会产生不同的Token分布一这个分布“知道"响应应该是什么样的。由此计算得到Token级优势。

2.3.2 深入技术细节

传统的强化学习只能给出全局打分，但OPD通过对比两种状态下的输出概率，给出了每一个词的修改方向。核心数学公式如下：

这是一个策略蒸馏(Policy Distillation)或 OPD(Offline Policy Distillation)中的优势计算公式。其中符号的含义如下：

符号	含义
$A_t$	优势函数（Advantage）
$\pi_{\text{teacher}}$	教师策略（Teacher Policy）
$a_t$	时刻 $t$ 的动作
$s_{\text{enhanced}}$	增强后的状态/提示
$\pi_{\theta}$	当前策略（Student Policy，参数为 $\theta$）
$s_t$	原始状态

该公式的自然语言符号替换版本为：某个词的优势值 = (老师模型在看到事后提示后生成该词的对数概率) - (普通学生模型在原始状态下生成该词的对数概率)。

这个式子本质上是：teacher 比 student 更认可这个 token 的程度。是教师策略在增强状态下的动作对数概率，减去学生策略在原始状态下的动作对数概率。差值越大，说明学生策略与教师策略的差距越大，需要更多优化。

如果某个 token 上 teacher 概率高、student 概率低 → advantage 为正 → 训练会推动 student 提高这个 token 的概率
如果 student 已经比 teacher 更高 → advantage 为负 → 训练会推动 student 降低这个 token 的概率

所以，On-Policy Distillation之所以更能避免知识遗忘，核心原因在于它让模型在自己的轨迹上学习，并且由教师提供密集、逐步的纠错信号，来重新对齐教师模型。是在 student 自己生成的 token 序列上，蒸馏 teacher 对这些 token 的概率分布。

2.3.3 提取 Hint

从 OPD 的角度看，OpenClaw-RL 的 teacher 构造方式其实非常接近前面总结的 self-distillation，而不是经典的”外部强教师蒸馏”。它不是固定拿一个更大的模型去给学生 rollout 打分，而是让学生先在原始上下文 $s_t$下生成动作 $a_t$，等环境返回 next state $s_{t+1}$ 后，再从这个 next state 中抽取一个简洁的 hindsight hint，把这个 hint 拼回原始上下文，形成增强后的 teacher context $s_t^{\text{enhanced}}$。随后再用同一个模型在这个增强上下文下，对原响应 $a_t$做 forced scoring，得到 teacher logprobs，并和 student 原来的 logprobs 做差。于是这里的 teacher 其实不是”另一个模型”，而是一个 hindsight-informed self-teacher。

不过 OpenClaw-RL 并不是把 next-state 原文直接塞回 teacher context，因为真实交互中的 next-state 往往非常嘈杂。用户回复里可能既包含纠错又引入了一个新问题：终端日志可能很长，其中绝大部分只是无关细节；GUI 状态变化则可能包含大量不重要的视觉差异。于是它专门加了一步 hint extraction：先让 judge 根据 $(a_t, s_{t+1}) $判断这个 next state 里是否含有值得利用的 hindsight 信息，如果有，再把它提炼成 1–3 句短而明确、可执行的 hint，例如”先检查文件再编辑”“不要把 n 包含进去”“这里需要先处理除零情况”。然后只保留那些被 judge 认为确实有明确纠偏价值、且 hint 质量足够高的样本；如果抽不出清晰 hint，这条样本就不进入 OPD。

这个设计其实很重要，因为它说明 OpenClaw-RL 对 OPD 的定位并不是”覆盖一切交互”，而是”只在 next-state 里确实存在高质量 directive signal 时，提供高分辨率纠偏”。

2.3.4 比喻

想象一个考驾照面对陌生复杂路口的场景：学生凭借直觉打了一把方向盘，结果车子压线了。副驾驶的考官无情地指出“你刚才应该提前看右后视镜，早点打半圈方向盘的！”。假设存在一个平行宇宙，那个宇宙里的学生在过路口之前，就已经提前听到了考官的提示。那个“开了上帝视角”的学生在打方向盘时，动作一定会极其精准。优化过程就是对比“现实中的学生”和“开了上帝视角的学生”在握方向盘那一刻的每一个细微肌肉发力概率。把“上帝视角”的做法作为标准答案，硬生生把现实中的肌肉记忆掰过来。

每个元素对应的实际技术概念

陌生的路口：对应模型接收到的原始提示词(State $s_t$)。
现实中打的方向盘：对应当前策略模型生成的实际回复(Action $a_t$)。
考官的事后提示：对应从下一步状态中提取出的文本修正提示(Hint)。
开了上帝视角的学生：对应在提示词中拼接了Hint之后的同一个大模型(Teacher或$s_{enhanced}$ )。
纠正肌肉发力点：对应计算Teacher和Student在每个Token上的对数概率差，作为优势值(Advantage)。

将技术细节与比喻相互映射：

如果 $A_t > 0$ ：说明“上帝视角”觉得这个动作非常合理。老师看到了提示后反而给了这个词更高的概率，说明学生在这里歪打正着做对了，梯度更新时就要强化该词。
如果 $A_t < 0$：说明“上帝视角”极力想避开这个词(给出了极低的概率)，构成定向的负反馈，梯度更新时就要抑制该词。
比喻的局限性在于现实中学车时光不能倒流，但在大模型训练中，只需将历史上下文加上Hint重新进行一次前向传播，就能轻松获得“平行宇宙”里的概率分布。

流程

阶段	子任务	说明
初始化阶段	PRM URL 配置	配置单一 `_prm_url` 端点；judge 评分和 teacher logprobs 查询共享同一模型服务，非两个独立服务。
	并发信号量初始化	设置并发控制
	Tokenizer加载	加载分词器
评估阶段	提示提取 (hint extraction)	提取提示信息
	增强prompt构建	构建增强提示
	教师logprobs查询	通过同一 `_prm_url` 查询 teacher log 概率（非独立 teacher 模型）
提交阶段	样本格式化	格式化训练样本
	训练队列提交	提交到训练队列

2.3.5 具体流程伪代码

用户交互与在线推理(Policy Serving Loop)
- 输入：用户发来的当前轮次对话请求，构成状态 $s_t$。
- 处理：SGLang推理引擎接收$s_t$，由当前策略模型生成回复 $a_t$。同时，底层记录下生成这些词的原始对数概率 $logp_{old}$。
- 输出：将回复 $a_t$ 展现给用户，并将组装好的数据包发往后端的经验回放缓冲区。推理引擎无缝继续服务下一个请求。
获取下一步状态(Next-State Signal Collection)
- 输入：用户的下一步动作(如纠正回复或代码沙盒的错误日志)。
- 处理：系统识别到这属于同一个Session的主线轮次，将其定义为 $s_{t+1}$。
- 输出：触发奖励评估模块，将组合发送至PRM服务器。
异步裁判与Hint提取(PRM & Judge Loop)
- 输入：上一轮的回复 $a_t$ 和刚拿到的反馈 $s_{t+1}$。
- 处理：系统在此分为两个分支。二元强化学习分支中，裁判模型基于反馈给出标量打分，通过多数投票得到最终标量奖励 $r_{final}$。OPD分支中，如果裁判认为反馈包含有价值的纠正信息，会将其压缩成浓缩提示词(Hint)。
- 输出：输出评分和有效提示词。
构建增强上下文与计算优势(Teacher Inference)
- 输入：有效提示词以及原始缓存数据。
- 处理：将 hint 以格式化后缀 "\n\n[user's hint / instruction]\n{hint.strip()}" 追加到对话中最后一条用户消息的末尾，构造出 $s_{enhanced}$。在此增强上下文中，用同一模型对原响应 $a_t$ 做 forced scoring，得到 $log\pi_{teacher}$。
- 输出：纯 OPD 模式下，优势值为 $A_t = \log \pi_{\text{teacher}} - \log \pi_{\text{student}}$（即 teacher_log_prob - student_log_prob），不含 binary reward 项。混合公式 $w_{binary} \cdot r_{final} + w_{opd} \cdot (\log \pi_{teacher} - \logp_{old})$ 仅在 combine 模式中存在，不属于 OPD 本身。
模型训练与权重热更新(Policy Training Loop)
- 输入：包含完整优势值 $A_t$ 的样本批次。
- 处理：Megatron训练引擎在后台运行标准PPO裁剪代理损失函数，更新模型权重。
- 输出：新权重平滑同步给SGLang推理引擎，完成闭环升级。

大致流程图如下：

学生生成回复 → 等待反馈 → judge投票提取hint → 判断是否有hint↓┌─────────┴─────────┐▼                   ▼有hint: 拼接           无hint: 丢弃到prompt               该样本│▼教师模型计算 log-probs│▼组装训练样本(prompt, response, teacher log-probs)│▼送入训练

2.4 小结

OPD巧妙地利用了事后反馈，构建了一个虚拟的Teacher上下文。它将原本只能粗犷打分的评估信号，降维打击成了Token级别、极具方向性的监督信号。优化的最终目的就是努力让模型在不知情时的本能反应，无限逼近提前获取提示后的完美发挥。

0x03 对比

我们接下来看看 OPD 中的几个对比关系。

3.1 标准 OPD vs OpenClaw OPD

两者比对如下：

OpenClaw Top-K OPD = Reverse KL loss (形式上) + Teacher-guided (token selection)= Reverse KL 的数学形式 + Forward KL 的行为倾向≈ "混合 KL"SDFT/SDPO 原始    = Reverse KL loss (形式上) + Student-guided token selection= 纯粹的 Reverse KL

3.1.1 标准 OPD (原始论文 + Slime 官方实现)

源自：Thinking Machines blog + Agarwal et al. 2023 + Qwen3 report

参考实现：slime/examples/on_policy_distillation/

核心思想：Student rollout → Teacher 评估每个 token → Reverse KL 蒸馏

维度	标准 OPD
Teacher	更大的模型 (如 32B → 8B)
知识差来源	模型容量差 (capacity gap)
Rollout	Student 主动从数据集采样 prompt → 生成 response
Teacher 输入	prompt + student_response (无额外信息)
KL 方向	Reverse KL: D_KL(student
实现方式	直接优化 reverse KL (或通过 advantage + PPO)
Top-K 选择	Student Top-K (SDFT/SDP0 原始论文)
数据来源	离线数据集
目标	Student 模仿 Teacher 的固有能力

3.1.2 OpenClaw OPD (两种变体)

源自：openclaw-opd/

核心思想：真实用户对话 → Hint judge 生成提示 → 同模型+Hint 作为 Teacher → 蒸馏

变体 A：标准 OPD (advantage-based)

维度	OpenClaw 标准 OPD
Teacher	同一模型 + Hint 增强
知识差来源	信息差 (information gap via hint)
Rollout	被动 (等待真实用户对话)
Teacher 输入	prompt + hint + student_response
KL 方向	Reverse KL (隐式, via advantage + PPO clip)
实现方式	advantage = teacher_lp - student_lp → PPO loss
Top-K 选择	N/A (不使用 Top-K, 传全 token log-prob)
数据来源	在线真实用户
目标	把 hint 信息蒸馏到 student (不靠 hint 也能好)
Shell	run_qwen3_4b_openclaw_opd.sh
Slime 参数	--advantage-estimator on_policy_distillation

变体 B: Top-K OPD (reverse KL loss)

维度	OpenClaw Top-K OPD
Teacher	同一模型 + Hint 增强
知识差来源	信息差 (information gap via hint)
Rollout	被动 (等待真实用户对话)
Teacher 输入	prompt + hint + student_response
KL 方向	Reverse KL (显式 F.kl_div)
实现方式	自定义 loss: K+1 类别上的 D_KL(student
Top-K 选择	Teacher Top-K (≠ 原始论文的 Student Top-K)
数据来源	在线真实用户
目标	同上 + 更高效的信息传输 (压缩数据量)
Shell	run_qwen3_4b_openclaw_opd_topk.sh
Slime 参数	--advantage-estimator grpo + --custom-loss-function-path
特殊	无 PPO clip 保护

3.1.3 核心区别对比表

区别	标准 OPD	OpenClaw 标准 OPD	OpenClaw Top-K OPD
Teacher 是谁	大模型	同模型+hint	同模型+hint
数据源	离线数据集	在线用户	在线用户
Rollout	主动生成	被动等待	被动等待
KL 计算范围	单采样 token	单采样 token	K+1 类别 (更丰富)
Top-K 选择基准	Student	N/A	Teacher
PPO clip	✓	✓	×
KL 正则化	可选	禁用 (coef=0)	禁用 (coef=0)
信息传输效率	~300MB/sample	~300MB/sample	~200KB/sample
Hint 机制	无	✓ (PRM judge 生成)	✓ (PRM judge 生成)

3.1.4 架构层面的区别

标准 OPD 数据流:Dataset → Student rollout → Teacher(大模型) forward → teacher_lp→ Slime advantage branch → PPO updateOpenClaw 标准 OPD 数据流:Real User → SGLang serve → API intercept→ PRM judge (打分 + 生成 hint)→ Teacher(同模型+hint) forward → teacher_lp→ Slime advantage branch → PPO updateOpenClaw Top-K OPD 数据流:Real User → SGLang serve → API intercept→ PRM judge (打分 + 生成 hint)→ Teacher(同模型+hint) forward → teacher_topk_lp + indices→ Custom loss (reverse KL on K+1) → update

3.1.5 哲学差异

标准 OPD："站在巨人肩膀上"

大模型有更强能力 → 小模型模仿 → 能力提升
假设：更大 = 更好

OpenClaw OPD："开卷考试的降维打击"

同一模型看了答案(hint) → 评估你没看答案时的表现
假设: 有信息 > 无信息 → 不需要大模型, 只需要"作弊信息"
独特优势：不需要部署额外的大模型作为 Teacher，只需要 PRM judge 能生成有效 hint → 资源效率高 (同一模型复用)

3.2 正向 KL vs 反向 KL

OPD 使用的是反向 KL，所以我们再看看这个。

正向 KL = "不要遗漏" (mode-covering)，反向 KL = "不要瞎说" (mode-seeking)。前者倾向高 entropy 全面覆盖, 后者倾向低 entropy 精准集中。

3.2.1 定义

设 P = teacher 分布, Q = student 分布

正向 KL (Forward KL):D_KL(P || Q) = Σ_x P(x) * log(P(x) / Q(x))= E_P [log P(x) - log Q(x)]→ 用 teacher 的分布加权反向 KL (Reverse KL):D_KL(Q || P) = Σ_x Q(x) * log(Q(x) / P(x))= E_Q [log Q(x) - log P(x)]→ 用 student 的分布加权

3.2.2 核心行为差异

正向 KL - "不要遗漏" (Mode-Covering / Mean-Seeking):惩罚: Q(x) 低但 P(x) 高的地方 → student 必须覆盖 teacher 的所有模式结果: student 倾向变"胖"(高 entropy), 宁可多覆盖也不能遗漏P: ██    ██    (teacher 有两个峰)Q: ████████    (student 变胖去覆盖两个峰)反向 KL - "不要瞎说" (Mode-Seeking / Zero-Avoiding):惩罚: Q(x) 高但 P(x) 低的地方 → student 不能在 teacher 不认可的地方有高概率结果: student 倾向集中在某个峰, 宁可遗漏也不能"瞎说"P: ██    ██    (teacher 有两个峰)Q:   ██        (student 只抓住一个峰)

3.2.3 直觉记忆法

	正向 KL	反向 KL
谁的视角	Teacher 视角	Student 视角
问的问题	"Teacher 认为重要的, Student 覆盖了吗？"	"Student 说的, Teacher 同意吗？"
惩罚什么	Student 遗漏 Teacher 的内容	Student 编造 Teacher 不认可的内容
倾向	Mode-covering (覆盖所有模式)	Mode-seeking (集中一个模式)
Entropy	倾向高 entropy (平)	倾向低 entropy (尖)
别名	Mean-seeking	Zero-forcing

3.2.4 具体例子

Teacher 分布 (真实答案有两种说法):P("你好") = 0.4P("嗨")  = 0.4P("哈喽") = 0.1P("其他")  = 0.1正向 KL 训练后的 Student:Q("你好") = 0.35 ← 覆盖了Q("嗨")   = 0.35 ← 覆盖了Q("哈喽") = 0.15 ← 也覆盖了Q("其他") = 0.15 ← 比 teacher 还分散→ 什么都说一点, 不遗漏反向 KL 训练后的 Student:Q("你好") = 0.85 ← 集中在这个Q("嗨")   = 0.10 ← 几乎放弃Q("哈喽") = 0.04Q("其他") = 0.01 ← 绝对不说 teacher 不说的→ 只说最确定的, 不敢"瞎说"

3.2.5 梯度对比

正向 KL 梯度:∇_θ D_KL(P || Q) = -Σ_x P(x) * ∇_θ log Q(x)→ 在 teacher 概率高的 token 上增大 student 概率→ "teacher 说什么, 我就学什么"反向 KL 梯度:∇_θ D_KL(Q || P) = Σ_x Q(x) * (1. + log Q(x) - log P(x)) * ∇_θ log Q(x)→ 在 student 自己概率高但 teacher 不认可的 token 上降低概率→ "我说了但 teacher 不认可的, 我就收回"

3.2.6 在 LLM 蒸馏中的应用

正向 KL (SFT/传统蒸馏常用):

适合: 想让 student 全面学习 teacher 的能力
风险: student 可能变得"犹豫"(多模式→不确定)
实现: 直接用 teacher 的 soft labels 训练

反向 KL (RLHF/SDFT/OpenClaw Top-K):

适合: 想让 student 精准、不产生 teacher 不支持的输出
风险: 可能丢失 teacher 的某些能力 (mode collapse)
实现: 需要从 student 采样 → 通常用 RL 或 importance sampling

3.2.7 澄清

这里要澄清正向KL 和反向的判断标准。

关键判断标准: 不是看"谁减谁" (teacher_lp - student_lp), 而是看"token 从谁采样的"。OPD 的 token 来自 student rollout → 在 student 分布下取期望 → 最终最小化的是 D_KL(student||teacher) = 反向 KL。

具体解释如下：

① 虽然 "teacher_lp - student_lp 看起来像 log P/Q 的形式 = 正向 KL"。但是，teacher_lp - student_lp 这只是一个"差值", 它本身既不是正向 KL 也不是反向 KL。KL 散度需要"期望"操作才完整。

② KL 的完整定义需要"谁来采样"

正向 KL:  D_KL(P||Q) = E_P[log P - log Q] = E_teacher[teacher_lp - student_lp]^^^^^^^用 teacher 分布采样反向 KL:  D_KL(Q||P) = E_Q[log Q - log P] = E_student[student_lp - teacher_lp]^^^^^^^^用 student 分布采样

③ OpenClaw OPD 中 token 是从哪里采样的？

# 关键: response 是 student rollout 生成的!
# (passive rollout → SGLang 用 student 模型 serve 用户)# 所以每个 token x_t 来自 student 分布:
# x_t ~ π_student(·|x_{1..t-1})# 在这些 student 采样的 token 上计算:
advantage = teacher_lp(x_t) - student_lp(x_t)# 加上期望的视角:
E_student[teacher_lp - student_lp]
= E_student[-(student_lp - teacher_lp)]
= -E_student[student_lp - teacher_lp]
= -D_KL(student || teacher)       ← 这是 负的反向KL!

整个 loss 链条如下：

loss = -ratio * advantage = -ratio * (teacher_lp - student_lp)# ratio≈1 时：
loss ≈ -(teacher_lp - student_lp) = student_lp - teacher_lp# 取期望（在 student 采样的 token 上）：
E[loss] = E_student[student_lp - teacher_lp] = D_KL(student || teacher)   ← 反向 KL!# 最小化 loss = 最小化 D_KL(student || teacher) = 最小化反向 KL ✓

④ 判断 KL 方向的关键: 不是看"减号两边谁减谁", 而是看"期望是在谁的分布下取的" (token 从谁那里采样的)。

采样自 Teacher + 计算 teacher_lp - student_lp= E_teacher[log teacher - log student]= D_KL(teacher || student) = 正向 KL采样自 Student + 计算 teacher_lp - student_lp= E_student[log teacher - log student]= -E_student[log student - log teacher]= -D_KL(student || teacher) = 负的反向 KL→ 最小化 -反向KL = 等价于最小化反向KL (方向通过loss符号翻转)

⑤ 代码验证

compute_advantages_and_returns 中:

    elif args.advantage_estimator == "on_policy_distillation":student_log_probs = log_probsteacher_log_probs = rollout_data.get("teacher_log_probs")response_lengths = rollout_data.get("response_lengths")device = student_log_probs[0].deviceteacher_log_probs = [t_log_prob.to(device=device) for t_log_prob in teacher_log_probs]teacher_log_probs = [t_log_prob[-response_length:]for t_log_prob, response_length in zip(teacher_log_probs, response_lengths, strict=False)]advantages = [teacher_log_prob - student_log_prob #  (在 student 采样的 token 上)for teacher_log_prob, student_log_prob in zip(teacher_log_probs, student_log_probs, strict=False)]returns = advantages

最终：

advantage = teacher_lp - student_lp     (在 student 采样的 token 上)
loss = -ratio * advantage               (最小化)→ 最小化 loss = 最小化 E_student[student_lp - teacher_lp] = 最小化 D_KL(student||teacher)
→ 这是反向 KL ✓

判断依据: token 来自 student rollout → student 分布采样 → 反向 KL

3.2.8 总结

正向 KL: "teacher 会说的, student 都要会" (全面但可能犹豫)
反向 KL: "student 说的, teacher 都得认可" (精准但可能片面)

0xEE 广告

继续给第二本书打广告。

购买链接

0xFF 参考

Agentic RL 训练：它不是单一 RL 算法，而是一整套环境建模、学习信号、异步数据流、策略优化和基础设施的协同系统

Agentic能力从哪里来？拆解基座大模型的训练过程

大语言模型中的强化学习问题综述

OpenClaw-RL: Train Any Agent Simply by Talking

神仙思路！普林斯顿提出OpenClaw-RL：Agent在线挨骂在线升级！

查看全文

http://www.jsqmd.com/news/898867/

STIR模型：融合词义主题与动态社交兴趣的推荐系统

基于IMT器件的SPICE紧凑模型构建与神经形态神经元电路设计

从“段错误”到“核心已转储”：一个Linux C/C++开发者的调试实战指南

从新手到专家，ChatGPT角色扮演设定全链路实战指南，覆盖教育、客服、编程等6大高价值场景

GNSS与RFID混合定位：电路级功率控制实现信号盲区亚米级导航

2026郑州洛阳家电维修服务指南--以维小达案例进行深度解析 - 维小达科技

用ChatGPT写出电影级剧本：3步结构化提示法，新手3天产出完整分场大纲

终极指南：3分钟为Windows安装macOS风格鼠标指针

数据科学家职场进阶：跨越沟通、文化与影响力的隐性技能鸿沟

告别minikube？轻量级K8s新选择：MicroK8s 1.23集群搭建与插件启用全攻略

别再死记硬背了！用Unity/Unreal Engine的Shader Graph可视化理解OpenGL渲染管线

告别手动计算！用Python脚本一键生成Vivado ROM所需的.coe文件（附完整代码）

如何在5分钟内掌握Mermaid Live Editor：免费在线图表编辑完整教程

高效配置指南：全面掌握Jellyfin Plugin MetaTube的智能媒体管理方案

人民大学与腾讯联手打造“规划题库工厂“，让AI真正学会做计划

CCAA证书在认证机构中的价值 - 众智商学院官方

为什么92%的创作者用错ChatGPT写歌词？——揭秘3大语义断层陷阱与4种跨模态提示加固法

STM32WB55开发板（一）硬件设计解析与选型考量

什么是 PLM？化工新材料行业的 PLM 又是什么？—— 从离散制造到流程配方的底层逻辑重构

AI写代码竟然在“作弊“？Weco AI揭开编程智能体的惊天秘密

复旦团队发布10米精度全国建筑高度图，手把手教你用ArcGIS按需下载与拼接

如何快速下载社交媒体资源：跨平台下载工具的终极指南

AI英语APP的开发及上线

从PyQt开发者到原神玩家：一次环境变量冲突引发的‘启动器血案’排查实录

Pose-Search：基于人体姿态识别的智能图片搜索终极指南

漏洞深度剖析：从CVE-2020-1938看Tomcat AJP协议的安全攻防

基于开源技术栈构建本地AI语音助手：从Whisper到LLM的完整实践

AI超级员工系统怎么选？价格、功能、售后全解析 - 资讯纵览

为什么你的“资深律师”角色总答非所问？——ChatGPT角色一致性崩塌的4层底层机制解析

PyQt-Fluent-Widgets：终极现代化Python GUI开发解决方案

符号	含义
\(A_t\)	优势函数（Advantage）
\(\pi_{\text{teacher}}\)	教师策略（Teacher Policy）
\(a_t\)	时刻 \(t\) 的动作
\(s_{\text{enhanced}}\)	增强后的状态/提示
\(\pi_{\theta}\)	当前策略（Student Policy，参数为 \(\theta\)）
\(s_t\)	原始状态

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (2)--- On-Policy Distillation

0x00 概要

0x01 On-Policy Distillation

1.1 核心定位：解决传统方法的两难

1.2 通俗类比

1.2.1 概述

1.2.2 详述

普通 RL 游戏

OPD 游戏

1.3 持续学习中的知识注入与能力保持困境

1.3.1 SFT的激进性与灾难性遗忘

1.3.2 RL的保守性与样本效率瓶颈

1.3.3 SFT vs RL

训练分布不同：off-policy VS on-policy

目标函数本质不同：模仿VS偏好

KL约束+重要性采样：天然的"防遗忘锚点"

1.3.4 OPD：一种融合稳定与高效的协同范式

1.4 核心原理与数学形式

1.4.1 核心流程(三步闭环)

1.4.2 与 RL 的理论等价性

1.5 关键技术变体与演进

1.5.1 G-OPD (广义 On-Policy Distillation)

1.5.2 OPCD (On-Policy Context Distillation)

1.5.3 SDPO (Self-Distilled Policy Optimization)

1.6 核心优势

1.7 与 DPO/PPO/KD 的核心区别

1.8 小结

0x02 Hindsight-Guided On-Policy Distillation

2.1 理解难点识别

2.2 实际信号

2.3 具体实现

2.3.1 目标

2.3.2 深入技术细节

2.3.3 提取 Hint

2.3.4 比喻

流程

2.3.5 具体流程伪代码

2.4 小结

0x03 对比

3.1 标准 OPD vs OpenClaw OPD

3.1.1 标准 OPD (原始论文 + Slime 官方实现)

3.1.2 OpenClaw OPD (两种变体)

变体 A：标准 OPD (advantage-based)

变体 B: Top-K OPD (reverse KL loss)

3.1.3 核心区别对比表

3.1.4 架构层面的区别

3.1.5 哲学差异

3.2 正向 KL vs 反向 KL

3.2.1 定义

3.2.2 核心行为差异

3.2.3 直觉记忆法

3.2.4 具体例子

3.2.5 梯度对比

3.2.6 在 LLM 蒸馏中的应用

3.2.7 澄清

3.2.8 总结

0xEE 广告

购买链接

0xFF 参考

相关文章：