当前位置: 首页 > news >正文

初识DPO

Bradley Terry模型

\[P(i \succ j) = \frac{e^{s_i}}{e^{s_i} + e^{s_j}}\\e^{s_i}表示{s_i}的实力,则P(i \succ j)表示{s_i}战胜{s_j}的概率 \]

假设x为prompt,LLM的response为y,评价一个回答的好坏就是用reward model来评估即 \(r(x,y)\)

\({y_1}\)好于\({y_2}\)即表示为

\[P({y_1} \succ {y_2}) = \frac{r(x,{y_1})}{r(x,{y_1}) + r(x,{y_2})} \]

但是r可能为负数,所以再加上exp函数,即

\[P({y_1} \succ {y_2}) = \frac {e^{r(x,{y_1})}}{e^{r(x,{y_1})} + e^{r(x,{y_2})}} \]

对于reward模型,要想使得\({y_1}\)好于\({y_2}\),可以使用对数最大似然估计,加上负号就成了loss(最小化)

\[\begin{aligned} \mathcal{L} &= - \mathbb{E}_{(x, y_w, y_l)\sim \mathcal{D}} \left[ \ln \frac{e^{\bigl(r(x, y_w)\bigr)}} {e^{\bigl(r(x, y_w)\bigr)} + e^{\bigl(r(x, y_l)\bigr)}} \right] \\[6pt] &= - \mathbb{E}_{(x, y_w, y_l)\sim \mathcal{D}} \left[ \ln \frac{1} {1 + e^{\bigl(r(x, y_l) - r(x, y_w)\bigr)}} \right] \\[6pt] &= - \mathbb{E}_{(x, y_w, y_l)\sim \mathcal{D}} \left[ \ln \, \sigma\!\left(r(x, y_w) - r(x, y_l)\right) \right] \end{aligned} ,{ \sigma}为sigmoid \]

通过优化该loss,使得\({y_w}\)的reward分数大于\({y_l}\),二者分别对应DPO数据集中的chosen和rejected,这便是DPO的训练目标。(直接基于 pairwise preference 优化策略)

RLHF

RLHF的正则化目标:

\[\max_{\pi_\theta} \; \mathbb{E}_{x \sim \mathcal{D},\, y \sim \pi_\theta(\cdot|x)} \big[ r(x,y) \big] \;-\; \beta \, \mathrm{KL}\!\left( \pi_\theta(\cdot|x)\;\|\;\pi_{\text{ref}}(\cdot|x) \right) \]

在保证策略不要偏离原模型太远的前提下,让模型生成的答案尽量“更符合人类偏好”。(最大化 reward + KL 正则)

image-20251216231338178

下面是推导过程,由于笔者的latex水平有限,直接贴图

1、首先RLHF的目标函数化简推导

image-20251216231401120

image-20251216231428042

2、RLHF的最优解即最小化这个KL散度(为0)时,得到最优策略分布\(\pi^*(y\mid x)\),这是人为构造的目标分布,也是 Boltzmann 分布的形式。

image-20251216231445285

3、根据最优分布反推出reward公式(当reward这么算的时候最优)

image-20251216231515691

4、最后带入DPO的loss函数得到最终形态

image-20251216233751424

DPO 通过 直接最大化最优策略下更好样本被选中的概率,实现了 RLHF 的 KL-正则化目标的等价优化。

tips:其中3、4步也可以这么理解:

(其实就是1、先推出loss关于r的公式,再由\(\pi^*(y\mid x)\)反推出r带入loss 2、先由\(\pi^*(y\mid x)\)反推出r带入Bradley Terry公式得到loss的区别,总之就是没区别,但是笔者现在也有点乱...)

在最优策略下,对于一对chosen和rejected

image-20251216235054281

image-20251216235154772

参考:https://www.bilibili.com/video/BV1GF4m1L7Nt/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=da862fa7a218e81897b55d7e24fe26ee

http://www.jsqmd.com/news/101428/

相关文章:

  • BetterNCM插件:重新定义你的音乐播放体验
  • 最大平均数
  • Diskinfo下载官网日志分析TensorRT异常退出原因
  • PPTTimer智能倒计时:轻松掌握演示时间管理的终极指南
  • 改版遇到的问题记录
  • Java毕设项目推荐-基于javaweb的小零食销售系统的设计与实现基于WEB的网上零食销售系统【附源码+文档,调试定制服务】
  • Qwen3-32B在A100上的极致性能实测
  • 大模型面试必备02—— Scaling Laws与涌现能力、CLM vs MLM建模
  • 压缩解压缩算法 BFP-8bit
  • Seed-Coder-8B-Base能否生成可靠的分布式锁?
  • BT6.0常见的BUG
  • 计及负荷异常增长的空间负荷预测与配电网规划(基于开源数据集SMART-DS)
  • 对称二叉树(tree_c)(信息学奥赛一本通- P1368)
  • Java 大视界 -- Java 大数据机器学习模型在电商用户生命周期价值评估与客户关系精细化管理中的应用
  • 【time-rs】解释://! Indeterminate offset(error/indeterminate_offset.rs)
  • 车载系统集成设想:LobeChat打造智能座舱体验
  • 玩转Docker小游戏项目系列:Docker部署无名杀网页小游戏
  • 文科生、非科班,也能成为AI产品经理!大模型时代的风口职业:AI产品经理,成为新时代的关键枢纽!
  • 艾尔登法环终极帧率解锁与游戏增强工具完整使用指南
  • 终极解放双手!M9A重返未来:1999自动化助手完整攻略
  • 塑造2026年的八大智能手机趋势
  • Java 大视界 -- 基于 Java+Flink 构建实时电商交易风控系统实战(436)
  • Java毕设项目推荐-基于JavaWeb的家装一体化平台室内设计、装修施工、建材选购、软装搭配、后期维护于一体的专业化家装服务平台【附源码+文档,调试定制服务】
  • FGA自动战斗工具:FGO玩家的智能辅助解决方案
  • 【计算机毕业设计案例】基于SpringBoot+Vue电子印章管理系统基于JavaEE的电子印章管理系统的设计与实现(程序+文档+讲解+定制)
  • Wallpaper Engine壁纸下载器:一键获取创意工坊精美壁纸的完整指南 [特殊字符]
  • Flutter 国际化与本地化实战(2025 版):从字符串翻译到文化适配的完整指南
  • 视频硬字幕去除神器:AI技术让字幕消失无踪
  • AI架构师荣获《时代》杂志年度人物称号
  • 面试问题预测:LobeChat模拟真实考场