当前位置: 首页 > news >正文

强化学习DPO-数学基本概念

目录
  • 1) 概率(模型输出 token 概率)
    • 你要记住
  • 2) log 概率(训练里常用)
    • 直觉
  • 3) 损失函数(loss 越小越好)
    • 一句话
  • 4) 梯度下降(参数怎么改)
    • 直觉比喻
  • 四个概念串成一条链

太好了,这 4 个概念是你后面学 DPO/RL 的地基。我用同一个小例子串起来讲,你会更容易记住。


假设用户问:

“法国首都是哪?”

模型下一步可能输出的 token 候选有:

  • “巴黎”
  • “伦敦”
  • “柏林”

1) 概率(模型输出 token 概率)

模型不会“直接拍板一个词”,而是先给每个候选 token 一个概率,比如:

  • P(“巴黎”) = 0.80
  • P(“伦敦”) = 0.10
  • P(“柏林”) = 0.05
  • 其他 = 0.05

这就是“模型对下一步 token 的信心分布”。

你要记住

  • 概率越高,模型越倾向选它
  • 所有候选 token 概率加起来=1

2) log 概率(训练里常用)

训练里常用 log(probability),即概率取对数(通常自然对数)。

为什么要取 log?

  1. 连乘变连加(句子概率是每个 token 概率连乘,log 后更好算)
  2. 数值更稳定(小概率连乘会非常小,容易下溢)

直觉

  • 概率 1 附近,log 概率接近 0
  • 概率很小,log 概率是很大的负数

例如:

  • p=0.8,log p≈ -0.223(还不错)
  • p=0.1,log p≈ -2.303(差很多)

所以训练常说“提高正确答案的 log 概率”。


3) 损失函数(loss 越小越好)

Loss 是一个分数,用来衡量“模型当前有多错”。

比如正确 token 是“巴黎”:

  • 如果模型给“巴黎”概率 0.8 → loss 较小
  • 如果给“巴黎”概率 0.1 → loss 较大

常见形式(交叉熵)本质就是:

正确答案概率越高,loss 越低。

所以你会看到训练目标是“最小化 loss”。

一句话

Loss 就是模型的“错误度仪表盘”。


4) 梯度下降(参数怎么改)

有了 loss,还要知道“怎么改参数”。
这就靠梯度(gradient)和梯度下降(gradient descent)。

  • 梯度告诉你:每个参数往哪个方向改,会让 loss 降得最快
  • 梯度下降:按这个方向真的改参数

更新公式(最基础):
[
\theta_{\text{new}}=\theta_{\text{old}}-\eta \cdot \nabla L
]

  • (\theta):参数
  • (\eta):学习率
  • (\nabla L):梯度

直觉比喻

你在山上(loss 高),想走到山谷(loss 低):

  • 梯度告诉你“哪里是上坡方向”
  • 你反着走(下坡),每步走一点(学习率)

四个概念串成一条链

  1. 模型给每个 token 概率
  2. 概率转成 log 概率用于计算更稳定
  3. 根据正确答案计算 loss(错得多就大)
  4. 用梯度下降更新参数,让下次正确 token 概率更高、loss 更低

如果你愿意,我下一步可以用 DPO 的 chosen/rejected 举同样四个概念怎么用(会和你后面训练直接对上)。

http://www.jsqmd.com/news/569820/

相关文章:

  • 用LED条形图可视化74HC154译码效果:STC89C52项目入门指南
  • Pixel Aurora Engine镜像免配置部署:预装LoRA库与Prompt模板
  • 2026年3月全球抗老护肤品推荐:TOP10口碑产品评测对比知名 - 品牌推荐
  • 低成本GPU算力优化:cv_unet_image-colorization显存占用实测与调优
  • 突破单人限制:Nucleus Co-Op解锁4人分屏游戏体验全指南
  • MinerU文档理解服务指令工程指南:10条高效Prompt模板提升表格与公式识别率
  • Source Map 泄露实战复盘:从 Anthropic 512K 行代码泄露看构建供应链安全——面向多受众的深度技术分析与防御体系建设指南
  • 告别软编码卡顿:手把手教你用ZynqMP VCU硬件加速H.264/H.265视频流
  • 显示驱动深度清理终极指南:Display Driver Uninstaller (DDU) 完整使用教程
  • 颠覆性突破!MediaPipe TouchDesigner:3分钟构建60FPS实时视觉交互系统
  • 终极分屏游戏解决方案:Nucleus Co-Op 让单机游戏变身多人派对
  • 终极免费文档下载工具:3分钟掌握一键下载30+文库平台文档的完整指南
  • 2025-2026年南京全屋定制品牌推荐:TOP5口碑产品评测评价领先 - 品牌推荐
  • Blender VRM插件终极指南:3步实现3D角色跨平台兼容 [特殊字符]
  • 北京联合丽格医疗美容(太阳宫院区)联系方式查询:如何通过官方渠道获取信息并做出审慎指南 - 品牌推荐
  • 3个理由告诉你为什么DesktopNaotu是离线思维导图的最佳选择
  • C语言完美演绎6-13
  • 一键部署PDF-Parser-1.0:快速搭建属于你的文档理解助手
  • Java开发环境基石:正确安装JDK并配置以运行Qwen3.5-9B-AWQ-4bit的Java客户端
  • ERNIE-4.5-0.3B-PT智能合约分析:区块链安全检测系统
  • RISC-V Vector扩展避坑指南:vtype寄存器配置的5个常见错误及解决方法
  • XMLSpy_DEllllllllllLLLLL
  • Flash Browser终极指南:如何让消失的Flash游戏和课件重新复活
  • Python中缓存入门实战之核心概念与用法详解
  • 5分钟掌握小红书无水印下载:XHS-Downloader全功能解析
  • 直接上代码看看怎么用A*找单点路径。先搞个20x20的地图,障碍物随机生成
  • 百联OK卡回收平台推荐:为什么它最靠谱? - 团团收购物卡回收
  • 如何选择南京全屋定制品牌?2026年4月推荐评测口碑对比TOP5 - 品牌推荐
  • python基于flask的大学生心理咨询预约系统 互助社区交流系统
  • 告别编辑器暗箱操作:Helix语言服务器与格式化失败的可视化提示改进指南