当前位置：首页 > news >正文

强化学习DPO-数学基本概念

news 2026/7/28 1:41:59

1) 概率（模型输出 token 概率）
- 你要记住
2) log 概率（训练里常用）
- 直觉
3) 损失函数（loss 越小越好）
- 一句话
4) 梯度下降（参数怎么改）
- 直觉比喻
四个概念串成一条链

太好了，这 4 个概念是你后面学 DPO/RL 的地基。我用同一个小例子串起来讲，你会更容易记住。

假设用户问：

“法国首都是哪？”

模型下一步可能输出的 token 候选有：

“巴黎”
“伦敦”
“柏林”

1) 概率（模型输出 token 概率）

模型不会“直接拍板一个词”，而是先给每个候选 token 一个概率，比如：

P(“巴黎”) = 0.80
P(“伦敦”) = 0.10
P(“柏林”) = 0.05
其他 = 0.05

这就是“模型对下一步 token 的信心分布”。

你要记住

概率越高，模型越倾向选它
所有候选 token 概率加起来=1

2) log 概率（训练里常用）

训练里常用 log(probability)，即概率取对数（通常自然对数）。

为什么要取 log？

连乘变连加（句子概率是每个 token 概率连乘，log 后更好算）
数值更稳定（小概率连乘会非常小，容易下溢）

直觉

概率 1 附近，log 概率接近 0
概率很小，log 概率是很大的负数

例如：

p=0.8，log p≈ -0.223（还不错）
p=0.1，log p≈ -2.303（差很多）

所以训练常说“提高正确答案的 log 概率”。

3) 损失函数（loss 越小越好）

Loss 是一个分数，用来衡量“模型当前有多错”。

比如正确 token 是“巴黎”：

如果模型给“巴黎”概率 0.8 → loss 较小
如果给“巴黎”概率 0.1 → loss 较大

常见形式（交叉熵）本质就是：

正确答案概率越高，loss 越低。

所以你会看到训练目标是“最小化 loss”。

一句话

Loss 就是模型的“错误度仪表盘”。

4) 梯度下降（参数怎么改）

有了 loss，还要知道“怎么改参数”。
这就靠梯度（gradient）和梯度下降（gradient descent）。

梯度告诉你：每个参数往哪个方向改，会让 loss 降得最快
梯度下降：按这个方向真的改参数

更新公式（最基础）：
[
\theta_{\text{new}}=\theta_{\text{old}}-\eta \cdot \nabla L
]

(\theta)：参数
(\eta)：学习率
(\nabla L)：梯度

直觉比喻

你在山上（loss 高），想走到山谷（loss 低）：

梯度告诉你“哪里是上坡方向”
你反着走（下坡），每步走一点（学习率）

四个概念串成一条链

模型给每个 token 概率
概率转成 log 概率用于计算更稳定
根据正确答案计算 loss（错得多就大）
用梯度下降更新参数，让下次正确 token 概率更高、loss 更低

如果你愿意，我下一步可以用 DPO 的 chosen/rejected 举同样四个概念怎么用（会和你后面训练直接对上）。

查看全文

http://www.jsqmd.com/news/569820/

用LED条形图可视化74HC154译码效果：STC89C52项目入门指南

Pixel Aurora Engine镜像免配置部署：预装LoRA库与Prompt模板

2026年3月全球抗老护肤品推荐：TOP10口碑产品评测对比知名 - 品牌推荐

低成本GPU算力优化：cv_unet_image-colorization显存占用实测与调优

突破单人限制：Nucleus Co-Op解锁4人分屏游戏体验全指南

MinerU文档理解服务指令工程指南：10条高效Prompt模板提升表格与公式识别率

Source Map 泄露实战复盘：从 Anthropic 512K 行代码泄露看构建供应链安全——面向多受众的深度技术分析与防御体系建设指南

告别软编码卡顿：手把手教你用ZynqMP VCU硬件加速H.264/H.265视频流

显示驱动深度清理终极指南：Display Driver Uninstaller (DDU) 完整使用教程

颠覆性突破！MediaPipe TouchDesigner：3分钟构建60FPS实时视觉交互系统

终极分屏游戏解决方案：Nucleus Co-Op 让单机游戏变身多人派对

终极免费文档下载工具：3分钟掌握一键下载30+文库平台文档的完整指南

Blender VRM插件终极指南：3步实现3D角色跨平台兼容 [特殊字符]

北京联合丽格医疗美容（太阳宫院区）联系方式查询：如何通过官方渠道获取信息并做出审慎指南 - 品牌推荐

3个理由告诉你为什么DesktopNaotu是离线思维导图的最佳选择

C语言完美演绎6-13

一键部署PDF-Parser-1.0：快速搭建属于你的文档理解助手

Java开发环境基石：正确安装JDK并配置以运行Qwen3.5-9B-AWQ-4bit的Java客户端

ERNIE-4.5-0.3B-PT智能合约分析：区块链安全检测系统

RISC-V Vector扩展避坑指南：vtype寄存器配置的5个常见错误及解决方法

XMLSpy_DEllllllllllLLLLL

Flash Browser终极指南：如何让消失的Flash游戏和课件重新复活

Python中缓存入门实战之核心概念与用法详解

5分钟掌握小红书无水印下载：XHS-Downloader全功能解析

直接上代码看看怎么用A*找单点路径。先搞个20x20的地图，障碍物随机生成

百联OK卡回收平台推荐：为什么它最靠谱？ - 团团收购物卡回收

如何选择南京全屋定制品牌？2026年4月推荐评测口碑对比TOP5 - 品牌推荐

python基于flask的大学生心理咨询预约系统互助社区交流系统

告别编辑器暗箱操作：Helix语言服务器与格式化失败的可视化提示改进指南