当前位置：首页 > news >正文

大模型学习路线（三）后训练Post-training

news 2026/5/12 0:37:20

后训练 Post-Training 主要有两种范式：SFT和RL

Pre-training (预训练) 通过海量无监督数据的自监督学习（Next Token Prediction），让模型习得语言语法与通用知识。
SFT (监督微调)：实现指令对齐 通过高质量问答对进行有监督学习，约束模型的输出空间，使其学会遵循人类指令的格式与规范。
RL (强化学习)：突破性能上限 引入奖励信号（Reward）进行价值对齐，鼓励模型在解空间中探索出比SFT数据更优的路径。

一：SFT (监督微调)

通过高质量问答对进行有监督学习，约束模型的输出空间，使其学会遵循人类指令的格式与规范。

数据工程 (决定上限)

Prompt 构造：处理 System/User/Assistant 等特殊 Token。Seed Prompt 的质量决定泛化能力。
Data Packing (数据打包)：
- 做法：多条短数据拼成长数据（如4096）塞入GPU。
- 关键：必须加 Attention Mask，防止样本间注意力越界（Cross-contamination）。

训练策略 (决定下限)

Loss Masking：
- 做法：只计算 Response 的 Loss，Prompt 部分 Loss 置零。
- 原因：Prompt 是已知条件，不需要预测。强行学 Prompt 会导致死记硬背，降低泛化性。
对齐税 (Alignment Tax)：
- 现象：微调后通用能力（如写作、逻辑）下降。
- 解法：在 SFT 数据中混入通用预训练数据（Replay）。

二：强化学习基础

理解对齐算法前，必须掌握基本的强化学习概念。

马尔可夫决策过程 (MDP)：状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、折扣因子 (Gamma)。
价值函数：状态价值 $$V(s)$$与动作价值 $$Q(s,a)$$
策略梯度 (Policy Gradient)：理解 REINFORCE 算法及其高方差问题。
Actor-Critic 架构：Actor 负责输出动作，Critic 负责评估状态价值，减少更新方差。

三：经典的 RLHF-PPO 流程

RLHF 是使模型对齐人类价值观（3H原则：Helpful, Honest, Harmless）的标准范式。

SFT 训练一个 baseline
奖励模型训练 (RM)：
1. 基于 Bradley-Terry 模型，将排序数据转化为 Pairwise 损失进行二分类训练。
PPO 算法训练：
1. 四个模型：Actor（训练、策略）、Critic（训练、价值）、Reward（冻结、打分）、Reference（冻结、KL约束）。
2. KL 惩罚项：引入 KL 散度防止模型偏离原始分布太远（Reward Hacking）。
3. GAE (广义优势估计)：平衡方差与偏差。

挑战：显存需求巨大、训练稳定性差、对齐税（Alignment Tax）导致通用能力下降。

四：直接偏好优化 (DPO, Direct Preference Optimization)

DPO 是目前工业界最流行的非 RL 对齐方案。

核心逻辑：利用 Bradley-Terry 模型推导，将奖励函数直接替换为策略本身的表达，从而省去显式奖励模型训练和复杂的 PPO 采样过程。
公式理解：本质是一种对比学习损失，增加 Chosen 答案的概率，降低 Rejected 答案的概率。
优缺点：实现简单、计算开销小；但由于缺乏在线探索，性能上限受限于离线数据的质量。

五：基于PPO的优化算法

针对推理模型（Reasoning Model）的最新优化技术。

GRPO (Group Relative Policy Optimization)：
- 去 Critic 化：针对同一个问题采样一组输出，通过组内奖励的相对大小（均值/标准差归一化）估计优势函数，省去了庞大的 Critic 模型。
- 应用场景：特别适用于数学、代码等具有确定性判别准则的任务。
过程奖励模型 (PRM)：相比结果奖励 (ORM)，PRM 对思维链 (CoT) 的每一步进行打分，缓解奖励稀疏问题。
其他变体：DAPO、GSPO等各类变体。

http://www.jsqmd.com/news/116474/

相关文章：

Linly-Talker在汽车配置讲解中的三维空间联动设想

大模型学习路线（一）：Transformer架构篇

Linly-Talker在高校招生宣传中的个性化推送实验

在上海，一份CAIE认证如何为我打开AI世界的窗：思维与能力的双重旅程

连接管理艺术-底层架构的性能奥秘

【第二阶段—机器学习入门】第十五章：机器学习核心概念

Linly-Talker如何处理专业术语发音准确性问题？

Linly-Talker项目维护频率与长期发展预期

由南京导航失灵看人机环境系统智能

DAY 42 训练和测试的规范写法

Linly-Talker项目贡献者招募：你可以参与哪些模块？

Linly-Talker能否输出WebP动画或GIF片段？轻量格式支持

构建软件兼容性测试全覆盖体系的最佳实践

Linly-Talker如何平衡生成速度与画质清晰度？

基于springboot+vue3的企业人事管理系统设计与实现

思考与练习（第十章文件与数据格式化）

基于Linly-Talker开发虚拟偶像，成本降低超70%

Linly-Talker在品牌IP形象推广中的创意玩法

【理解“Collection存储Union区域后能分两次Resize写入单元格”的核心原因】

Linly-Talker生成视频帧率稳定性测试结果公布

Linly-Talker在远程办公会议中的虚拟参会应用

前后端分离城市垃圾分类管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

宠物商城网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

黑马微服务 p23Docker02 docker的安装如何正确安装docker，黑马微服务给的文档不行了，如何正确找到解决方法

Linly-Talker在跨国会议同传中的双屏分镜设想

Linly-Talker生成视频头部晃动抑制技术说明

Linly-Talker动态打光技术如何提升画面质感？

基于SpringBoot+Vue的家具销售商城系统设计与实现

Linly-Talker在节庆贺卡定制中的趣味性应用

Linly-Talker与MetaHuman相比有何差异？全方位对比