当前位置: 首页 > news >正文

大模型学习路线(三)后训练Post-training

后训练 Post-Training 主要有两种范式:SFT和RL

  1. Pre-training (预训练) 通过海量无监督数据的自监督学习(Next Token Prediction),让模型习得语言语法与通用知识。

  2. SFT (监督微调):实现指令对齐 通过高质量问答对进行有监督学习,约束模型的输出空间,使其学会遵循人类指令的格式与规范

  3. RL (强化学习):突破性能上限 引入奖励信号(Reward)进行价值对齐,鼓励模型在解空间中探索出比SFT数据更优的路径。

一:SFT (监督微调)

通过高质量问答对进行有监督学习,约束模型的输出空间,使其学会遵循人类指令的格式与规范。

  1. 数据工程 (决定上限)

  • Prompt 构造:处理 System/User/Assistant 等特殊 Token。Seed Prompt 的质量决定泛化能力。

  • Data Packing (数据打包)

    • 做法:多条短数据拼成长数据(如4096)塞入GPU。

    • 关键:必须加 Attention Mask,防止样本间注意力越界(Cross-contamination)。

  1. 训练策略 (决定下限)

  • Loss Masking

    • 做法:只计算 Response 的 Loss,Prompt 部分 Loss 置零

    • 原因:Prompt 是已知条件,不需要预测。强行学 Prompt 会导致死记硬背,降低泛化性。

  • 对齐税 (Alignment Tax)

    • 现象:微调后通用能力(如写作、逻辑)下降。

    • 解法:在 SFT 数据中混入通用预训练数据(Replay)。

二:强化学习基础

理解对齐算法前,必须掌握基本的强化学习概念。

  • 马尔可夫决策过程 (MDP):状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、折扣因子 (Gamma)。

  • 价值函数:状态价值 $$V(s)$$与动作价值 $$Q(s,a)$$

  • 策略梯度 (Policy Gradient):理解 REINFORCE 算法及其高方差问题。

  • Actor-Critic 架构:Actor 负责输出动作,Critic 负责评估状态价值,减少更新方差。

三:经典的 RLHF-PPO 流程

RLHF 是使模型对齐人类价值观(3H原则:Helpful, Honest, Harmless)的标准范式。

  1. SFT 训练一个 baseline

  2. 奖励模型训练 (RM)

    1. 基于 Bradley-Terry 模型,将排序数据转化为 Pairwise 损失进行二分类训练。
  3. PPO 算法训练

    1. 四个模型:Actor(训练、策略)、Critic(训练、价值)、Reward(冻结、打分)、Reference(冻结、KL约束)。

    2. KL 惩罚项:引入 KL 散度防止模型偏离原始分布太远(Reward Hacking)。

    3. GAE (广义优势估计):平衡方差与偏差。

  • 挑战:显存需求巨大、训练稳定性差、对齐税(Alignment Tax)导致通用能力下降。

四:直接偏好优化 (DPO, Direct Preference Optimization)

DPO 是目前工业界最流行的非 RL 对齐方案。

  • 核心逻辑:利用 Bradley-Terry 模型推导,将奖励函数直接替换为策略本身的表达,从而省去显式奖励模型训练和复杂的 PPO 采样过程。

  • 公式理解:本质是一种对比学习损失,增加 Chosen 答案的概率,降低 Rejected 答案的概率。

  • 优缺点:实现简单、计算开销小;但由于缺乏在线探索,性能上限受限于离线数据的质量。

五:基于PPO的优化算法

针对推理模型(Reasoning Model)的最新优化技术。

  • GRPO (Group Relative Policy Optimization)

    • 去 Critic 化:针对同一个问题采样一组输出,通过组内奖励的相对大小(均值/标准差归一化)估计优势函数,省去了庞大的 Critic 模型。

    • 应用场景:特别适用于数学、代码等具有确定性判别准则的任务。

  • 过程奖励模型 (PRM):相比结果奖励 (ORM),PRM 对思维链 (CoT) 的每一步进行打分,缓解奖励稀疏问题。

  • 其他变体:DAPO、GSPO等各类变体。

http://www.jsqmd.com/news/116474/

相关文章:

  • Linly-Talker在汽车配置讲解中的三维空间联动设想
  • 大模型学习路线(一):Transformer架构篇
  • Linly-Talker在高校招生宣传中的个性化推送实验
  • 在上海,一份CAIE认证如何为我打开AI世界的窗:思维与能力的双重旅程
  • 连接管理艺术-底层架构的性能奥秘
  • 【第二阶段—机器学习入门】第十五章:机器学习核心概念
  • Linly-Talker如何处理专业术语发音准确性问题?
  • Linly-Talker项目维护频率与长期发展预期
  • 由南京导航失灵看人机环境系统智能
  • DAY 42 训练和测试的规范写法
  • Linly-Talker项目贡献者招募:你可以参与哪些模块?
  • Linly-Talker能否输出WebP动画或GIF片段?轻量格式支持
  • 构建软件兼容性测试全覆盖体系的最佳实践
  • Linly-Talker如何平衡生成速度与画质清晰度?
  • 基于springboot+vue3的企业人事管理系统设计与实现
  • 思考与练习(第十章 文件与数据格式化)
  • 基于Linly-Talker开发虚拟偶像,成本降低超70%
  • Linly-Talker在品牌IP形象推广中的创意玩法
  • 【理解“Collection存储Union区域后能分两次Resize写入单元格”的核心原因】
  • Linly-Talker生成视频帧率稳定性测试结果公布
  • Linly-Talker在远程办公会议中的虚拟参会应用
  • 前后端分离城市垃圾分类管理系统系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程
  • 宠物商城网站信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】
  • 黑马微服务 p23Docker02 docker的安装 如何正确安装docker,黑马微服务给的文档不行了,如何正确找到解决方法
  • Linly-Talker在跨国会议同传中的双屏分镜设想
  • Linly-Talker生成视频头部晃动抑制技术说明
  • Linly-Talker动态打光技术如何提升画面质感?
  • 基于SpringBoot+Vue的家具销售商城系统设计与实现
  • Linly-Talker在节庆贺卡定制中的趣味性应用
  • Linly-Talker与MetaHuman相比有何差异?全方位对比