必知必会:奖励模型训练与PPO稳定训练方法详解
必知必会:奖励模型训练与PPO稳定训练方法详解
AI-Compass致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
- github地址:AI-Compass👈:https://github.com/tingaicompass/AI-Compass
- gitee地址:AI-Compass👈:https://gitee.com/tingaicompass/ai-compass
🌟 如果本项目对您有所帮助,请为我们点亮一颗星!🌟
1. 奖励模型训练
在大模型偏好对齐的PPO算法中,需要理解两个核心概念:
| 概念 | 定义 | 别名 |
|---|---|---|
| 演员模型(Actor) | 待对齐的模型,在优化过程中需要进行参数更新 | 策略模型 |
| 奖励模型(Reward Model |
