当前位置：首页 > news >正文

【AI大模型技术】深度解析DPO和RLHF，你还分不清吗？

news 2026/3/26 22:45:19

前言

很多同学都把 DPO 和 RLHF 傻傻分不清楚，认为 DPO 是 RLHF 的替代方案。

先说结论，DPO 是介于 SFT 和 RLHF 之间的，并不是完全的 RLHF 的替代。DPO 相当于 RLHF 的轻量版（模型数量少了一倍）

RLHF 存在模型训练占用资源多、训练不稳定、超参数敏感等问题。这也是 DPO 要解决的问题，资源占比相对低，训练稳定，但是 DPO 的缺点是没有 RLHF 对大模型提升的上限高。

1、回顾RLHF的PPO

RLHF 中的 PPO 中需要四个网络，分别是：

Actor model：SFT 后的 LLM，需要训练的 LLM，参数可变；
Ref model：SFT 后的 LLM，用于限制 actor model 的 KL 散度，参数冻结；
RM model：奖励模型，用于强化学习的奖励提供，参数冻结；
Critic model：用于期望奖励生成，参数可变；

而且除了 Actor model(LLM_SFT)需要预训练外，还需要训练一个 RM model，除此之外，PPO 算法是需要做采样处理的，我们知道大模型的生成是比较消耗资源的，在训练过程中再做采样，是非常消耗资源的。

如果采样不充分，很可能会导致大模型沿着不好的方向优化。DPO 主要是去掉了 Reward model，通过优化损失函数实现直接偏好策略控制。

2、RLHF的loss

RLHF 的 loss 分为两部分：第一部分是得到的奖励损失；第二部分是模型未了防止训飞，增加了一个 KL 散度来控制 LLM_rlhf 不要偏离 RLHF_sft 太多。

上面损失函数可以通过数学证明和因式分解以及替换得到 DPO 损失函数（如何做本人也不太懂，可以看朱小霖：DPO 是如何简化 RLHF 的）：

3、DPO算法的原理和代码

DPO 算法主要通过优化 RLHF 的算是函数来提升 LLM 的效果，下面说一下整个 DPO 的几大组成部分：

模型：模型由两个大模型组成，一是 SFT 后的 LLM 需要学习的模型；第二个和 RLHF 中一样需要一个 ref 模型，防止模型跑偏，结构也是 SFT 后的 LLM，参数冻结。

Loss：

从 loss 公式上看，DPO 算法的原理很简单，就是让模型在好结果上生成的概率尽量大于 ref 模型，在坏结果上生成的概率尽量低于 ref 模型，优点像对比学习（尽量靠近正例，远离负例）。

从这个角度看 DPO 就是通过一种贪心的算法来优化 LLM，缺少探索更优的路线（RLHF 做的）。

代码如下：

importtorchimporttorch.nn.functionalasFfromtransformersimportLlamaForCausalLM,LlamaConfigfromcopyimportdeepcopy torch.manual_seed(0)if__name__=="__main__":# 超参数beta=0.1# 加载模型policy_model=LlamaForCausalLM(config=LlamaConfig(vocab_size=1000,num_hidden_layers=1,hidden_size=128))reference_model=deepcopy(policy_model)# dataprompt_ids=[1,2,3,4,5,6]good_response_ids=[7,8,9,10]# 对loss稍加修改可以应对一个good和多个bad的情况bad_response_ids_list=[[1,2,3,0],[4,5,6,0]]# 转换成模型输入input_ids=torch.LongTensor([prompt_ids+good_response_ids,*[prompt_ids+bad_response_idsforbad_response_idsinbad_response_ids_list]])# labels 提前做个shiftlabels=torch.LongTensor([[-100]*len(prompt_ids)+good_response_ids,*[[-100]*len(prompt_ids)+bad_response_idsforbad_response_idsinbad_response_ids_list]])[:,1:]loss_mask=(labels!=-100)labels[labels==-100]=0# 计算 policy model的log problogits=policy_model(input_ids)["logits"][:,:-1,:]per_token_logps=torch.gather(logits.log_softmax(-1),dim=2,index=labels.unsqueeze(2)).squeeze(2)all_logps=(per_token_logps*loss_mask).sum(-1)# 暂时写死第一个是good response的概率policy_good_logps,policy_bad_logps=all_logps[:1],all_logps[1:]# 计算 reference model的log probwithtorch.no_grad():logits=reference_model(input_ids)["logits"][:,:-1,:]per_token_logps=torch.gather(logits.log_softmax(-1),dim=2,index=labels.unsqueeze(2)).squeeze(2)all_logps=(per_token_logps*loss_mask).sum(-1)# 暂时写死第一个是good response的概率reference_good_logps,reference_bad_logps=all_logps[:1],all_logps[1:]# 计算loss，会自动进行广播logits=(policy_good_logps-reference_good_logps)-(policy_bad_logps-reference_bad_logps)loss=-F.logsigmoid(beta*logits).mean()print(loss)