当前位置：首页 > news >正文

GRPO算法

news 2026/6/7 19:43:28

在当前的 AI 工业界，GRPO（Group Relative Policy Optimization，群体相对策略优化）绝对是风头最劲的强化学习算法。

作为由 DeepSeek 团队在其DeepSeekMath、DeepSeek-R1以及后续推理大模型中首次引入并彻底带火的算法，GRPO 的出现重塑了大模型 RLHF（基于人类反馈的强化学习）的格局。

它的核心贡献可以概括为一句话：在不牺牲性能的前提下，通过极其巧妙的“群体相对比较”，直接在架构里砍掉了庞大且昂贵的评论家网络（Critic Network），让大模型强化学习的显存和算力开销骤降。

在 GRPO 出现之前，大模型对齐（特别是让模型学会长文本推理、思维链 O1 化）的主流算法是PPO（近端策略优化）。

PPO 采用的是典型的Actor-Critic（演员-评论家）架构。在训练大模型时，这意味着你需要同时在显存里塞下两个同样庞大的模型：

致命弱点：Critic 网络往往和 Actor 一样大。这意味着如果你想微调一个 70B（700 亿参数）的模型，你得在显存里额外再养一个 70B 的 Critic 监督它。这不仅造成了巨大的显存浪费，还导致 Actor 和 Critic 之间复杂的分布式同步极难进行工程优化。

GRPO 的核心思想非常简单粗暴，却直击 PPO 的痛点：既然单独养一个 Critic 算基础分这么贵，我们为什么不让大模型对同一个问题同时生成一堆回答，然后让他们自己内部进行“内卷”和“相对比较”呢？

群体采样（Group Sampling）：
对于输入的提示词（Promptqqq），让当前的 Actor 模型（策略πθ\pi_\thetaπθ）同时生成一整组回答（通常是GGG个，比如G=4G = 4G=4或888），我们称之为一组输出：

{o1,o2,o3,…,oG}\{o_1, o_2, o_3, \dots, o_G\}{o1,o2,o3,…,oG}

奖励打分（Reward Scoring）：
通过一个轻量级的外部裁判（可以是一个基于规则的评测器，比如检查代码是否运行正确、数学答案是否正确；或者是一个独立的、不需要训练的外部小 Reward Model），给这GGG个回答分别打出原始奖励分数：

{r1,r2,r3,…,rG}\{r_1, r_2, r_3, \dots, r_G\}{r1,r2,r3,…,rG}

相对优势计算（Relative Advantage）：
这就是 GRPO 最具魔力的地方。它不需要 Critic 去预测每个状态的绝对价值，而是直接计算这组分数在当前群体内的相对好坏（标准化归一化）。
通过计算这组分数的平均值（Mean）和标准差（Std），第iii个回答的相对优势（Advantage,AiA_iAi）定义为：

Ai=ri−mean(r)std(r)A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}Ai=std(r)ri−mean(r)

策略更新（Policy Update）：
利用计算出的相对优势AiA_iAi，加上 PPO 经典的剪切损失（Clip Loss）和 KL 散度约束（防止大模型一次性改得太离谱），直接更新 Actor 的权重。

斩断 Critic，显存暴省：
由于直接通过群体内的相对分数算出了优势函数，GRPO 彻底不需要训练和维护任何 Critic 网络了。这直接为训练集群释放了大量的显存（在大模型微调中，这相当于节省了近半的系统级开销），允许开发者用同样的硬件去训练更大规模的模型，或者把 Batch Size 开得更大。
天生适合“推理型任务”（Reasoning）：
在数学题或编程任务中，中间的思维链（CoT）往往长达几千字，Critic 极难准确评估中间某一步的绝对价值。而 GRPO 采用最终结果导向（Outcome-based），通过在一组回答里筛选出“哪些思维链成功推导出了正确答案，哪些没推出来”来进行相对强化，这种群体优胜劣汰的机制被证明能极高效率地激发出模型的自我反思和自主推理能力（DeepSeek-R1 的惊艳表现正是得益于此）。
工程并行度极高：
在分布式 GPU 集群上，单模型多样本的采样（Generation/Rollout）可以做到极致的并行。GRPO 纯粹的数据收集和无 Critic 交互特性，让它非常容易在 Megatron-LM、Ray 或 OpenRLHF 等分布式框架上进行高度流水线化扩展。