当前位置: 首页 > news >正文

GRPO算法

在当前的 AI 工业界,GRPO(Group Relative Policy Optimization,群体相对策略优化)绝对是风头最劲的强化学习算法。

作为由 DeepSeek 团队在其DeepSeekMathDeepSeek-R1以及后续推理大模型中首次引入并彻底带火的算法,GRPO 的出现重塑了大模型 RLHF(基于人类反馈的强化学习)的格局。

它的核心贡献可以概括为一句话:在不牺牲性能的前提下,通过极其巧妙的“群体相对比较”,直接在架构里砍掉了庞大且昂贵的评论家网络(Critic Network),让大模型强化学习的显存和算力开销骤降。


1. 痛点:为什么传统的 PPO 练不起了?

在 GRPO 出现之前,大模型对齐(特别是让模型学会长文本推理、思维链 O1 化)的主流算法是PPO(近端策略优化)

PPO 采用的是典型的Actor-Critic(演员-评论家)架构。在训练大模型时,这意味着你需要同时在显存里塞下两个同样庞大的模型:

  • Actor(演员网络):大模型本体,负责生成回答(也就是我们最终要用的模型)。
  • Critic(评论家网络):专门用来给 Actor 生成的每一个 Token 甚至每句话评估打分,计算价值函数(Value Function)。

致命弱点:Critic 网络往往和 Actor 一样大。这意味着如果你想微调一个 70B(700 亿参数)的模型,你得在显存里额外再养一个 70B 的 Critic 监督它。这不仅造成了巨大的显存浪费,还导致 Actor 和 Critic 之间复杂的分布式同步极难进行工程优化。


2. 破局:GRPO 的群体相对评级机制

GRPO 的核心思想非常简单粗暴,却直击 PPO 的痛点:既然单独养一个 Critic 算基础分这么贵,我们为什么不让大模型对同一个问题同时生成一堆回答,然后让他们自己内部进行“内卷”和“相对比较”呢?

GRPO 的工作流程:

  1. 群体采样(Group Sampling)
    对于输入的提示词(Promptqqq),让当前的 Actor 模型(策略πθ\pi_\thetaπθ)同时生成一整组回答(通常是GGG个,比如G=4G = 4G=4888),我们称之为一组输出:

{o1,o2,o3,…,oG}\{o_1, o_2, o_3, \dots, o_G\}{o1,o2,o3,,oG}

  1. 奖励打分(Reward Scoring)
    通过一个轻量级的外部裁判(可以是一个基于规则的评测器,比如检查代码是否运行正确、数学答案是否正确;或者是一个独立的、不需要训练的外部小 Reward Model),给这GGG个回答分别打出原始奖励分数:

{r1,r2,r3,…,rG}\{r_1, r_2, r_3, \dots, r_G\}{r1,r2,r3,,rG}

  1. 相对优势计算(Relative Advantage)
    这就是 GRPO 最具魔力的地方。它不需要 Critic 去预测每个状态的绝对价值,而是直接计算这组分数在当前群体内的相对好坏(标准化归一化)
    通过计算这组分数的平均值(Mean)和标准差(Std),第iii个回答的相对优势(Advantage,AiA_iAi)定义为:

Ai=ri−mean(r)std(r)A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}Ai=std(r)rimean(r)

  • 如果某个回答的得分高于平均水平,AiA_iAi就是正的,模型就会被鼓励以后多这么写;
  • 如果某个回答的得分垫底,低于平均水平,AiA_iAi就是负的,模型就会被惩罚。
  1. 策略更新(Policy Update)
    利用计算出的相对优势AiA_iAi,加上 PPO 经典的剪切损失(Clip Loss)和 KL 散度约束(防止大模型一次性改得太离谱),直接更新 Actor 的权重。

3. GRPO 的三大革命性优势

  • 斩断 Critic,显存暴省:
    由于直接通过群体内的相对分数算出了优势函数,GRPO 彻底不需要训练和维护任何 Critic 网络了。这直接为训练集群释放了大量的显存(在大模型微调中,这相当于节省了近半的系统级开销),允许开发者用同样的硬件去训练更大规模的模型,或者把 Batch Size 开得更大。
  • 天生适合“推理型任务”(Reasoning):
    在数学题或编程任务中,中间的思维链(CoT)往往长达几千字,Critic 极难准确评估中间某一步的绝对价值。而 GRPO 采用最终结果导向(Outcome-based),通过在一组回答里筛选出“哪些思维链成功推导出了正确答案,哪些没推出来”来进行相对强化,这种群体优胜劣汰的机制被证明能极高效率地激发出模型的自我反思和自主推理能力(DeepSeek-R1 的惊艳表现正是得益于此)。
  • 工程并行度极高:
    在分布式 GPU 集群上,单模型多样本的采样(Generation/Rollout)可以做到极致的并行。GRPO 纯粹的数据收集和无 Critic 交互特性,让它非常容易在 Megatron-LM、Ray 或 OpenRLHF 等分布式框架上进行高度流水线化扩展。

4. 总结与行业反思

从 PPO 到 GRPO 的演进,不仅是算法公式上的小修小改,更是一种工程思维与学术思维的完美结合。它用“统计学内部对抗”巧妙化解了“二阶绝对价值评估”的物理算力壁垒。

目前,GRPO 已经超越了学术研究的范畴,成为了各大 AI 团队在尝试将开源模型(如 Llama-3、Qwen)进行“O1 式推理能力强化”时的绝对首选标配算法。

http://www.jsqmd.com/news/970012/

相关文章:

  • 2026年6月7日科技速递:高考AI监考、芯片股暴跌、谷歌Gemini漏洞、OpenAI人才流失
  • 当 AI Agent 成为你的用户——Agent-Native 网站是什么?为什么现在就该关注?
  • Notepad--完全指南:5分钟上手跨平台文本编辑神器
  • 用Python和pymodbus库模拟Modbus RTU主从通信(附完整代码与数据帧解析)
  • 实习生转正路上的踩坑与复盘:校招生工程化成长路径
  • 嵌入式汉字编码与输入法实战:从GB2312原理到MCU实现
  • 2026年广元装修市场调查:铂金精工标准下的服务力深度评测 - 优家闲谈
  • EncodingChecker:解决多语言文件编码检测的终极方案
  • RL-Kernel
  • COM3D2.MaidFiddler:解锁COM3D2实时角色编辑的强大工具
  • 一个 VS Code 插件,干翻了 GitHub 3800 个内部仓库
  • 从CCFL到RGB-LED:显示背光技术演进与色彩革命
  • 比亚迪入局机器人赛道:内部消化订单跳过商业化等待期,能否复刻电池芯片成功路径?
  • 惠州宽带安装自有师傅一对一,满意再付钱 - mougen1
  • 串口通信中0x0C清屏指令的原理与应用实践
  • 从0到1搭建CSDN AI内容获客体系:3步建模、7天冷启动、22天实现线索成本低于行业均值58%
  • Xiaomi Miot Auto本地模式终极解决方案:深度解析离线运行疑难
  • 软件过程与管理知识回顾1 -
  • 告别依赖地狱:手把手教你用AppImage在Ubuntu 22.04上安装最新版Neovim(附FUSE问题解决)
  • 2026 无锡锡山区漏水维修攻略|苏易修缮推荐:卫生间/阳台/外墙/屋顶/地下室漏水|靠谱防水门店推荐 - 苏易修缮
  • AMD Ryzen硬件调试终极指南:SMUDebugTool专业使用手册
  • Thought-Action-Observation闭环:AI工程化协作的核心范式
  • 046、NPU的利用率:如何避免计算单元空闲?
  • 华强北元器件分销商资源整合:从策略联盟到资本联姻的破局之路
  • 当AI学会编程——从ZeroLang到供应链攻击,开发者的护城河还剩什么?
  • SpringBoot针式打印机连续套打工具包(支持前后入纸切换与多联单据精准定位)
  • 【头部科技公司内部报告】:为什么他们把37%的数字营销预算转向CSDN AI内容池?
  • WebPlotDigitizer 4.0全功能开源包:网页运行的曲线图取数工具,带批量处理和热图生成能力
  • 工业串口抗干扰实战:从RS-232烧毁到RS-485防护电路设计
  • 点狮HRM企业级HRM薪资计算系统架构设计