当前位置: 首页 > news >正文

2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL

强化学习一直是个执着于游戏、机器人和控制回路的小众子领域,直到ChatGPT 出现之后它就成了夹在“聪明的”基础模型与“有用的”产品之间的那一层。到现在差不多已经五年过去,整套流程至少被重写过三次;而被奖励的对象变化的程度甚至比执行奖励的算法本身还要剧烈。

现在训练模型要回答的问题已经不是“要不要用 RL”,而是:哪一种 RL,基于什么信号,配多大的基础设施预算。

本文是对当前格局的一次梳理。会用一点篇幅讲历史,更多篇幅留给 PPO、DPO、GRPO 和 MARL——它们是什么、各自适合什么场景、实际中会在哪里坏掉,以及今天的开源技术栈大概长什么样。

60 秒历史

  • 1989 年——Q-learning,基于价值的 RL 的基石。
  • 1992 年——REINFORCE,策略梯度 RL 的基石。
  • 2013–2015 年——DQN 在 Atari 上压倒人类,RL 与深度学习真正结合。
  • 2016 年——AlphaGo 击败李世石。
  • 2017 年——OpenAI 发表 PPO(Proximal Policy Optimization)。它在接下来差不多五年里成为默认的 RL 算法。
  • 2017 年——AlphaZero。自我对弈,没有人类数据,世界级水平。
  • 2022 年——InstructGPT。PPO 被改造来在人类偏好上微调语言模型。几个月后,ChatGPT 上线。

今天在 LLM 这一侧做的所有事情,都是 PPO + 一个奖励信号的后裔。接下来四节要讲的是“我们如何保留这个想法,同时把它昂贵的部分一块块剥掉”的故事。

 

https://avoid.overfit.cn/post/9b742a56285f431da584ec52f5288ee2

http://www.jsqmd.com/news/847366/

相关文章:

  • Linux入门指南:从内核到终端,掌握核心命令与文件操作
  • cert-manager:Kubernetes 自动 TLS 证书管理
  • 别再让LDO白费电!用MP2307+SGM3209+SGM2211搭建高效低噪±5V双电源(附完整电路图)
  • 从零开始:MOOTDX通达信数据接口的5步实战指南
  • [特殊字符]️ 顶层可视化大盘·锁的来龙去脉 v1.0
  • 2026洛阳信用卡 pos 机免费上门办理,银联授权带积分,大额刷卡稳定不涨价 - 资讯速览
  • Tina Linux嵌入式图形系统开发实战指南:从架构解析到性能优化
  • NGSIM数据集:如何成为自动驾驶算法开发的‘黄金标准’测试集?
  • 突发!多地教育局已启用Perplexity替代传统教务查询系统——你还在手动翻Excel?(附迁移自查表)
  • 我自己写的论文为什么被判 AI 率 60%?这款工具帮我降到 5% 通过 985 知网严查
  • AI模型部署实战:用Docker部署一个深度学习模型
  • 终极Windows系统优化指南:如何快速解决C盘空间不足问题
  • ComfyUI Segment Anything:零基础实现AI智能图像分割的终极指南
  • 本地大模型部署进入深水区:企业AI Agent开发面临的真实问题
  • Python-docx实战:给你的爬虫数据穿上“Word外衣”,从标题到段落样式一键美化
  • Fedora 44 下 fcitx5 拼音输入法在部分应用中无法使用的排查与解决
  • 紧急通知:司法部2024新规倒逼法律检索升级!Perplexity法律模式已适配新《民法典司法解释(三)》全文语义索引
  • 告别GUI!在VS2017里用RTKLIB 2.4.3命令行玩转PPP数据处理(附.conf文件生成与调试技巧)
  • 5分钟搭建拼多多数据采集系统:电商运营的终极指南
  • 在自动化脚本中使用Taotoken实现多模型聚合调用与路由
  • 行列式的哲学意义:一个数字,丈量无限世界
  • 终极Lenovo Legion Toolkit指南:轻量级笔记本控制解决方案完全解析
  • 保姆级教程:在鲁班猫4(RK3588S)上搞定Realsense D435i和T265的ROS驱动(附内核避坑指南)
  • 【Perplexity设计灵感查询实战指南】:20年架构师亲授3大反直觉设计哲学与5个落地场景
  • AI 应用生成平台爆发:腾讯吐司 + Ardot 与编程民主化新浪潮
  • 【Perplexity图书推荐查询实战指南】:20年AI工具专家亲授3大精准检索公式与5个避坑红线
  • 零成本IM与微信分账绝杀竞品!三角洲游戏俱乐部接单平台首选,游戏电竞护航陪玩源码系统小程序重塑护航平台 - 壹软科技
  • 从Sobel到Laplace:用PyTorch复现经典CV算子,理解边缘检测的底层逻辑
  • DirtyDecrypt深度解析:Linux内核页缓存漏洞再添新成员,PoC公开引爆安全警报
  • GB28181国标视频服务器WVP-PRO搭建