当前位置: 首页 > news >正文

LLM | multi-turn 任务下的 RL 微调:RAGEN, ArCHer, GiGPO, VinePPO


最近读了一些 LLM 的 multi-turn RL 文章,写博客记录一下。


目录
  • 前置知识:使用 PPO 和 GRPO 微调 LLM
  • RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
  • [ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL
  • [NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training
  • [ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs


前置知识:使用 PPO 和 GRPO 微调 LLM

(仍待补充

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

信息:

  • 应该还没有投 / 中什么会,但是 GitHub 有 2.4k star,所以可能是靠谱的,并且可能很好用。师兄也说这个代码好用,提供了很多 multi-turn 环境。
  • website:https://ragen-ai.github.io/
  • arxiv:https://arxiv.org/abs/2504.20073
  • pdf:https://arxiv.org/pdf/2504.20073
  • html:https://arxiv.org/html/2504.20073v2
  • GitHub:https://github.com/mll-lab-nu/RAGEN
  • 文档:https://ragen-doc.readthedocs.io/en/latest/

参考博客:

  • CSDN | RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?
  • CSDN | RAGEN: 基于多轮强化学习的 LLM 智能体自进化理解

需要关注这篇文章的训练硬件要求。

[ICML 2024] ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

信息:

  • ICML 2024。应该是早期 multi-turn 文章。
  • website:https://yifeizhou02.github.io/archer.io/
  • arxiv:https://arxiv.org/abs/2402.19446
  • pdf:https://arxiv.org/pdf/2402.19446
  • html:https://arxiv.org/html/2402.19446v1
  • open review(没有审稿人意见可看):https://openreview.net/forum?id=b6rA0kAHT1
  • 参考博客:CSDN | ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈

应该是早期 multi-turn 文章之一。

发现 trick 意外的很多,虽然思路听起来相当简单。

感觉这篇文章是师兄对 multi-turn LLM 的印象的主要来源。

[NeurIPS 2025] Group-in-Group Policy Optimization for LLM Agent Training

信息:

  • NeurIPS 2025,5 4 4 4 poster。
  • arxiv:https://arxiv.org/abs/2505.10978
  • html:https://arxiv.org/html/2505.10978v3
  • pdf:https://arxiv.org/pdf/2505.10978
  • open review:https://openreview.net/forum?id=QXEhBMNrCW
  • 论文作者的知乎博客:知乎 | 为什么 GRPO 训不好 LLM Agent?GiGPO 算法介绍
  • GitHub:https://github.com/langfengQ/verl-agent (目前 star 1.1k)
  • 参考博客:CSDN | GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈

[ICML 2025] VinePPO: Refining Credit Assignment in RL Training of LLMs

信息:

  • ICML 2025,4 4 3 3 poster。
  • arxiv:https://arxiv.org/abs/2410.01679
  • pdf:https://arxiv.org/pdf/2410.01679
  • html:https://arxiv.org/html/2410.01679
  • GitHub:https://github.com/McGill-NLP/VinePPO
  • open review:https://openreview.net/forum?id=Myx2kJFzAn
  • 参考博客:CSDN | VinePPO:基于蒙特卡洛采样的无偏 credit assignment,提升大模型推理能力

因为 ArCHer 和 RAGEN 都提到了 credit assignment 的事情,所以这里有一篇 credit assignment 的文章 VinePPO。

需要关注这篇文章的训练硬件要求。



(还有一篇,Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models。这篇可能还没中,并且 GitHub 也没人 star,可能质量相对一般)

  • arxiv:https://arxiv.org/abs/2409.09345
  • pdf:https://arxiv.org/pdf/2409.09345
  • GitHub:https://github.com/George-Chia/LLM-Agents-with-Q

deepseek 速读:

主要方法与算法流程:

  1. 训练阶段:
    1. MCTS 收集数据:用 LLM 智能体在环境中探索,通过选择-扩展-评估-回传四步,计算每一步动作的 Q 值。
    2. 构建偏好数据:从 MCTS 树中提取“好动作”(高 Q 值)和“坏动作”(低 Q 值)。
    3. 步级 DPO 训练 Q 模型:用一个轻量 LLM(如 Phi-1.5)学习区分好坏动作,损失函数基于动作概率比。
  2. 推理阶段:
    1. 采样多个候选动作。
    2. 用训练好的 Q 值模型计算每个动作的 Q 值。
    3. 选择 Q 值最高的动作执行。
  3. 模块协同:MCTS 负责生成标注数据,DPO 负责训练 Q 模型,推理时 Q 模型替代贪心选择。


http://www.jsqmd.com/news/188076/

相关文章:

  • 昆工信息工程与自动化学院2026年硕士研究生通信一志愿复试时间
  • 【脑源定位】非负块稀疏贝叶斯学习算法脑电脑源定位【含Matlab源码 14810期】
  • 国际能源署数据收集:HunyuanOCR读取成员国能源统计年报
  • 数据库索引失效:8 大常见场景 MySQL/PostgreSQL/Oracle)
  • 移民服务机构:HunyuanOCR处理多国身份证件提高效率
  • 政务办公智能化升级:HunyuanOCR助力档案电子化管理
  • UltraISO注册码最新版哪里找?先了解自动化光盘处理趋势
  • 揭秘C#在ARM架构上的性能表现:你不知道的JIT与GC优化细节
  • 数学与算法
  • 全球气候大会资料处理:HunyuanOCR整理各国提交的书面承诺
  • 演唱会入场验证:HunyuanOCR比对门票姓名与身份证一致性
  • 探索一阶线性自抗扰控制器(L_ADRC):简单而强大的控制利器
  • 国际动漫展内容审核:HunyuanOCR检查参展作品含有的文字内容
  • 完整教程:计算机视觉五大技术——深度学习在图像处理中的应用
  • 国际市场调研:HunyuanOCR抓取海外线下门店促销信息
  • 消费者权益保护:购物小票OCR识别发起退换货流程
  • 直播带货数据分析:商品展示板OCR识别统计热销品类
  • 比级联方案更快:探秘腾讯混元OCR的极致易用设计理念
  • Pytorch线性回归模拟
  • 第三十五篇:产品增长黑客:数据驱动的用户增长
  • 多语言混合场景下的OCR挑战:HunyuanOCR是如何应对的?
  • 鸿蒙智行2025年全年累计交付58.91万台 同比增长32%
  • 国际奥委会筹备:多国报名表格OCR识别统一赛事管理系统
  • 奥运会奖牌榜自动更新:HunyuanOCR读取赛场公告屏实时数据
  • 【C# 12主构造函数深度解析】:掌握基类调用新姿势,提升代码效率的5大实战技巧
  • 【高性能编程必修课】:为什么顶尖开发者都在用C#不安全类型?
  • 西门子1200伺服步进FB块程序:开箱即用的自动化利器
  • 【脑源定位】基于matlab非负块稀疏贝叶斯学习算法脑电脑源定位【含Matlab源码 14810期】
  • 【C#跨平台调试终极指南】:揭秘.NET开发者必须掌握的5大调试利器
  • CSDN官网技术帖精选:腾讯混元OCR实际应用场景分析