当前位置: 首页 > news >正文

【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

核心结论:本文直面“RL仅优化LLM基座已有能力”的主流争议,提出可复现的“RL Grokking Recipe”训练方案,

通过严谨实验证明:特定条件下,RL能让LLM突破基座能力上限(pass@K=0任务),解锁全新算法能力并实现有限迁移,为RL驱动LLM推理能力跃迁提供关键证据与实践路径


一、研究背景与核心争议

当前学界对RL 能否提升 LLM 推理能力存在两大对立观点:

  1. 主流怀疑派(Sharpening 模式)

    • RL 只是打磨、激活基座模型已有的能力

    • 只提升采样效率,无法突破基座表征上限

    • 如果基座在某任务上 pass@K=0,RL 会因奖励稀疏、梯度消失而完全学不到新策略

  1. 少数乐观派(Discovery 模式)

    • RL 可以解锁基座完全不具备的新推理 / 算法策略

    • 实现能力跃迁,但缺少严谨实验 + 可复现方法

研究痛点

  • 传统数据集存在数据污染,分不清是 “记忆” 还是 “真学会”: 无法严谨证明 RL 让模型学到了新能力。

  • pass@K=0 任务上,标准 RL 梯度为 0,无法学习:


二、核心研究问题

本文要回答三个根本性问题:

  1. 可学习性:RL 能否让 LLM 在基座 pass@K=0的任务上,学到全新算法?

  2. 迁移性:RL 学到的新算法,能否泛化到 OOD 任务?

  3. 关键条件:如何设计 RL 方案,破解pass@K=0 零梯度诅咒,触发能力 “顿悟”?


三、核心研究方法(创新点)

1. 构建 DELTA 基准(核心工具创新)

为了彻底避开数据污染、严格验证 “从零学会”,作者构建了DELTA 基准

  • 完全合成、全新 DSL 语言,互联网不存在

  • 训练 / 测试严格分布外(OOD)

  • 部分任务基座pass@128=0

  • 支持三类迁移:

    • 探索性: 同一种任务 → 只是变难、变复杂。

    • 组合性:把学会的多个子技能,重新组合成新任务。

    • 转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。

对应图表:

  • Figure 1:

    • 左侧展示 DELTA 包含的多类任务(人造编程 / 模拟任务、SQL 等);

    • 右侧展示基座模型在这些任务上pass@k=0的结果,证明是 “真正从零学”。

      • Learnability(可学习性):看 RL 如何让模型grokking(顿悟)出全新策略;

      • Generalization(泛化性):看模型学到的算法能不能迁移、泛化、重组

上半部分:Learnability(可学习性)—— RL Grokking 顿悟曲线

横轴:训练步数(RL 迭代轮次)

纵轴:任务通过率(Full-pass Rate)

曲线形态

长平台期(Exploration Phase):前几百 / 几千步,通过率≈0(pass@K=0),模型在探索、试错,未找到有效算法。

Grokking 顿悟点(Phase Transition):某一步突然 “开窍”,通过率从接近 0跳升至接近 100%

收敛期(Convergence Phase):稳定在接近满分,模型掌握并固化了全新算法。

核心含义

证明RL 能让 LLM 学会基础模型完全不会的新算法(不是微调 / 记忆)。

关键是两阶段奖励:先用稠密奖励(per-test)走出零奖励区,再用二元全对奖励(full-pass)巩固正确策略。

下半部分:Generalization(泛化性)—— 四大迁移维度

展示 RL 学到的算法如何迁移到 OOD(分布外)任务,沿四大轴测试:

Exploratory Gen(探索性泛化):同问题家族、更难的变体(如 Manufactoria 更复杂规则)。

Compositional Gen(组合性泛化):将学到的子算法 / 子技能重新组合,解决新任务。

Transformative Gen(转化性泛化):跨问题类型、需要彻底改变推理范式(论文中表现最弱)。

Domain-level Gen(领域级泛化):跨问题家族(如从 Manufactoria 到 BouncingSim)。

核心含义

RL 学到的算法具备一定迁移能力,尤其在同家族与组合场景;但在转化性泛化上仍有瓶颈。



  • Figure 2:Manufactoria 难度阶梯图含义:将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard,展示任务难度分层,证明 DELTA 覆盖从易到难的完整梯度。

  • Figure 3:BouncingSim 各任务家族 & 难度热力图含义:展示 BouncingSim 不同任务家族(ROT OBJ、GRAVITY 等)与难度层级的基线性能,直观呈现任务复杂度分布与基座能力上限。


2. 提出 RL Grokking Recipe(核心方法创新)

目标:破解pass@K=0 零梯度问题,触发 Grokking 相变。

采用两阶段奖励调度

  1. Warm-up 阶段

    • 密集奖励(按测试用例通过率给 0~1 连续奖励)

    • 让模型从全零奖励中获得梯度,积累局部正确逻辑

  1. 收敛阶段

    • 切换为二元奖励(只有全部用例通过才给奖励)

    • 过滤 “投机解、局部解”,巩固完整算法

辅助策略(稳定训练、加速grokking

  • 经验回放

  • 课程学习

Figure 5 对比了三种不同策略,在解决pass@K=0这类基座模型完全不会的任务时的效果。

所有实验都在 Manufactoria‑HAS 任务上,基于 Qwen3‑4B 模型展开。

  • 子图 (a):直接用 GRPO 对全对奖励做优化,完全失败。因为一开始模型什么都做不对,奖励始终为 0,没有梯度,根本学不起来。

  • 子图 (b):改用按测试用例通过率的稠密奖励,虽然奖励更平滑、能起步,但很快就饱和停滞,只能学到局部正确,学不会完整算法。

  • 子图 (c):我们提出的两阶段训练—— 先用稠密奖励做 warm‑up 启动学习,再切换成全对奖励做收敛。只有这种方式,能让模型从完全不会,最终实现顿悟、成功解出任务

Figure 6 对比了2种能够 ** 加速 RL 顿悟(grokking)** 的训练策略。

  • No Trick 是使用图5所示的2阶段标准训练,作为基线,收敛很慢;

  • Experience Replay 经验回放通过记录并复用成功轨迹,显著加快训练收敛,grok时刻提前到来

    • 较长的探索阶段主要来自于积极奖励信号的稀疏性。缓解这种情况的一种自然方法是保留成功的推理轨迹,并将其重新插入到未来的部署中——被称为经验回放。

  • Experience Replay + Feedback-in-the-loop循环反馈

    • 可加速grok时刻到来,但是训练稳定性差。

这张图说明:经验回放和循环反馈能有效加速顿悟,是实现高效 RL 学习的关键辅助策略。

Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。

所有模型先统一在基础任务上训练,学习 START、APPEND、EXACT 等基础技能,再进入两条不同的中间课程:

  • 路径一:第二阶段学习 REGEX (正则类任务)相关任务,与目标任务逻辑相近,能够有效迁移,最终在 HAS 任务上达到很高的通过率;

  • 路径二:第二阶段学习 COMPR (理解类任务)任务,与目标任务无关,无法迁移,性能长期停留在低位。

结果说明:课程学习想要成功,关键不仅在于循序渐进,更在于中间任务与目标任务的相关性,才能实现有效技能迁移。

Figure 8

方法也存在局限性:并非所有任务都能通过Warm-up训练解锁。

在难度更高的 Manufactoria-PREPEND 任务上,即使使用稠密奖励,模型仍无法学会完整算法,full-pass 率始终为 0。

这表明 Warm-up并非通用方案,其效果受模型容量与任务难度限制。



四、核心实验结论

结论 1:RL 能解锁全新算法,触发 Grokking 相变

在多个pass@K=0任务上,模型出现典型Grokking 曲线

  • 长期平台期:准确率 ≈ 0

  • 某一训练步数:突然顿悟、暴涨到接近 100%

  • 从 “完全不会” 直接跳到 “精通算法”

分析证明:

  • 不是基座能力的采样优化

  • 真正学到了全新算法策略

  • RL 实现了Discovery 模式

Figure 4:RL 训练前后 Manufactoria-HAS 的 Pass@k 对比含义:直观展示 RL 前后,模型从完全不会(≈0)到高通过率的跃迁,直接证明 RL 解锁全新能力

Figure 9

  • (a):BouncingSim 上的 Grokking 曲线含义:训练集准确率在约 200 step 出现陡峭跳变,是典型顿悟相变曲线,证明 Grokking 真实发生

  • (b)(c)(d):BOUNCINGSIM 泛化实验含义:(b) 探索性泛化:能迁移到更难变体 (c) 组合性泛化:技能零样本组合可用 (d) 转化性泛化:全新动力学几乎不迁移证明:RL 解锁的算法能力有限泛化

结论 2:新算法能力具备有限泛化性

在 DELTA 上做三类迁移实验:(图9)

  1. 有效迁移

    • 同任务家族更难场景:探索性泛化 ✅

    • 子技能重新组合:组合性泛化 ✅

  1. 迁移局限

    • 转化性泛化 ❌

    • 跨任务家族:效果差 ❌

结论:RL 能学到强任务级算法,但还不是通用概念级能力

结论 3:调和学界争议 —— RL 双模式

本文正式统一两种观点:

  1. Sharpening(打磨模式)

    • 标准 RL

    • 只优化采样、无法突破 pass@K=0

  1. Discovery(发现模式)

    • RL Grokking Recipe

    • 突破基座上限,从零解锁新算法

关键差异:奖励设计 + 持续探索


五、核心贡献与意义

  1. 理论贡献打破 “RL 只能打磨能力” 的认知,证明 RL 可解锁全新算法,Grokking 是关键标志。

  2. 方法贡献提出RL Grokking Recipe,两阶段奖励破解 pass@K=0 零梯度难题。

  3. 工具贡献构建DELTA 基准,无污染、可控、严格 OOD。

  4. 实践意义给工业界指明方向:

    • 不要只堆数据、堆模型

    • 重点做:奖励设计 + 探索策略 + 长期 RL 训练


六、一句话总结

RL 并非只能 “打磨” LLM 已有能力,通过两阶段奖励调度 + 持续探索,它能让模型实现顿悟,解锁基座完全不具备的全新算法;但这种突破的泛化能力仍有局限,未来需重点优化跨场景迁移,让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。



http://www.jsqmd.com/news/824289/

相关文章:

  • 如何30分钟搞定Obsidian Copilot:新手快速安装与智能笔记配置指南
  • 别再死磕传统FWI了!用PyTorch+OpenFWI数据集,5分钟跑通你的第一个DL-FWI模型
  • v8时代审美淘汰倒计时:掌握这5个动态权重调节技巧,避免90%创作者正在经历的风格失语症
  • AI技术开发知识库系统
  • Dify插件标准化封装:从脚本到可分发Python包的工程实践
  • 0基础该如何转行网络安全?值得吗?我将从6个方面带你学一笔经济账
  • ROS2导航避坑指南:手把手教你用Nav2和Cartographer保存、加载地图并实现精准定位
  • 2025ccpc南昌补题笔记(前六题)
  • 【信息科学与工程学】【物理/化学和工程科学】第三十九篇 工程力学02
  • Unity云资源分发(CCD)从入门到放弃?这些命令行(CLI)技巧让你效率翻倍
  • CircuitPython硬件通信接口实战:SPI、UART、I2C与HID引脚验证与应用
  • Teamcenter 第一个节点自动审批完成 - 张永全
  • 极简主义提示工程白皮书(含Adobe+Midjourney双平台对照表|限免领取倒计时48h)
  • C#调用 AI学习从0开始-第1阶段(基础与工具)-第1天安装环境与获取API Key
  • UVA537 Artificial Intelligence? 题解
  • 用PyTorch和U-Net搞定舌头图片分割:一份从数据集处理到模型部署的保姆级教程
  • At24c02
  • 100、昇腾服务器进行人脸检测和人脸比对测试onnxorange aipro 8t/20t
  • 从期望到方差:量化随机波动的核心工具
  • 无感定位技术白皮书——园区ReID跨镜易丢目标,原生时空轨迹实现全程不中断
  • 抖音视频怎么去水印?2026 实测 5 大方法对比,手机电脑都能用 - 爱上科技热点
  • 抖音视频去水印用什么工具?2026实测:免费安全的抖音去水印工具推荐 - 爱上科技热点
  • 用于分析镜头系统成像误差的工具
  • NCM音乐解锁转换终极指南:3分钟免费转换加密音乐文件
  • uni-app集成阿里OSS直传:从封装到多文件上传的实战指南
  • 紧急更新!MJ 6.1已悄然调整结构提示词解析逻辑——3类曾被广泛使用的语法组合今起失效(附兼容性迁移清单)
  • 从0到1落地小学智能判卷系统:主流BS架构全方案实战,附成绩学情分析全模块
  • 怎么迁移 Git 仓库到新版本服务器保留所有分支历史
  • 5分钟快速上手Sabaki:打造专业围棋对弈环境的终极指南
  • 抖音去水印视频解析用什么工具?2026 免费安全工具推荐,抖音视频怎么去掉水印一文搞定 - 爱上科技热点