【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?
核心结论:本文直面“RL仅优化LLM基座已有能力”的主流争议,提出可复现的“RL Grokking Recipe”训练方案,
通过严谨实验证明:特定条件下,RL能让LLM突破基座能力上限(pass@K=0任务),解锁全新算法能力并实现有限迁移,为RL驱动LLM推理能力跃迁提供关键证据与实践路径
一、研究背景与核心争议
当前学界对RL 能否提升 LLM 推理能力存在两大对立观点:
主流怀疑派(Sharpening 模式)
RL 只是打磨、激活基座模型已有的能力
只提升采样效率,无法突破基座表征上限
如果基座在某任务上 pass@K=0,RL 会因奖励稀疏、梯度消失而完全学不到新策略
少数乐观派(Discovery 模式)
RL 可以解锁基座完全不具备的新推理 / 算法策略
实现能力跃迁,但缺少严谨实验 + 可复现方法
研究痛点
传统数据集存在数据污染,分不清是 “记忆” 还是 “真学会”: 无法严谨证明 RL 让模型学到了新能力。
在pass@K=0 任务上,标准 RL 梯度为 0,无法学习:
二、核心研究问题
本文要回答三个根本性问题:
可学习性:RL 能否让 LLM 在基座 pass@K=0的任务上,学到全新算法?
迁移性:RL 学到的新算法,能否泛化到 OOD 任务?
关键条件:如何设计 RL 方案,破解pass@K=0 零梯度诅咒,触发能力 “顿悟”?
三、核心研究方法(创新点)
1. 构建 DELTA 基准(核心工具创新)
为了彻底避开数据污染、严格验证 “从零学会”,作者构建了DELTA 基准:
完全合成、全新 DSL 语言,互联网不存在
训练 / 测试严格分布外(OOD)
部分任务基座pass@128=0
支持三类迁移:
探索性: 同一种任务 → 只是变难、变复杂。
组合性:把学会的多个子技能,重新组合成新任务。
转化性泛化: 换到完全不同的规则 / 不同动力学 / 不同领域。
对应图表:
Figure 1:
左侧展示 DELTA 包含的多类任务(人造编程 / 模拟任务、SQL 等);
右侧展示基座模型在这些任务上pass@k=0的结果,证明是 “真正从零学”。
Learnability(可学习性):看 RL 如何让模型grokking(顿悟)出全新策略;
Generalization(泛化性):看模型学到的算法能不能迁移、泛化、重组
上半部分:Learnability(可学习性)—— RL Grokking 顿悟曲线 横轴:训练步数(RL 迭代轮次) 纵轴:任务通过率(Full-pass Rate) 曲线形态: 长平台期(Exploration Phase):前几百 / 几千步,通过率≈0(pass@K=0),模型在探索、试错,未找到有效算法。 Grokking 顿悟点(Phase Transition):某一步突然 “开窍”,通过率从接近 0跳升至接近 100%。 收敛期(Convergence Phase):稳定在接近满分,模型掌握并固化了全新算法。 核心含义: 证明RL 能让 LLM 学会基础模型完全不会的新算法(不是微调 / 记忆)。 关键是两阶段奖励:先用稠密奖励(per-test)走出零奖励区,再用二元全对奖励(full-pass)巩固正确策略。 | 下半部分:Generalization(泛化性)—— 四大迁移维度 展示 RL 学到的算法如何迁移到 OOD(分布外)任务,沿四大轴测试: Exploratory Gen(探索性泛化):同问题家族、更难的变体(如 Manufactoria 更复杂规则)。 Compositional Gen(组合性泛化):将学到的子算法 / 子技能重新组合,解决新任务。 Transformative Gen(转化性泛化):跨问题类型、需要彻底改变推理范式(论文中表现最弱)。 Domain-level Gen(领域级泛化):跨问题家族(如从 Manufactoria 到 BouncingSim)。 核心含义: RL 学到的算法具备一定迁移能力,尤其在同家族与组合场景;但在转化性泛化上仍有瓶颈。 | |
Figure 2:Manufactoria 难度阶梯图含义:将 Manufactoria 14 个任务家族分为 Basic/Easy/Medium/Hard,展示任务难度分层,证明 DELTA 覆盖从易到难的完整梯度。
Figure 3:BouncingSim 各任务家族 & 难度热力图含义:展示 BouncingSim 不同任务家族(ROT OBJ、GRAVITY 等)与难度层级的基线性能,直观呈现任务复杂度分布与基座能力上限。
2. 提出 RL Grokking Recipe(核心方法创新)
目标:破解pass@K=0 零梯度问题,触发 Grokking 相变。
采用两阶段奖励调度:
Warm-up 阶段
密集奖励(按测试用例通过率给 0~1 连续奖励)
让模型从全零奖励中获得梯度,积累局部正确逻辑
收敛阶段
切换为二元奖励(只有全部用例通过才给奖励)
过滤 “投机解、局部解”,巩固完整算法
辅助策略(稳定训练、加速grokking)
经验回放
课程学习
Figure 5 对比了三种不同策略,在解决pass@K=0这类基座模型完全不会的任务时的效果。 所有实验都在 Manufactoria‑HAS 任务上,基于 Qwen3‑4B 模型展开。
| Figure 6 对比了2种能够 ** 加速 RL 顿悟(grokking)** 的训练策略。
这张图说明:经验回放和循环反馈能有效加速顿悟,是实现高效 RL 学习的关键辅助策略。 |
Figure 7 对比了 Manufactoria-HAS 任务上两阶段课程学习的效果。 所有模型先统一在基础任务上训练,学习 START、APPEND、EXACT 等基础技能,再进入两条不同的中间课程:
结果说明:课程学习想要成功,关键不仅在于循序渐进,更在于中间任务与目标任务的相关性,才能实现有效技能迁移。 | Figure 8 方法也存在局限性:并非所有任务都能通过Warm-up训练解锁。 在难度更高的 Manufactoria-PREPEND 任务上,即使使用稠密奖励,模型仍无法学会完整算法,full-pass 率始终为 0。 这表明 Warm-up并非通用方案,其效果受模型容量与任务难度限制。 |
四、核心实验结论
结论 1:RL 能解锁全新算法,触发 Grokking 相变
在多个pass@K=0任务上,模型出现典型Grokking 曲线:
长期平台期:准确率 ≈ 0
某一训练步数:突然顿悟、暴涨到接近 100%
从 “完全不会” 直接跳到 “精通算法”
分析证明:
不是基座能力的采样优化
是真正学到了全新算法策略
RL 实现了Discovery 模式
Figure 4:RL 训练前后 Manufactoria-HAS 的 Pass@k 对比含义:直观展示 RL 前后,模型从完全不会(≈0)到高通过率的跃迁,直接证明 RL 解锁全新能力。
Figure 9
(a):BouncingSim 上的 Grokking 曲线含义:训练集准确率在约 200 step 出现陡峭跳变,是典型顿悟相变曲线,证明 Grokking 真实发生。
(b)(c)(d):BOUNCINGSIM 泛化实验含义:(b) 探索性泛化:能迁移到更难变体 (c) 组合性泛化:技能零样本组合可用 (d) 转化性泛化:全新动力学几乎不迁移证明:RL 解锁的算法能力有限泛化。
结论 2:新算法能力具备有限泛化性
在 DELTA 上做三类迁移实验:(图9)
有效迁移
同任务家族更难场景:探索性泛化 ✅
子技能重新组合:组合性泛化 ✅
迁移局限
转化性泛化 ❌
跨任务家族:效果差 ❌
结论:RL 能学到强任务级算法,但还不是通用概念级能力。
结论 3:调和学界争议 —— RL 双模式
本文正式统一两种观点:
Sharpening(打磨模式)
标准 RL
只优化采样、无法突破 pass@K=0
Discovery(发现模式)
RL Grokking Recipe
突破基座上限,从零解锁新算法
关键差异:奖励设计 + 持续探索。
五、核心贡献与意义
理论贡献打破 “RL 只能打磨能力” 的认知,证明 RL 可解锁全新算法,Grokking 是关键标志。
方法贡献提出RL Grokking Recipe,两阶段奖励破解 pass@K=0 零梯度难题。
工具贡献构建DELTA 基准,无污染、可控、严格 OOD。
实践意义给工业界指明方向:
不要只堆数据、堆模型
重点做:奖励设计 + 探索策略 + 长期 RL 训练
六、一句话总结
RL 并非只能 “打磨” LLM 已有能力,通过两阶段奖励调度 + 持续探索,它能让模型实现顿悟,解锁基座完全不具备的全新算法;但这种突破的泛化能力仍有局限,未来需重点优化跨场景迁移,让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。
