当前位置：首页 > news >正文

LLM强化学习从入门到精通：Composition-RL全解析，收藏这篇就够了！

news 2026/6/18 11:17:57

🎯 为什么我们需要Composition-RL？

想象一下：你正在备考数学竞赛，一开始做的都是基础题。随着练习增多，你能轻松答对所有基础题，但这些简单题已经无法帮你进步了——你需要更难的题目来提升能力。

这正是LLM强化学习训练中遇到的困境。自从OpenAI o1和DeepSeek R1问世以来，RLVR（可验证奖励强化学习）成为了提升LLM推理能力的核心技术。它通过自动验证的"对/错"信号替代人工打分，大幅降低了训练成本，同时显著提升了模型的慢思考能力（Long Chain of Thought）。

但RLVR有个致命的问题：随着训练推进，越来越多的提示会变成"简单题"。当模型能100%答对某个提示时（即pass@1=1），这个提示就无法再提供有效的梯度信号——因为所有响应的奖励都是1，优势（Advantage）为0，模型参数不会有任何更新。

之前的研究都聚焦于如何处理"难题"（pass@1=0的提示），比如给模型加提示、分配更多采样次数等。但没人关注这些"简单题"——它们在训练后期会占据很大比例，白白浪费了宝贵的数据资源。

这就是Composition-RL要解决的问题：把"简单题"组合成"难题"，让已经学透的提示重新发挥价值。

📖 核心思路：用提示组合制造新的训练信号

Composition-RL的核心思想非常直观：既然单个提示太简单，那我们就把多个简单提示组合成一个更复杂的新提示，让模型在解决复合问题的过程中继续学习。

🔧 Sequential Prompt Composition（SPC）：如何组合提示？

作者提出了顺序提示组合（SPC）方法，具体分为三步：

提取数值结果：从第一个提示的正确答案中提取数值（比如数学题的解）
替换第二个提示：把第二个提示中的某个数值替换成第一个提示的结果
生成复合提示：将修改后的第二个提示包装成一个新的复合问题

图1：上方是两个数学题组合的示例，下方左图展示了不同方法在AIME24数据集上的训练曲线，右图展示了跨领域组合的效果

举个例子：

提示1：“计算3+5的结果” → 答案是8
提示2：“计算x2的结果，其中x=4" → 把x替换成8，变成"计算82的结果”
复合提示：“先计算3+5的结果，再用该结果乘以2，最终答案是多少？”

这种组合方式的妙处在于：它保留了原始提示的推理链，同时增加了问题的复杂度。模型不仅要解决两个子问题，还要理解它们之间的依赖关系。

🚀 Composition-RL：把组合提示融入强化学习

在SPC的基础上，作者提出了Composition-RL训练框架：

动态组合提示：在每个训练步骤中，从当前的训练集中随机选取K个提示，用SPC生成复合提示
混合训练数据：将原始提示和复合提示混合作为新的训练集
渐进式难度提升：使用课程学习（Curriculum Learning），随着训练推进逐渐增加组合深度K

这种设计有两个关键优势：

充分利用已有数据：不需要额外收集新的提示，就能生成无限多的复合问题
持续提供有效梯度：复合问题的pass@1通常低于1，能持续为模型提供训练信号

🧪 实验结果：简单方法带来显著提升

作者在多个数据集和模型规模上做了实验，结果非常亮眼：

1. 复合提示确实能提升RL训练效果

在MATH12K数据集上训练Qwen3-4B-Base模型时，Composition-RL的表现远超基线方法：

图2：左图展示了使用原始提示和复合提示训练时，solve_all比例的变化曲线；右图展示了原始提示和复合提示的测试准确率对比

使用复合提示训练的模型，solve_all比例的增长速度明显更慢（左图）
复合提示的测试准确率虽然低于原始提示，但能为训练提供持续的梯度信号

2. 课程学习进一步放大效果

当使用课程学习逐渐增加组合深度K时，模型的表现进一步提升：

在AIME24数据集上，K=3的组合提示训练的模型，pass@1比原始提示训练的模型高2.1个百分点
训练曲线显示，Composition-RL的提升效果随着训练步骤增加而持续扩大（图1下方左图）

3. 跨领域组合带来意外惊喜

更让人惊讶的是跨领域组合的效果：把不同领域的提示组合在一起（比如数学和物理），训练出的模型在原始领域上的表现竟然比同领域组合更好！

在MMLU-Pro的5个大样本量主题上，跨领域组合的模型在4个主题上的表现都超过了同领域组合（图1下方右图）。这说明复合提示能帮助模型学习到更通用的推理能力，而不仅仅是领域内的技巧。

4. 消融实验：候选集的重要性

作者还做了消融实验，研究候选集𝒟ₖ的大小对结果的影响：

图3：不同候选集大小下，模型在MATH500数据集上的pass@1表现

实验结果表明：

候选集越大，模型的表现越好
当候选集大小超过1000时，模型的表现趋于稳定

这说明Composition-RL需要足够多的候选提示来生成多样化的复合问题，才能达到最佳效果。

🔬 为什么Composition-RL有效？

作者从两个角度分析了Composition-RL的有效性：

1. 组合泛化能力

Composition-RL能帮助模型学习到组合泛化能力——即解决从未见过的复合问题的能力。这种能力是人类智能的核心，也是LLM推理能力的关键。

当模型解决大量复合问题后，它会逐渐理解不同问题之间的依赖关系，学会把复杂问题拆解成简单问题来解决。这种能力能迁移到原始领域，提升模型在简单问题上的表现。

2. 隐式过程监督

复合问题的解决过程本身就是一种隐式的过程监督。当模型解决复合问题时，它需要先解决第一个子问题，再用结果解决第二个子问题。这个过程迫使模型生成更严谨的推理链，减少了跳步和错误。

这种隐式监督和RLHF中的过程监督类似，但不需要人工标注推理链——完全由数据自动生成。

💡 我的观点与启发

1. 工程落地的可行性

Composition-RL的一大优势是工程实现简单：不需要修改RLVR的核心算法，只需要在数据加载阶段加入提示组合的逻辑。这意味着它可以很容易地集成到现有的RLVR训练框架中。

但在实际落地时，需要注意以下几点：

提示筛选：不是所有提示都适合组合。需要筛选出包含数值结果的提示，或者设计更通用的组合方式（比如针对自然语言问题的组合）
计算成本：组合提示会增加训练的计算量，因为复合问题通常更长。但考虑到它能提升训练效率，总体来看是划算的
验证器适配：需要确保验证器能正确处理复合问题的答案。这可能需要修改验证器的逻辑，或者设计通用的验证方法

2. 未来研究方向

Composition-RL还有很多可以拓展的方向：

更通用的组合方式：当前的SPC只支持数值替换，可以拓展到自然语言问题的组合（比如"先总结文章A，再根据总结回答问题B"）
自适应组合策略：根据模型的实时表现，动态调整组合深度和候选集大小，实现更高效的训练
多模态提示组合：把文本提示和图像提示组合在一起，提升多模态模型的推理能力

3. 对RLVR未来的思考

Composition-RL的成功说明：在RLVR训练中，数据质量比数据数量更重要。与其盲目收集更多数据，不如想办法挖掘现有数据的潜力。

未来的RLVR研究可能会更多地关注数据高效利用的方法，比如提示组合、数据增强、动态采样等。这些方法能在不增加数据收集成本的前提下，大幅提升模型的训练效果。

📊 方法对比：Composition-RL与其他RLVR增强技术

方法	核心思想	优势	劣势
Composition-RL	组合简单提示成复合问题	充分利用已有数据，实现简单	依赖数值型提示，组合方式有限
硬提示加权	给pass@1=0的提示分配更多采样次数	提升难题的训练效果	忽略了简单提示的价值
提示增强	给提示添加额外信息或提示	提升模型对难题的理解	需要人工设计提示模板
动态采样	过滤掉pass@1=0或1的提示	只保留有价值的提示	浪费了大量已收集的数据

🎯 总结

Composition-RL是一种简单但有效的RLVR增强技术，它通过组合已有的简单提示生成复合问题，解决了RLVR训练后期提示失效的问题。实验结果表明，Composition-RL能持续提升模型的推理能力，尤其是在结合课程学习时效果更明显。

这种方法的最大价值在于：它用最小的工程代价，挖掘了已有数据的最大潜力。在数据收集成本越来越高的今天，这种数据高效利用的方法值得我们深入研究和推广。

Composition-RL的成功也给了我们一个启示：有时候，最有效的创新往往不是提出复杂的新算法，而是换个角度看待旧问题——把"无用"的简单题变成"有用"的复合题，就能让模型持续进步。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～