当前位置：首页 > news >正文

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

news 2026/6/27 2:17:20

Composition-RL 论文总结与核心部分翻译

一、文章主要内容

该论文聚焦于带可验证奖励的强化学习（RLVR）中训练提示的高效利用问题。RLVR的成功依赖大规模可验证提示，但这类提示存在大量无信息样本（如通过率为0或1的提示），且扩展成本高昂。现有研究多关注利用率为0的“难提示”，却忽视了训练过程中占比逐渐增加的通过率为1的“易提示”，导致有效训练数据规模缩减。

为此，论文提出Composition-RL方法，通过自动组合多个现有提示生成新的可验证问题，将“易提示”转化为更具挑战性的训练样本，用于LLM的强化学习训练。核心流程基于顺序提示组合（SPC）：先从两个提示的真值答案中提取数值并定义变量，再修改提示中的数值为变量，最后通过自然语言描述变量关系连接两个提示，形成新提示；该过程可递归扩展至K个提示的组合（组合深度为K）。

实验验证方面，论文在4B到30B不同规模的Qwen模型上进行了大量实验，涵盖数学推理（AIME24/25、Beyond AIME等）和多任务推理（GPQA-Diamond、MMLU-Pro等）基准。结果表明，Composition-RL在域内和域外任务中均优于基于原始提示的RL训练，且组合深度递增的课程学习变体可进一步提升性能；跨领域实验（组合物理和数学提示）显示其在跨域RL训练中也具备显著优势。

二、核心创新点

聚焦“易提示”利用缺口：首次针对RLVR中通过率为1的“易提示”设计高效利用方案，填补了

http://www.jsqmd.com/news/474939/

相关文章：

避坑指南：用Python的OP模块开发游戏脚本时遇到的5个常见问题

从零理解NP-Hard：程序员如何用近似算法搞定这些‘不可能’问题？

ChatGPT登录失败问题深度解析：从诊断到修复的实战指南

【TJXT】Day 12

python入门基础练习

从平面到立体：ArcGIS Pro与Aerialod协同打造三维夜间灯光分布图

手把手教你开发游戏派单小程序：从注册登录到财务对账的完整配置流程

实时对比展示：伏羲AI模型、欧洲中心ECMWF及美国GFS全球预报效果

万维网30年进化史：从HTTP/1.0到HTTP/3的底层协议变革

学习笔记-计算机存储与数据表示基础

为什么你的UVM重载不生效？详解factory机制4大必备条件（附排查清单）

ChatGPT显示Unable to Load Site错误：诊断与修复指南

从CANoe到TSMaster：资深工程师的汽车软件工具链进阶实战指南

【技术解析】Mask2Former：基于掩码注意力的通用图像分割新范式

避坑指南：HyperMesh四面体网格划分失败的7个常见原因及修复方法（附错误案例）

文墨共鸣大模型SolidWorks设计文档智能分析与摘要生成

【C语言简明教程提纲】(三):字符串与编译预处理

【OpenClaw】Edict 三省六部制使用与实战流程

Tao-8k模型API调用异常处理大全：从403 Forbidden到连接超时

从R到Posit：数据科学家的现代统计计算环境全解析

Xray实战指南：从零构建自动化Web漏洞扫描体系

乐鑫Wi-Fi模组量产测试：信号板方案原理与工程落地

数据中心网络工程师必备：BGP与VXLAN EVPN协同配置全解析

ESP32-S3-WROOM-1与WROOM-1U模组硬件解析与工程落地指南

Transformer模型、整体结构，编码器与解码器内部组成

手把手教你用MedGemma-X：AI影像诊断助手5分钟快速部署

OpenCode场景应用：程序员通勤路上用手机写代码，回家无缝衔接

内联函数，函数的缺省值，函数重载，右值引用

谷歌Gemini Pro API vs ChatGPT API：免费、配置难度与性能对比

AI 辅助开发实战：高效完成基于 Spring Boot 的 JavaWeb 毕设项目