当前位置: 首页 > news >正文

Cog-DRIFT:自适应任务重构,突破 RLVR 的零信号困境

论文日报 2026-04-10

今日精选论文

Cog-DRIFT:自适应任务重构,突破 RLVR 的"零信号困境"

字段 内容
论文标题 Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems
arXiv ID 2604.04767
发布日期 2026-04-06
作者 Justin Chih-Yao Chen, Archiki Prasad, Zaid Khan, Joykirat Singh, Runchu Tian, Elias Stengel-Eskin, Mohit Bansal
机构 University of North Carolina at Chapel Hill(UNC Chapel Hill),美国
开源代码 github.com/dinobby/Cog-DRIFT
论文链接 https://arxiv.org/abs/2604.04767

背景与动机

近两年来,RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)已成为提升 LLM 推理能力的核心后训练范式,代表工作包括 GRPO(DeepSeek-R1 使用的训练策略)、ReVal 等。然而 RLVR 存在一个被普遍忽视却至关重要的根本性缺陷:

当问题对于当前策略来说太难,模型完全无法解答时,奖励信号为零,训练陷入僵局。

这个问题在以下情境中尤为突出:

  • 数学竞赛级别的高难题(AMC、MATH-Hard 等)
  • 多步逻辑推理链较长的任务
  • 模型能力边界附近的"接近不可能"问题

传统做法是调大 pass@k 或引入 KL 正则化来维持探索,但这些方法并不能从根本上解决"零信号"带来的训练停滞问题。


核心方法:认知重构(Cognitive Reformulation)+ 自适应课程

Cog-DRIFT 提出了一种全新的解题路径:不改变问题的答案,而是改变问题呈现的认知难度

1. 任务重构(Task Reformulation)

将困难的开放式问题自动转换为结构化程度更高、搜索空间更小的变体形式:

重构类型 说明 示例
多项选择(MC) 提供 4 个候选答案,模型只需识别正确选项 开放式方程求解 → "下列哪个是正确答案?"
完形填空(Fill-in-the-blank) 给出部分解题步骤,填入关键空缺 减少完整推理链长度
渐进提示(Scaffolded) 提供中间推理步骤作为引导 分解复杂问题为子问题链

这些重构形式均保留原题的正确答案,确保模型学到的是真正有效的推理模式,而非通过选择题格式"走捷径"。

2. 自适应课程(Adaptive Curriculum)

Cog-DRIFT 并非静态应用一种重构方式,而是实现了难度感知的动态调度:

训练阶段:Stage 1: 结构化格式(多项选择、填空)→ 为模型建立基础推理能力Stage 2: 半开放格式(带提示的推理)→ 逐步减少脚手架支持Stage 3: 原始开放格式              → 在完整任务上验证迁移效果

核心思想是模仿人类学习的认知脚手架(Cognitive Scaffolding)——先在降低难度的环境中建立信心和推理模式,再逐步移除支撑,最终在原始困难环境中表现更好。

3. 与标准 GRPO 的关键区别

维度 标准 GRPO Cog-DRIFT
遇到太难的问题 跳过/奖励为零 动态重构,产生学习信号
奖励信号密度 稀疏(难题全为 0) 密集(重构变体有正奖励)
课程策略 从易到难自适应
开放式问题性能 基准 +4.72%(Qwen)/ +3.23%(Llama)

实验结果

主要基准对比

Qwen-2.5-7B-InstructLlama-3.1-8B-Instruct 两个底座模型上,跨 6 个推理基准(MATH-500、AMC-2023、AIME 2024、OlympiadBench、Minerva Math、GSM8K)测试:

方法 Qwen 底座(平均) Llama 底座(平均)
标准 GRPO 基准线 基准线
STILL-3(强探索基线) +2.1% +1.8%
Cog-DRIFT +4.72% +3.23%

对"零信号"问题的突破性提升

重点关注原本在标准 GRPO 下 pass@1 = 0 的难题(即完全解不出来的问题),Cog-DRIFT 的绝对提升:

  • Qwen 底座:+10.11%
  • Llama 底座:+8.64%

这是最有说服力的结果——它意味着 Cog-DRIFT 让模型学会了以前完全学不到的能力,而非只是微调已有能力。

样本效率提升

Cog-DRIFT 同时提升了 pass@k(k>1),说明训练后模型的推理多样性更好:

  • pass@4 在 AMC 上较 GRPO 提升约 7%
  • 在相同训练步数下,Cog-DRIFT 达到 GRPO 最终性能所需数据量减少约 30%

研究价值与工程启示

理论价值:

  • 首次从认知科学的"脚手架学习"视角重新设计 RLVR 的探索策略
  • 揭示了 RLVR 的"零信号盲区"是一个系统性问题,而非个别模型缺陷
  • 提出了"任务重构空间"作为奖励信号密度的调节维度

工程价值:

  • 与 GRPO/PPO 等训练框架正交,可直接插拔
  • 无需额外标注数据,重构过程可程序化自动生成
  • 代码已开源,可快速集成到现有后训练 pipeline

潜在局限:

  • 重构质量依赖于自动化生成流程,低质量重构可能引入噪声
  • 目前验证集中于数学推理,在代码生成、函数调用等领域的效果有待验证
  • 三阶段课程设计中的超参数(阶段切换时机)较为敏感

与历史推送的联系

本期论文与此前推送的相关方向有直接联系:

  • ReVal(03-30):也解决 RLVR 训练中的奖励信号质量问题,但 ReVal 从 off-policy 角度入手,Cog-DRIFT 从问题重构角度入手,两种方法互补
  • Apriel-Reasoner(04-03):多领域顺序 RL post-training,Cog-DRIFT 的课程机制可以作为其数据组织策略的补充
  • Speculative Decoding(04-01):推理期加速;Cog-DRIFT 专注训练期优化,两者覆盖 LLM 研发的不同阶段

扩展阅读(2026-04-05 至 04-10)

以下 4 篇论文为本周高质量新作,感兴趣可进一步阅读:

1. AsyncTLS:异步两级稀疏注意力推理加速

arXiv: 2604.07815 | 发布: 2026-04-09 | 机构: 中国人民大学 + 美团

将粗粒度块过滤(效率)与细粒度 Token 选择(精度)分层结合,配以异步卸载引擎,将 KV 缓存传输与计算完全重叠。在 Qwen3 / GLM-4.7-Flash 的 48k–96k 长上下文推理中,算子加速 1.2x–10x,端到端吞吐提升 1.3x–4.7x。国内机构主导的系统工作,工程实现质量高。

2. Graph-Based CoT Pruning:图化链式推理的冗余剪枝

arXiv: 2604.05643 | 发布: 2026-04-07

将线性 CoT 转化为有向无环图(DAG),识别两类冗余反思行为(无差别检查 vs 重复验证),通过分支级和深度级双重剪枝 + SFT→DPO→GRPO 三阶段蒸馏,平均减少 42% 推理 Token,准确率持平或提升。对"推理模型输出过长"这一工程痛点提供了结构化解法。

3. MegaTrain:单 GPU 全精度训练 100B+ 大模型

arXiv: 2604.05091 | 发布: 2026-04-06

将参数和优化器状态全部卸载至 CPU 内存,GPU 作为无状态计算引擎,通过流水线双缓冲执行引擎隐藏 PCIe 带宽延迟。在单 H200 GPU 上可全精度训练 1200 亿参数模型,14B 模型吞吐量达 DeepSpeed ZeRO-3 的 1.84 倍。是单机大模型训练方向的重要系统工作。

4. In-Place Test-Time Training:让大模型边推理边学习

arXiv: 2604.06169 | 发布: 2026-04-08

无需任何架构改动,将 Transformer MLP 的输出投影矩阵复用为"快权重",在推理时基于下一 Token 预测目标实时更新,实现"即插即用持续学习"。摒弃传统 TTT 的自监督重建损失,改用与语言建模目标对齐的预测损失,是测试时适应领域的新型范式。


参考资料

  1. Cog-DRIFT arXiv 论文页
  2. Cog-DRIFT 开源代码(GitHub)
  3. ArXiv AI Research Digest 2026-04-08 (GitHub: agents-radar)
  4. AsyncTLS arXiv 论文页
  5. Graph-Based CoT Pruning arXiv 论文页
  6. MegaTrain arXiv 论文页
  7. In-Place Test-Time Training arXiv 论文页
  8. Arxiv 今日论文 2026-04-09(闲记算法)
  9. 微信公众号:LLM 每日精选(Cog-DRIFT 相关推送)
  10. Paper Digest: Most Influential ArXiv CL Papers 2026-04
http://www.jsqmd.com/news/734696/

相关文章:

  • Python核心特性解析:从动态类型到元类编程
  • 为 OpenClaw 智能体配置 Taotoken 作为后端模型服务
  • API Key的精细化管理与审计,Taotoken控制台的安全功能体验
  • 强化学习在GeoAgent定位优化中的实践与突破
  • 企业培训采购策略:如何构建一个高效的AI培训供应商评估体系
  • MoE架构大语言模型安全漏洞分析与GateBreaker测试框架
  • PHP开发者必看的AI架构升级路线图(Laravel 12深度适配版):基于真实SaaS项目压测数据——推理延迟降低68%,内存占用下降41%
  • 终极iOS微信抢红包插件:毫秒级响应与后台运行完整指南
  • 三步搞定B站视频下载:告别在线限制,打造个人离线视频库
  • Onekey免费Steam游戏清单下载器:3分钟极速上手教程
  • 管理员端界面设计与分析
  • 计算机硬件常见问题及维护手册:从故障诊断到日常保养的完整指南
  • GPT-Image-2 Prompt 亲测模板,直接抄作业(喂饭版)
  • B站缓存视频无损转换完全指南:5秒完成m4s到MP4格式转换
  • BilibiliDown音频提取全攻略:从视频到高品质音频的一站式解决方案
  • 如何快速掌握硬件信息修改:技术爱好者的终极教程
  • 【自适应天线与相控阵技术】用于评估自适应相控阵的聚焦近场技术
  • CXL设备复位、初始化与管理:从PCIe老司机到CXL新手的避坑指南
  • 利用 Taotoken CLI 工具一键配置多开发环境与统一密钥
  • 学习记录:机器学习案例——泰坦尼克号生存预测(二):逻辑回归、单棵决策树、随机森林
  • 5.1考试总结
  • 基于Ol+geoserver的OGC协议验证平台开发日志——8、使用ogc-wps进行空间分析
  • 不管你是不是编程行业,Claude Code对于工作进程的重大改变你都需要了解!!
  • springboot 对接微信支付V2退款
  • 如何用AcFunDown三步搞定A站视频批量下载:新手完全指南
  • 8【自适应天线与相控阵技术】相控阵天线——导论
  • 蓝桥杯软件测试模拟赛实战复盘:Selenium自动化测试那些坑(附完整Python代码)
  • 大模型量化技术全景解析——从 INT8/FP8 到 GPTQ/AWQ/SmoothQuant,工程师必知的精度压缩之
  • 崩坏星穹铁道自动化助手:三月七小助手全功能使用指南
  • Windows/Linux/Mac三平台对比:Conda环境激活命令到底差在哪?附一键配置脚本