论文日报 2026-04-10
今日精选论文
Cog-DRIFT:自适应任务重构,突破 RLVR 的"零信号困境"
| 字段 | 内容 |
|---|---|
| 论文标题 | Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems |
| arXiv ID | 2604.04767 |
| 发布日期 | 2026-04-06 |
| 作者 | Justin Chih-Yao Chen, Archiki Prasad, Zaid Khan, Joykirat Singh, Runchu Tian, Elias Stengel-Eskin, Mohit Bansal |
| 机构 | University of North Carolina at Chapel Hill(UNC Chapel Hill),美国 |
| 开源代码 | github.com/dinobby/Cog-DRIFT |
| 论文链接 | https://arxiv.org/abs/2604.04767 |
背景与动机
近两年来,RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)已成为提升 LLM 推理能力的核心后训练范式,代表工作包括 GRPO(DeepSeek-R1 使用的训练策略)、ReVal 等。然而 RLVR 存在一个被普遍忽视却至关重要的根本性缺陷:
当问题对于当前策略来说太难,模型完全无法解答时,奖励信号为零,训练陷入僵局。
这个问题在以下情境中尤为突出:
- 数学竞赛级别的高难题(AMC、MATH-Hard 等)
- 多步逻辑推理链较长的任务
- 模型能力边界附近的"接近不可能"问题
传统做法是调大 pass@k 或引入 KL 正则化来维持探索,但这些方法并不能从根本上解决"零信号"带来的训练停滞问题。
核心方法:认知重构(Cognitive Reformulation)+ 自适应课程
Cog-DRIFT 提出了一种全新的解题路径:不改变问题的答案,而是改变问题呈现的认知难度。
1. 任务重构(Task Reformulation)
将困难的开放式问题自动转换为结构化程度更高、搜索空间更小的变体形式:
| 重构类型 | 说明 | 示例 |
|---|---|---|
| 多项选择(MC) | 提供 4 个候选答案,模型只需识别正确选项 | 开放式方程求解 → "下列哪个是正确答案?" |
| 完形填空(Fill-in-the-blank) | 给出部分解题步骤,填入关键空缺 | 减少完整推理链长度 |
| 渐进提示(Scaffolded) | 提供中间推理步骤作为引导 | 分解复杂问题为子问题链 |
这些重构形式均保留原题的正确答案,确保模型学到的是真正有效的推理模式,而非通过选择题格式"走捷径"。
2. 自适应课程(Adaptive Curriculum)
Cog-DRIFT 并非静态应用一种重构方式,而是实现了难度感知的动态调度:
训练阶段:Stage 1: 结构化格式(多项选择、填空)→ 为模型建立基础推理能力Stage 2: 半开放格式(带提示的推理)→ 逐步减少脚手架支持Stage 3: 原始开放格式 → 在完整任务上验证迁移效果
核心思想是模仿人类学习的认知脚手架(Cognitive Scaffolding)——先在降低难度的环境中建立信心和推理模式,再逐步移除支撑,最终在原始困难环境中表现更好。
3. 与标准 GRPO 的关键区别
| 维度 | 标准 GRPO | Cog-DRIFT |
|---|---|---|
| 遇到太难的问题 | 跳过/奖励为零 | 动态重构,产生学习信号 |
| 奖励信号密度 | 稀疏(难题全为 0) | 密集(重构变体有正奖励) |
| 课程策略 | 无 | 从易到难自适应 |
| 开放式问题性能 | 基准 | +4.72%(Qwen)/ +3.23%(Llama) |
实验结果
主要基准对比
在 Qwen-2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 两个底座模型上,跨 6 个推理基准(MATH-500、AMC-2023、AIME 2024、OlympiadBench、Minerva Math、GSM8K)测试:
| 方法 | Qwen 底座(平均) | Llama 底座(平均) |
|---|---|---|
| 标准 GRPO | 基准线 | 基准线 |
| STILL-3(强探索基线) | +2.1% | +1.8% |
| Cog-DRIFT | +4.72% | +3.23% |
对"零信号"问题的突破性提升
重点关注原本在标准 GRPO 下 pass@1 = 0 的难题(即完全解不出来的问题),Cog-DRIFT 的绝对提升:
- Qwen 底座:+10.11%
- Llama 底座:+8.64%
这是最有说服力的结果——它意味着 Cog-DRIFT 让模型学会了以前完全学不到的能力,而非只是微调已有能力。
样本效率提升
Cog-DRIFT 同时提升了 pass@k(k>1),说明训练后模型的推理多样性更好:
- pass@4 在 AMC 上较 GRPO 提升约 7%
- 在相同训练步数下,Cog-DRIFT 达到 GRPO 最终性能所需数据量减少约 30%
研究价值与工程启示
理论价值:
- 首次从认知科学的"脚手架学习"视角重新设计 RLVR 的探索策略
- 揭示了 RLVR 的"零信号盲区"是一个系统性问题,而非个别模型缺陷
- 提出了"任务重构空间"作为奖励信号密度的调节维度
工程价值:
- 与 GRPO/PPO 等训练框架正交,可直接插拔
- 无需额外标注数据,重构过程可程序化自动生成
- 代码已开源,可快速集成到现有后训练 pipeline
潜在局限:
- 重构质量依赖于自动化生成流程,低质量重构可能引入噪声
- 目前验证集中于数学推理,在代码生成、函数调用等领域的效果有待验证
- 三阶段课程设计中的超参数(阶段切换时机)较为敏感
与历史推送的联系
本期论文与此前推送的相关方向有直接联系:
- ReVal(03-30):也解决 RLVR 训练中的奖励信号质量问题,但 ReVal 从 off-policy 角度入手,Cog-DRIFT 从问题重构角度入手,两种方法互补
- Apriel-Reasoner(04-03):多领域顺序 RL post-training,Cog-DRIFT 的课程机制可以作为其数据组织策略的补充
- Speculative Decoding(04-01):推理期加速;Cog-DRIFT 专注训练期优化,两者覆盖 LLM 研发的不同阶段
扩展阅读(2026-04-05 至 04-10)
以下 4 篇论文为本周高质量新作,感兴趣可进一步阅读:
1. AsyncTLS:异步两级稀疏注意力推理加速
arXiv: 2604.07815 | 发布: 2026-04-09 | 机构: 中国人民大学 + 美团
将粗粒度块过滤(效率)与细粒度 Token 选择(精度)分层结合,配以异步卸载引擎,将 KV 缓存传输与计算完全重叠。在 Qwen3 / GLM-4.7-Flash 的 48k–96k 长上下文推理中,算子加速 1.2x–10x,端到端吞吐提升 1.3x–4.7x。国内机构主导的系统工作,工程实现质量高。
2. Graph-Based CoT Pruning:图化链式推理的冗余剪枝
arXiv: 2604.05643 | 发布: 2026-04-07
将线性 CoT 转化为有向无环图(DAG),识别两类冗余反思行为(无差别检查 vs 重复验证),通过分支级和深度级双重剪枝 + SFT→DPO→GRPO 三阶段蒸馏,平均减少 42% 推理 Token,准确率持平或提升。对"推理模型输出过长"这一工程痛点提供了结构化解法。
3. MegaTrain:单 GPU 全精度训练 100B+ 大模型
arXiv: 2604.05091 | 发布: 2026-04-06
将参数和优化器状态全部卸载至 CPU 内存,GPU 作为无状态计算引擎,通过流水线双缓冲执行引擎隐藏 PCIe 带宽延迟。在单 H200 GPU 上可全精度训练 1200 亿参数模型,14B 模型吞吐量达 DeepSpeed ZeRO-3 的 1.84 倍。是单机大模型训练方向的重要系统工作。
4. In-Place Test-Time Training:让大模型边推理边学习
arXiv: 2604.06169 | 发布: 2026-04-08
无需任何架构改动,将 Transformer MLP 的输出投影矩阵复用为"快权重",在推理时基于下一 Token 预测目标实时更新,实现"即插即用持续学习"。摒弃传统 TTT 的自监督重建损失,改用与语言建模目标对齐的预测损失,是测试时适应领域的新型范式。
参考资料
- Cog-DRIFT arXiv 论文页
- Cog-DRIFT 开源代码(GitHub)
- ArXiv AI Research Digest 2026-04-08 (GitHub: agents-radar)
- AsyncTLS arXiv 论文页
- Graph-Based CoT Pruning arXiv 论文页
- MegaTrain arXiv 论文页
- In-Place Test-Time Training arXiv 论文页
- Arxiv 今日论文 2026-04-09(闲记算法)
- 微信公众号:LLM 每日精选(Cog-DRIFT 相关推送)
- Paper Digest: Most Influential ArXiv CL Papers 2026-04
