当前位置：首页 > news >正文

Cog-DRIFT：自适应任务重构，突破 RLVR 的零信号困境

news 2026/5/1 23:55:19

论文日报 2026-04-10

今日精选论文

Cog-DRIFT：自适应任务重构，突破 RLVR 的"零信号困境"

字段	内容
论文标题	Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems
arXiv ID	2604.04767
发布日期	2026-04-06
作者	Justin Chih-Yao Chen, Archiki Prasad, Zaid Khan, Joykirat Singh, Runchu Tian, Elias Stengel-Eskin, Mohit Bansal
机构	University of North Carolina at Chapel Hill（UNC Chapel Hill），美国
开源代码	github.com/dinobby/Cog-DRIFT
论文链接	https://arxiv.org/abs/2604.04767

背景与动机

近两年来，RLVR（Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习）已成为提升 LLM 推理能力的核心后训练范式，代表工作包括 GRPO（DeepSeek-R1 使用的训练策略）、ReVal 等。然而 RLVR 存在一个被普遍忽视却至关重要的根本性缺陷：

当问题对于当前策略来说太难，模型完全无法解答时，奖励信号为零，训练陷入僵局。

这个问题在以下情境中尤为突出：

数学竞赛级别的高难题（AMC、MATH-Hard 等）
多步逻辑推理链较长的任务
模型能力边界附近的"接近不可能"问题

传统做法是调大 pass@k 或引入 KL 正则化来维持探索，但这些方法并不能从根本上解决"零信号"带来的训练停滞问题。

核心方法：认知重构（Cognitive Reformulation）+ 自适应课程

Cog-DRIFT 提出了一种全新的解题路径：不改变问题的答案，而是改变问题呈现的认知难度。

1. 任务重构（Task Reformulation）

将困难的开放式问题自动转换为结构化程度更高、搜索空间更小的变体形式：

重构类型	说明	示例
多项选择（MC）	提供 4 个候选答案，模型只需识别正确选项	开放式方程求解 → "下列哪个是正确答案？"
完形填空（Fill-in-the-blank）	给出部分解题步骤，填入关键空缺	减少完整推理链长度
渐进提示（Scaffolded）	提供中间推理步骤作为引导	分解复杂问题为子问题链

这些重构形式均保留原题的正确答案，确保模型学到的是真正有效的推理模式，而非通过选择题格式"走捷径"。

2. 自适应课程（Adaptive Curriculum）

Cog-DRIFT 并非静态应用一种重构方式，而是实现了难度感知的动态调度：

训练阶段:Stage 1: 结构化格式（多项选择、填空）→ 为模型建立基础推理能力Stage 2: 半开放格式（带提示的推理）→ 逐步减少脚手架支持Stage 3: 原始开放格式              → 在完整任务上验证迁移效果

核心思想是模仿人类学习的认知脚手架（Cognitive Scaffolding）——先在降低难度的环境中建立信心和推理模式，再逐步移除支撑，最终在原始困难环境中表现更好。

3. 与标准 GRPO 的关键区别

维度	标准 GRPO	Cog-DRIFT
遇到太难的问题	跳过/奖励为零	动态重构，产生学习信号
奖励信号密度	稀疏（难题全为 0）	密集（重构变体有正奖励）
课程策略	无	从易到难自适应
开放式问题性能	基准	+4.72%（Qwen）/ +3.23%（Llama）

实验结果

主要基准对比

在 Qwen-2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 两个底座模型上，跨 6 个推理基准（MATH-500、AMC-2023、AIME 2024、OlympiadBench、Minerva Math、GSM8K）测试：

方法	Qwen 底座（平均）	Llama 底座（平均）
标准 GRPO	基准线	基准线
STILL-3（强探索基线）	+2.1%	+1.8%
Cog-DRIFT	+4.72%	+3.23%

对"零信号"问题的突破性提升

重点关注原本在标准 GRPO 下 pass@1 = 0 的难题（即完全解不出来的问题），Cog-DRIFT 的绝对提升：

Qwen 底座：+10.11%
Llama 底座：+8.64%

这是最有说服力的结果——它意味着 Cog-DRIFT 让模型学会了以前完全学不到的能力，而非只是微调已有能力。

样本效率提升

Cog-DRIFT 同时提升了 pass@k（k>1），说明训练后模型的推理多样性更好：

pass@4 在 AMC 上较 GRPO 提升约 7%
在相同训练步数下，Cog-DRIFT 达到 GRPO 最终性能所需数据量减少约 30%

研究价值与工程启示

理论价值：

首次从认知科学的"脚手架学习"视角重新设计 RLVR 的探索策略
揭示了 RLVR 的"零信号盲区"是一个系统性问题，而非个别模型缺陷
提出了"任务重构空间"作为奖励信号密度的调节维度

工程价值：

与 GRPO/PPO 等训练框架正交，可直接插拔
无需额外标注数据，重构过程可程序化自动生成
代码已开源，可快速集成到现有后训练 pipeline

潜在局限：

重构质量依赖于自动化生成流程，低质量重构可能引入噪声
目前验证集中于数学推理，在代码生成、函数调用等领域的效果有待验证
三阶段课程设计中的超参数（阶段切换时机）较为敏感

与历史推送的联系

本期论文与此前推送的相关方向有直接联系：

ReVal（03-30）：也解决 RLVR 训练中的奖励信号质量问题，但 ReVal 从 off-policy 角度入手，Cog-DRIFT 从问题重构角度入手，两种方法互补
Apriel-Reasoner（04-03）：多领域顺序 RL post-training，Cog-DRIFT 的课程机制可以作为其数据组织策略的补充
Speculative Decoding（04-01）：推理期加速；Cog-DRIFT 专注训练期优化，两者覆盖 LLM 研发的不同阶段

扩展阅读（2026-04-05 至 04-10）

以下 4 篇论文为本周高质量新作，感兴趣可进一步阅读：

1. AsyncTLS：异步两级稀疏注意力推理加速

arXiv: 2604.07815 | 发布： 2026-04-09 | 机构： 中国人民大学 + 美团

将粗粒度块过滤（效率）与细粒度 Token 选择（精度）分层结合，配以异步卸载引擎，将 KV 缓存传输与计算完全重叠。在 Qwen3 / GLM-4.7-Flash 的 48k–96k 长上下文推理中，算子加速 1.2x–10x，端到端吞吐提升 1.3x–4.7x。国内机构主导的系统工作，工程实现质量高。

2. Graph-Based CoT Pruning：图化链式推理的冗余剪枝

arXiv: 2604.05643 | 发布： 2026-04-07

将线性 CoT 转化为有向无环图（DAG），识别两类冗余反思行为（无差别检查 vs 重复验证），通过分支级和深度级双重剪枝 + SFT→DPO→GRPO 三阶段蒸馏，平均减少 42% 推理 Token，准确率持平或提升。对"推理模型输出过长"这一工程痛点提供了结构化解法。

3. MegaTrain：单 GPU 全精度训练 100B+ 大模型

arXiv: 2604.05091 | 发布： 2026-04-06

将参数和优化器状态全部卸载至 CPU 内存，GPU 作为无状态计算引擎，通过流水线双缓冲执行引擎隐藏 PCIe 带宽延迟。在单 H200 GPU 上可全精度训练 1200 亿参数模型，14B 模型吞吐量达 DeepSpeed ZeRO-3 的 1.84 倍。是单机大模型训练方向的重要系统工作。