当前位置: 首页 > news >正文

ICLR 2026|MathForge:用难题驱动强化学习,提升大模型数学推理

来源:机器之心 本文约3500字,建议阅读5分钟 MathForge 真正回答了一个非常关键的问题:在强化学习里,哪些题最值得学?

在大模型数学推理的强化学习中,一个看似简单、却长期没有被认真回答的问题是:模型在训练时,到底应该更重视哪些题目?

太容易的题,模型往往已经掌握,继续训练带来的收益有限;完全不会的题,在当前阶段又很难提供有效的正向学习信号。真正最值得投入训练预算的,往往是那些更难,但并非不可学的问题。

围绕这一点,中国人民大学高瓴人工智能学院联合阿里巴巴高德、厦门大学和大连理工大学的研究团队提出 MathForge:从算法和数据两端同时发力,让大模型在强化学习过程中更有效地攻克难题,从而显著提升数学推理能力。

  • 论文题目:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

  • 论文地址:https://arxiv.org/abs/2601.20614

  • 代码仓库:https://github.com/AMAP-ML/MathForge

一、为什么现有方法还不够「重视难题」?

近年来,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)的方法,已经成为提升大模型数学推理能力的重要路线。它不依赖额外训练奖励模型,而是直接通过规则检查答案是否正确,因此在数学这类“答案可验证”的任务上非常自然、也非常高效。

但这篇工作指出,现有方法对「难题」的忽视,实际上来自两个层面。

第一,是算法层面。

当前广泛使用的 GRPO,本质上是在同一道题生成的一组回答之间做相对比较,再决定更新方向和更新幅度。问题在于,这种机制并不会天然让模型更关注难题。相反,论文通过理论分析指出:GRPO 的更新强度会更偏向中等难度题,而对过难和过易题的更新反而会被压低。

这意味着在同一个训练批次中,那些真正能暴露模型短板、但又不是完全学不会的「难而可学」问题,未必能得到足够大的训练信号。模型最该花精力去学的题,不一定真的被重点学到了。

第二,是数据层面。

已有的数学推理数据增强方法,常见做法要么是从头生成新的题目和答案,要么只是对原题做简单重述。前者往往很难保证答案质量,尤其是高难度竞赛数学题;后者虽然提升了表述多样性,却没有真正提高了题目的内在难度。

二、MathForge:从算法和数据两端同时「锻造」模型

为了解决上面这两个问题,论文提出了一个双轮驱动框架 MathForge。它由两个核心部分组成:

  • DGPO:Difficulty-Aware Group Policy Optimization,难度感知的组策略优化

  • MQR:Multi-Aspect Question Reformulation,多方面问题改写

一个解决「怎么学」,一个解决「学什么」。

1. DGPO:让「更难但可学」的题真正被学到

DGPO 的核心思想,并不是一句简单的「给难题更高权重」,而是一个非常清晰的两步过程:先平衡,再重加权。

第一步,是 DGAE(Difficulty-balanced Group Advantage Estimation,难度平衡的组优势估计)。

作者发现,GRPO 中对优势的归一化方式会带来对不同难度问题的更新幅度的不平衡。具体来讲,GRPO 的优化目标如下:

在不考虑梯度剪裁的情况下,GRPO 的策略梯度如下:

把 GRPO 的梯度拆开来看,会发现优势项的符号决定更新方向,而优势项的绝对值决定更新幅度。所以,一道题对参数更新的整体影响,可以用组内所有回答优势绝对值之和来近似理解。

其中最值得注意的是那些困难但可答对的题目:它们正确率不高,但并不是完全不会做。作者认为这类题其实最有训练价值,因为它们恰好暴露了模型尚未掌握、但已经接近掌握的能力边界。

为此,DGAE 用平均绝对偏差(MAD)替代了原先的标准差归一化,其组相关优势的计算方式如下:

作者在下方的定理 2 中证明:在不依赖必须使用二值正确性奖励的情况下,DGAE 对每道题的总更新幅度为相等的定值 。这让不同题目的更新幅度变得更加平衡,不再天然偏向中等难度题。

第二步,是 DQW(Difficulty-aware Question-level Weighting,难度感知的问题级别加权)。

在更新幅度被拉平之后,DQW 再根据题目当前的平均正确率来估计难度,对那些更难、但仍有有效学习信号的问题赋予更高权重。具体的权重计算方式如下:

2. MQR:把问题改得更难,但答案不变

如果说 DGPO 回答的是「怎么学」,那么 MQR 回答的就是「学什么」。

MQR 不满足于对原题做浅层重述,而是系统性地从三个方向提升题目难度,同时严格保持原始标准答案不变。核心指令如下:

第一种是 Background。

给原题加入看似相关、但实际上会带来干扰的信息背景,让模型必须在更复杂的叙述里抓住真正关键的数学条件。

第二种是 Term。

给题目中的核心概念引入新的抽象术语,让模型不能只靠熟悉的表面表达来作答,而必须真正理解定义和结构。

第三种是 Sub-Problem。

把原题中的一个关键数值条件改造成一个需要先求解的小问题,再返回主问题。这会显著增加推理链条长度,也更考验模型的多步推理和跨领域推理能力。

构造数据时有一个严格的限制条件是:所有改写后的题目都必须保持原始 gold answer 不变。

这意味着,MQR 不是在重新造一套不稳定的新题,而是在尽量不破坏数学本质和标准答案的前提下,系统性地把同一道题改得更难、更有挑战性。这样既保证了训练信号的可靠性,也降低了额外数据构造的成本和难度。

三、实验结果:更难的训练,带来更强、更稳、更泛化的推理

实验结果非常清楚地说明了一点:更难的问题,确实更值得学。

如表 1 所示,在主实验设置下,无论是只使用 DGPO,还是只使用 MQR,都能明显超过强基线 GRPO;而当两者结合成完整的 MathForge 后,效果进一步达到最好,相比 GRPO 带来了超过 4.5 个点的平均提升。更重要的是,这个优势并不是只在单一对比下成立,而是在与多种已有强化学习优化方法比较时,依然保持了最强的整体表现。

进一步地,如表 2 所示,MathForge 在不同大小、不同类型的基础模型上都保持了稳定收益。从较小模型到 7B 级模型,它都能带来大约 3 到 4.5 个点的平均提升。这说明它并不是依赖某一个特定 backbone 的「技巧性调参」,而是一种更普适的训练原则。

在算法分析上,如表 3 所示,DGPO 的两个关键设计也都被验证是必要的:DGAE 负责先把不同难度问题的更新强度拉平,DQW 再把训练重点推向更难但可学的问题,两者是互补关系,而不是可有可无的附加项。与此同时,如表 4 所示,DGPO 还可以与多种现有强化学习方法直接结合,并继续带来额外收益,说明它并不是一个封闭替代方案,而更像是一种可插拔的通用增强机制。

更值得注意的是,这种「按难度组织学习」的思路并不只适用于文本数学任务。如表 5 所示,论文还把 DGPO 应用到了多模态数学推理场景中,结果同样比 GRPO 有超过 2 个点的提升。这说明 MathForge 所强调的,并不是某个特定数据集上的偶然技巧,而可能是一种更广泛适用的后训练思路:不同问题不应该被一视同仁,训练预算应该优先留给更难、但仍有学习价值的问题。

从数据角度看,MQR 的效果也并不只是「样本变多了」。如表 6 和表 7 所示,论文专门控制了总训练量后发现,使用 MQR 改写后的数据依然优于只用原始数据的训练版本;三种改写策略单独使用时都有效,组合起来效果最好。这意味着 MQR 真正带来的,是更有价值的训练样本,而不是简单的样本堆叠。更细致的难度分析还表明,这三类改写后的问题整体都比原题更难,其中把关键条件改造成子问题的方式最能拉高推理难度。

在训练动态方面,如图 1 所示,对于 DGPO 来说,模型不仅更准,而且输出还更简短,说明它学到的不是更冗长的推理,而是更高效的推理路径。

如图 2 所示,对于 MQR 来说,模型在训练阶段的准确率变得更低,但最终测试表现却反而更好,呈现出非常直观的「train harder, test better」现象。也就是说,更难的数据确实在逼着模型形成更强的泛化能力,而不是只在容易题上反复刷分。

四、总结

MathForge 真正回答了一个非常关键的问题:在强化学习里,哪些题最值得学?

答案不是最简单的题,也不是完全不会的题,而是那些更难、但仍然可学的问题。DGPO 负责让模型在训练中真正重视这类问题,MQR 负责稳定地产生这类问题。两者结合,最终把「更难的训练」转化成了「更强的推理」。

从这个意义上说,MathForge 的价值不只是把数学推理结果再往前推了一步,更重要的是它提供了一种非常清晰的训练观:不是所有样本都应该被平等对待,真正高价值的学习,往往发生在难而可学的边界地带。

这也正是这篇工作的标题想表达的核心:Harder Is Better。

代彦琪(个人主页:https://yanqidai.github.io/),现为人大高瓴四年级直博生、南洋理工大学访问学生,师从卢志武教授与张含望教授,主要研究方向为多模态大模型和强化学习。预计于 2027 年 6 月毕业,目前正积极寻求工业界发展机会。

编辑:文婧

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

http://www.jsqmd.com/news/808634/

相关文章:

  • 2026年5月南宁汽车音响改装门店优选指南:音响升级、隔音降噪专业选择参考 - 海棠依旧大
  • 甘肃冷库工程与制冷设备选购指南:本地五家企业优势与案例一览 - 深度智识库
  • 2026年5月绵阳酒店排行榜白皮书:电竞旅居标杆,首选品奢电竞酒店 - damaigeo
  • 避坑指南:ESP32-C3蓝牙通信中ESP_GATTS_READ_EVT事件的正确理解与数据更新时机
  • 避开这些坑!用PyTorch做医学图像分类(以糖网检测为例)的完整配置流程
  • 从Scratch到Micro:bit:如何用趣味STEM平台点燃孩子的科技创造力
  • 3大照片管理痛点,1个工具彻底解决:ExifToolGUI完全指南
  • 沃尔玛购物卡三种回收方式哪个更快? - 京顺回收
  • 从 SU02 到 Workbench Organizer,手工创建 Profile 的传输治理
  • Jasminum:如何用Zotero插件高效管理中文文献?
  • 从零到一:RT-Thread Nano在麦克纳姆轮小车上的移植与实战(基于CH32V103)
  • 永辉购物卡回收:3 分钟搞定的便捷变现方式 - 团团收购物卡回收
  • 分期乐购物额度回收:提升资金灵活性的实用方法 - 团团收购物卡回收
  • Cangaroo开源CAN总线分析器架构深度解析
  • 心旅之家心理赋能成长基地:武汉青少年网瘾矫正与休学厌学干预实效分析 - 2026年企业推荐榜
  • 鉴定江诗丹顿手表谁更专业?福州正规机构实测不踩坑 - 奢侈品回收测评
  • 2026年洛阳柴火鸡土菜馆选购指南:楠溪王捌鸡与行业5大品牌深度横评 - 优质企业观察收录
  • 从零配置SSH安全与连接:详解PasswordAuthentication、PermitRootLogin与ClientAlive策略
  • 2026年西安施工总承包资质新办哪家好?全面对比与推荐 - COINUP
  • 保姆级教程:CM311-1A盒子刷Armbian后,第一次开机必做的5项配置(含中文设置)
  • 2026煅烧炉十大厂家盘点|定制能力、售后口碑、技术实力全梳理——成都美卓美方化工科技实力解析 - 品牌推荐大师1
  • 终极Windows更新修复指南:5步使用Reset Windows Update Tool解决更新问题
  • 告别懵圈!手把手教你用CANoe实操UDS诊断中的ECU Reset(0x11服务)
  • 分段线性化(PWL)建模实战:从理论到Python+Gurobi代码解析
  • CC编程看到的不是少儿编程风口,而是普通家庭的科创教育需求 - 速递信息
  • 2026年5月南阳租车公司最新推荐:大巴、中巴、商务车租赁优选指南 - 海棠依旧大
  • 找口碑好的板面加盟连锁品牌 - 中媒介
  • AI写的小说,且行且看...
  • 空气循环炉哪家的机器耐用?盘点信誉好、质量过硬的国产实力派品牌 - 品牌推荐大师1
  • 2026年南宁汽车音响改装与隔音降噪服务参考指南 - 海棠依旧大