当前位置: 首页 > news >正文

Meta:构建数学对象推理新范式

📖标题:Reasoning over mathematical objects: on-policy reward modeling and test time aggregation
🌐来源:arXiv, 2603.18886v1

🌟摘要

精确推导数学对象的能力是下游STEM应用的核心要求,包括数学,物理和化学,其中推理必须以正式结构化的表达式达到高潮。当前数学和科学推理的LM评估严重依赖于简化的答案格式,例如数值或多项选择选项,这是由于自动评估的便利性。为改进数学对象推理做出了贡献:(i)我们构建并发布了用于导出数学对象的训练数据和基准,Principia套件;(ii)我们提供了具有强大LLM判断器和验证器的训练配方,其中我们表明,基于策略的判断训练提高了性能;(iii)我们展示了如何通过聚合来扩展测试时间计算。我们发现,强LM(如Qwen 3 - 235 B和o3)在Principia上挣扎,而我们的训练配方可以在不同的LLM骨干上带来显着的改进,同时改善现有数值和MCQA任务的结果,展示推理能力的跨格式泛化。

🛎️文章简介

🔸研究问题:当前大模型在缺乏选项提示时,难以精确推导矩阵、函数等复杂数学对象,且现有评估过于依赖数值或选择题格式,如何提升模型在此类高阶 STEM 任务中的推理能力?
🔸主要贡献:论文发布了 Principia 数据集与基准,提出了基于强模型作为奖励模型的 RLLM 训练框架,以及通过在线聚合扩展测试时计算的 ParaGator 方法。

📝重点思路

🔸构建 Principia 套件,包含需推导六种复杂数学对象的 250K 合成训练数据 Principia Collection,以及由真实研究生级题目组成的评估基准 PrincipiaBench。
🔸提出 RLLM 方法,利用经过在线策略训练的强语言模型作为“思考型”奖励模型,替代传统标量奖励或规则验证器,以处理难验证及无标准答案的任务。
🔸设计 ParaGator 框架,通过在生成阶段优化 pass@k 鼓励多样性,在聚合阶段优化 pass@1 筛选最佳解,实现端到端的在线并行推理训练。
🔸采用强模型验证器进行等价性判断,解决规则工具在处理复杂数学表达式等价性时的脆弱性问题,确保强化学习奖励信号的准确性。

🔎分析总结

🔸在 PrincipiaBench 上,即使是 Qwen3-235B 和 o3 等前沿模型表现也显著低于数值任务,证明该基准能有效区分模型的真实推理深度。
🔸在 Principia Collection 上进行强化学习训练,不仅大幅提升了数学对象推导能力,还意外地泛化提升了 AIME 数值题和 GPQA 选择题的性能。
🔸实验表明,基于规则的验证器在复杂对象判定上失败率极高,而使用强通用大模型作为验证器能显著提升训练效果和评估准确性。
🔸权重合并不同格式(数学对象、数值、选择)独立训练的模型,其效果优于混合数据联合训练,且纯选择题训练会导致模型过度依赖选项捷径。
🔸RLLM 框架中,奖励模型与策略模型之间需保持足够的能力差距,且奖励模型必须基于策略模型的在线采样数据进行训练,才能获得最佳提升。

💡个人观点

论文将“复杂数学对象推导”确立为核心能力指标,利用强模型的推理链生成能力来构建动态奖励信号,打破了传统 RLHF 和 RLVR 的局限。

🧩附录


http://www.jsqmd.com/news/595389/

相关文章:

  • 网络协议必考基础:OSI七层模型是什么?七层结构+流程图+协议+记忆口诀全网最详
  • 从一次网络故障学到的:为什么你的ping命令会收到‘网络不可达‘回复?
  • 网络协议基础(如403 Forbidden)与模型API调用错误排查指南
  • Java学习——数据类型
  • 别再让YOLO的检测框丑哭你!手把手教你根据图片大小动态调整边框粗细(附Ultralytics源码修改)
  • SenseVoice Small效果展示集:10个真实场景音频转文字高清截图
  • MiniMax M2.7 优惠码
  • 小白也能用!M2FP多人人体解析服务一键部署教程
  • Unity中导入URDF模型实战:以TurtleBot3 Waffle Pi为例
  • 基于DSP28335的三电平PCS系统代码功能说明
  • 千问3.5-9B模型Visual Studio开发环境集成教程
  • Qwen3-Reranker-0.6B效果实测:轻量级模型重排序能力展示
  • 【人工智能训练师3级】考试准备(2026)二、实操题
  • Jimeng LoRA惊艳效果:同一LoRA版本在不同seed下风格稳定性测评
  • HTML中的分级标题标签
  • 2026年知名的伺服冲床/20吨伺服冲床/5吨伺服冲床值得信赖厂家推荐(精选) - 行业平台推荐
  • 告别S7.Net黑盒!零基础C#原生Socket手撕西门子S7协议,打造工业数据采集神器
  • Qwen3-ASR-1.7B全流程指南:硬件要求、软件配置与生产部署
  • Qwen3-TTS在VSCode中的开发调试技巧:从语音克隆到音色设计
  • GLM-4.1V-9B-Base部署指南:模型权重校验+SHA256完整性验证流程
  • 2026年知名的烟囱消音器/锅炉消音器/吹管消音器厂家选购完整指南 - 行业平台推荐
  • 从经典控制器到前沿控制的发展
  • HTML 基本骨架结构
  • 【西瓜带你学设计模式 | 第十三期 - 组合模式】组合模式 —— 树形结构统一处理实现、优缺点与适用场景
  • 未来之窗昭和仙君(八十八)东方仙盟神识FACLAW说明书—东方仙盟
  • 拓世AI决策系统白皮书
  • SEO_详解SEO优化的完整步骤与执行方案(496 )
  • C语言——结构体数组
  • 2026年评价高的自动高速冲床/精密高速冲床/高速冲床品牌厂家推荐 - 行业平台推荐
  • 内容创作者福音:梦幻动漫魔法工坊助力短视频动漫素材制作