当前位置：首页 > news >正文

Meta：构建数学对象推理新范式

news 2026/7/24 18:15:04

📖标题：Reasoning over mathematical objects: on-policy reward modeling and test time aggregation
🌐来源：arXiv, 2603.18886v1

🌟摘要

精确推导数学对象的能力是下游STEM应用的核心要求，包括数学，物理和化学，其中推理必须以正式结构化的表达式达到高潮。当前数学和科学推理的LM评估严重依赖于简化的答案格式，例如数值或多项选择选项，这是由于自动评估的便利性。为改进数学对象推理做出了贡献：（i）我们构建并发布了用于导出数学对象的训练数据和基准，Principia套件;（ii）我们提供了具有强大LLM判断器和验证器的训练配方，其中我们表明，基于策略的判断训练提高了性能;（iii）我们展示了如何通过聚合来扩展测试时间计算。我们发现，强LM（如Qwen 3 - 235 B和o3）在Principia上挣扎，而我们的训练配方可以在不同的LLM骨干上带来显着的改进，同时改善现有数值和MCQA任务的结果，展示推理能力的跨格式泛化。

🛎️文章简介

🔸研究问题：当前大模型在缺乏选项提示时，难以精确推导矩阵、函数等复杂数学对象，且现有评估过于依赖数值或选择题格式，如何提升模型在此类高阶 STEM 任务中的推理能力？
🔸主要贡献：论文发布了 Principia 数据集与基准，提出了基于强模型作为奖励模型的 RLLM 训练框架，以及通过在线聚合扩展测试时计算的 ParaGator 方法。

📝重点思路

🔸构建 Principia 套件，包含需推导六种复杂数学对象的 250K 合成训练数据 Principia Collection，以及由真实研究生级题目组成的评估基准 PrincipiaBench。
🔸提出 RLLM 方法，利用经过在线策略训练的强语言模型作为“思考型”奖励模型，替代传统标量奖励或规则验证器，以处理难验证及无标准答案的任务。
🔸设计 ParaGator 框架，通过在生成阶段优化 pass@k 鼓励多样性，在聚合阶段优化 pass@1 筛选最佳解，实现端到端的在线并行推理训练。
🔸采用强模型验证器进行等价性判断，解决规则工具在处理复杂数学表达式等价性时的脆弱性问题，确保强化学习奖励信号的准确性。

🔎分析总结

🔸在 PrincipiaBench 上，即使是 Qwen3-235B 和 o3 等前沿模型表现也显著低于数值任务，证明该基准能有效区分模型的真实推理深度。
🔸在 Principia Collection 上进行强化学习训练，不仅大幅提升了数学对象推导能力，还意外地泛化提升了 AIME 数值题和 GPQA 选择题的性能。
🔸实验表明，基于规则的验证器在复杂对象判定上失败率极高，而使用强通用大模型作为验证器能显著提升训练效果和评估准确性。
🔸权重合并不同格式（数学对象、数值、选择）独立训练的模型，其效果优于混合数据联合训练，且纯选择题训练会导致模型过度依赖选项捷径。
🔸RLLM 框架中，奖励模型与策略模型之间需保持足够的能力差距，且奖励模型必须基于策略模型的在线采样数据进行训练，才能获得最佳提升。