当前位置: 首页 > news >正文

MathNet:全球数学推理与检索的多模态基准

摘要

数学问题求解仍然是衡量大型语言模型和多模态模型推理能力的一项挑战性测试,然而现有基准在规模、语言覆盖和任务多样性方面都存在局限。

我们提出了 MathNet,一个高质量、大规模、多模态、多语言的奥林匹克级数学问题数据集,以及一个用于评估生成模型数学推理和基于嵌入系统的数学检索的基准。

MathNet 涵盖 47 个国家、17 种语言以及二十年的竞赛,包含 30,676 道由专家撰写的带有解答的问题,覆盖多个数学领域。在核心数据集之外,我们还构建了一个检索基准,其中包含由人类专家整理的数学等价问题和结构相似的问题对。

MathNet 支持三个任务:问题求解、数学感知检索以及检索增强问题求解。实验结果表明,即使是最先进的推理模型(Gemini-3.1-Pro 达到 78.4%,GPT-5 达到 69.3%)仍然面临挑战,而嵌入模型在检索等价问题方面表现不佳。

我们进一步发现,检索增强生成(RAG)的性能对检索质量高度敏感;例如,DeepSeek-V3.2-Speciale 获得了最高基准分数,提升幅度高达 12%。MathNet 提供了最大的高质量奥林匹克数据集,以及首个用于评估数学问题检索的基准,我们将在 mathnet.mit.edu 公开发布该数据集和基准。

引言

近年来,大型语言模型和大型多模态模型在数学推理基准上取得了快速进步,从小学水平问题到竞赛数学问题。最近,有多项公开报告称,多个先进模型在国际数学奥林匹克(IMO)中取得了前所未有的金牌级别成绩。此外,还发生了多起 AI 系统据说解决了开放数学问题的事件。

尽管取得了这些进展,但缺乏开放、高质量、多样化的基准限制了研究进展。现有的奥林匹克级数据集通常来自社区平台(如 AoPS),且仅覆盖了美国和中国少数几项竞赛。为了弥补这一空白,我们提出了 MathNet:一个大规模、多模态、多语言的奥林匹克级数学问题集合,来源涵盖过去四十年间的 47 个国家。完整的数据集 MathNet 包含 3 万多道问题,配有由专家撰写的官方解答,涉及广泛的数学领域。其规模、多样性和专家级质量为探索数学泛化与类比推理提供了前所未有的基础。

我们使用 MathNet 来研究两个主要能力:问题求解,即解决数学问题的能力;以及数学感知检索,即识别并检索数学等价或相关问题。特别地,与现有的语义检索不同,我们的问题检索任务必须感知符号结构、不变性和变换。例如,求解 x2+y2=1x2+y2=1 的问题等价于求解 a2+b2=1a2+b2=1,也等价于二维单位范数向量集合 ∣u∣2=1∣u∣2​=1。关键在于,这些不等价于求解 x+y=1x+y=1。当前的检索模型无法做出这种区分:由于表面的词汇重叠,它们常常将与 x+y=1x+y=1 相关的问题排在比真正等价的表述更接近 x2+y2=1x2+y2=1 的位置。尽管数学感知检索具有基础重要性,但近期文献中这一任务仍然基本未被探索。

即使在专家工作流中,例如年度 IMO 的题目选拔过程,这些挑战也会出现。在短名单构建过程中,新题有时可能与书籍、问题集或在线来源中已有的问题相似,这表明跨越不同符号、格式和语言识别数学等价是多么困难。类似问题也出现在数学研究中。例如,一位研究相邻素数间隙上界的数学家可能会搜索“素数间隙的上界”这样的短语,而不是具体的公式 pn+1−pn≤C(log⁡pn)2pn+1​−pn​≤C(logpn​)2(其中 pnpn​ 是第 nn 个素数,CC 是常数)。然而,现有的检索系统通常对变量命名或文本措辞等表面特征敏感,难以连接以不同形式表达的数学等价陈述。

为了在这些挑战上取得进展,我们引入了 MathNet,一个规模空前的数学问题集合,支持跨三个任务的模型分析:问题求解、数学感知检索和检索增强问题求解。我们的贡献如下:

  • 主语料库:MathNet-Solve,一个包含 3 万多道奥林匹克级数学问题的问题集,配有对齐的 LaTeX 和自然语言陈述、专家解答以及元数据,覆盖 47 个国家、17 种语言和 65 个以上数学领域。

  • 检索数据集:MathNet-Retrieve,一个用于数学感知检索的数据集,包含从 1 万个锚点问题衍生的额外 4 万个合成问题,每个锚点问题配有一个等价正例和三个强负例。MathNet-RAG,一个用于检索增强问题求解的数据集,由 70 道 IMO 级别的专家筛选的结构相似问题构建而成。

  • 基准评估:在三个主要基准上对 27 个最先进模型进行评估:MathNet-Solve 上的问题求解准确率、MathNet-Retrieve 上使用 Recall@k 的数学感知检索性能,以及 MathNet-RAG 上使用自动评分和人类专家评分的检索增强问题求解准确率。

  • 分析:求解 vs. 检索:我们证明了嵌入模型在数学感知检索上的性能落后于大型语言模型和多模态模型在问题求解上的性能。此外,对于检索增强问题求解,只有当检索器能够找出结构对齐、数学相关的邻近问题时,检索增强生成才能改善推理能力。

http://www.jsqmd.com/news/682264/

相关文章:

  • vDisk课表联动功能技术文档说明
  • 2026最新:Windows安装 ComfyUI全攻略,快速配置Nano Banana Pro 模型实现批量生图自由
  • 杭州邹氏建设服务:临平区废旧物资回收公司 - LYL仔仔
  • 机器学习模型选择指南:从原理到实践
  • 【C# .NET 11 AI推理加速终极指南】:20年微软MVP亲授生产环境实测的7大GPU/CPU协同优化策略
  • 避坑指南:海康相机+OpenCVSharp4.x版本图像转换的正确姿势(从MV_DISPLAY_FRAME_INFO到Mat)
  • 大学生论文查重实用工具综合测评
  • 【Java Loom响应式转型实战手册】:20年架构师亲授3大避坑指南与5个高并发落地案例
  • TMS320C28x DSP编程避坑指南:从ACC到XT,那些手册里没细说的寄存器使用细节
  • egergergeeert部署教程:/root/ai-models路径下底座与LoRA模型组织规范
  • 杭州邹氏建设服务:临平区废旧物资回收电话 - LYL仔仔
  • 福禄一卡通回收新行情,回收平台哪家值得推荐 - 猎卡回收公众号
  • ReadCat:免费开源的终极小说阅读器,重新定义纯净阅读体验
  • 告别调参玄学:用Python手把手实现MOPSO,搞定多目标优化难题
  • Python-pptx实战:从数据到演示文稿的自动化生成
  • 10分钟终极指南:用F3D极简3D查看器快速可视化你的三维数据
  • 支付宝立减金怎么回收?快速找到最可靠的线上平台! - 团团收购物卡回收
  • 3个步骤让Windows 11界面重回经典:ExplorerPatcher全面解析
  • CubeIDE高版本封杀DAP-LINK?别慌,手把手教你用OpenOCD+GDB曲线救国(STM32F4实测)
  • nli-MiniLM2-L6-H768惊艳呈现:Web界面交互式NLI判断全过程演示
  • 胡桃工具箱终极指南:免费开源原神助手提升游戏体验的完整教程
  • 2026年广西仿石漆外墙定制与全屋整装完全指南:小木舟装饰官方联系电话与竞品深度横评 - 年度推荐企业名录
  • 深入解析JKSM:3DS游戏存档管理的核心原理与高效备份技巧
  • egergergeeert提示词工程:如何用‘elegant dress+silver hair’强化角色辨识度
  • 2026年厦门生成式引擎优化(GEO)领域3家主流服务机构综合能力分析 - 商业小白条
  • 斯玛特杉德卡回收亲测平台,回收不踩雷 - 猎卡回收公众号
  • OpenClaw在windows上部署
  • 别再死记硬背了!用动画图解二叉排序树的插入与删除(附C++代码调试技巧)
  • AutoCAD设计师的GIS外挂:不学ArcGIS,用这个免费插件也能玩转空间数据
  • 【花雕动手做】迷你小龙虾 MimiClaw 主程序 mimi 改进与升级方案:从即时优化到架构演进