当前位置：首页 > news >正文

MathNet：全球数学推理与检索的多模态基准

news 2026/6/23 0:55:23

摘要

数学问题求解仍然是衡量大型语言模型和多模态模型推理能力的一项挑战性测试，然而现有基准在规模、语言覆盖和任务多样性方面都存在局限。

我们提出了 MathNet，一个高质量、大规模、多模态、多语言的奥林匹克级数学问题数据集，以及一个用于评估生成模型数学推理和基于嵌入系统的数学检索的基准。

MathNet 涵盖 47 个国家、17 种语言以及二十年的竞赛，包含 30,676 道由专家撰写的带有解答的问题，覆盖多个数学领域。在核心数据集之外，我们还构建了一个检索基准，其中包含由人类专家整理的数学等价问题和结构相似的问题对。

MathNet 支持三个任务：问题求解、数学感知检索以及检索增强问题求解。实验结果表明，即使是最先进的推理模型（Gemini-3.1-Pro 达到 78.4%，GPT-5 达到 69.3%）仍然面临挑战，而嵌入模型在检索等价问题方面表现不佳。

我们进一步发现，检索增强生成（RAG）的性能对检索质量高度敏感；例如，DeepSeek-V3.2-Speciale 获得了最高基准分数，提升幅度高达 12%。MathNet 提供了最大的高质量奥林匹克数据集，以及首个用于评估数学问题检索的基准，我们将在 mathnet.mit.edu 公开发布该数据集和基准。

引言

近年来，大型语言模型和大型多模态模型在数学推理基准上取得了快速进步，从小学水平问题到竞赛数学问题。最近，有多项公开报告称，多个先进模型在国际数学奥林匹克（IMO）中取得了前所未有的金牌级别成绩。此外，还发生了多起 AI 系统据说解决了开放数学问题的事件。

尽管取得了这些进展，但缺乏开放、高质量、多样化的基准限制了研究进展。现有的奥林匹克级数据集通常来自社区平台（如 AoPS），且仅覆盖了美国和中国少数几项竞赛。为了弥补这一空白，我们提出了 MathNet：一个大规模、多模态、多语言的奥林匹克级数学问题集合，来源涵盖过去四十年间的 47 个国家。完整的数据集 MathNet 包含 3 万多道问题，配有由专家撰写的官方解答，涉及广泛的数学领域。其规模、多样性和专家级质量为探索数学泛化与类比推理提供了前所未有的基础。

我们使用 MathNet 来研究两个主要能力：问题求解，即解决数学问题的能力；以及数学感知检索，即识别并检索数学等价或相关问题。特别地，与现有的语义检索不同，我们的问题检索任务必须感知符号结构、不变性和变换。例如，求解 x2+y2=1x2+y2=1 的问题等价于求解 a2+b2=1a2+b2=1，也等价于二维单位范数向量集合 ∣u∣2=1∣u∣2=1。关键在于，这些不等价于求解 x+y=1x+y=1。当前的检索模型无法做出这种区分：由于表面的词汇重叠，它们常常将与 x+y=1x+y=1 相关的问题排在比真正等价的表述更接近 x2+y2=1x2+y2=1 的位置。尽管数学感知检索具有基础重要性，但近期文献中这一任务仍然基本未被探索。

即使在专家工作流中，例如年度 IMO 的题目选拔过程，这些挑战也会出现。在短名单构建过程中，新题有时可能与书籍、问题集或在线来源中已有的问题相似，这表明跨越不同符号、格式和语言识别数学等价是多么困难。类似问题也出现在数学研究中。例如，一位研究相邻素数间隙上界的数学家可能会搜索“素数间隙的上界”这样的短语，而不是具体的公式 pn+1−pn≤C(log⁡pn)2pn+1−pn≤C(logpn)2（其中 pnpn 是第 nn 个素数，CC 是常数）。然而，现有的检索系统通常对变量命名或文本措辞等表面特征敏感，难以连接以不同形式表达的数学等价陈述。

为了在这些挑战上取得进展，我们引入了 MathNet，一个规模空前的数学问题集合，支持跨三个任务的模型分析：问题求解、数学感知检索和检索增强问题求解。我们的贡献如下：

主语料库：MathNet-Solve，一个包含 3 万多道奥林匹克级数学问题的问题集，配有对齐的 LaTeX 和自然语言陈述、专家解答以及元数据，覆盖 47 个国家、17 种语言和 65 个以上数学领域。
检索数据集：MathNet-Retrieve，一个用于数学感知检索的数据集，包含从 1 万个锚点问题衍生的额外 4 万个合成问题，每个锚点问题配有一个等价正例和三个强负例。MathNet-RAG，一个用于检索增强问题求解的数据集，由 70 道 IMO 级别的专家筛选的结构相似问题构建而成。
基准评估：在三个主要基准上对 27 个最先进模型进行评估：MathNet-Solve 上的问题求解准确率、MathNet-Retrieve 上使用 Recall@k 的数学感知检索性能，以及 MathNet-RAG 上使用自动评分和人类专家评分的检索增强问题求解准确率。
分析：求解 vs. 检索：我们证明了嵌入模型在数学感知检索上的性能落后于大型语言模型和多模态模型在问题求解上的性能。此外，对于检索增强问题求解，只有当检索器能够找出结构对齐、数学相关的邻近问题时，检索增强生成才能改善推理能力。

查看全文

http://www.jsqmd.com/news/682264/