当前位置：首页 > news >正文

DeepVision-103K A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimod

news 2026/7/7 16:41:32

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Authors:Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

Deep-Dive Summary:

DeepVision-103K: 一个视觉多样、广覆盖且可验证的多模态推理数学数据集

摘要

带有可验证奖励的强化学习（RLVR）在增强大多模态模型（LMMs）的视觉反思和推理能力方面表现出色。然而，现有数据集大多源于小规模人工构建或现有资源的重新组合，限制了数据的多样性和覆盖范围。为此，本文推出了DeepVision-103K，这是一个专门为 RLVR 训练设计的综合数据集，涵盖了多样的 K12 数学主题、广泛的知识点和丰富的视觉元素。在该数据集上训练的模型在多模态数学基准测试中表现强劲，并能有效泛化至通用的多模态推理任务。

1. 引言

通过 RLVR 训练的大语言模型（LLM）展现出了卓越的推理能力。最近的研究将这一范式扩展到了大多模态模型（LMM），显著增强了模型的视觉反思能力。然而，现有的多模态 RLVR 训练数据存在局限性：

合成数据集：虽然数据量大，但缺乏真实世界的数学场景。
人工标注数据集：依赖专家标注，难以大规模扩展。
现有数据重组：缺乏新颖问题，导致数据分布重叠。

为了解决这些问题，DeepVision-103K 具备以下特点：

视觉多样性：涵盖几何、解析图、图表和数学背景下的真实物品。
广覆盖：包含广泛的数学问题及视觉逻辑问题（如迷宫、象棋、俄罗斯方块）。
自动化策展流水线：通过有效性过滤、通过率分层和正确性验证，将噪声较大的原始 K12 问题转化为结构化且可验证的问答对。

图 2：在多模态数学和通用多模态基准上的性能，报告了各基准的平均 Pass@1 准确率。

2. DeepVision-103K 概览

DeepVision-103K 的每个样本包含问题、图像、唯一的可验证答案、模型通过率、主题分类、知识点以及视觉元素列表。

图 3：DeepVision-103K 的数据样本示例。

2.1 视觉多样性

该数据集包含 6 大类视觉元素（如图 4）：平面几何、立体几何、解析图、数据图表、示意图和真实物品。其涵盖了复杂的跨类别组合，要求模型能够同时理解和推理多种视觉表达。

图 4：DeepVision-103K 中的视觉元素。

2.2 广覆盖

数据集涵盖了四大数学领域：几何（占比最大）、代数、概率统计和基础数学技能。共涉及 200 多个细分主题和近 400 个不同的知识点（如图 5）。此外，还加入了来自 Zebra-CoT 和 GameQA 的视觉逻辑问题。

图 5：DeepVision-103K 中的数学主题。

3. DeepVision-103K 的构建

研究人员从 330 万个原始样本池出发，采用了三阶段策展流水线：

图 6：DeepVision-103K 数学数据的策展流水线。

有效性过滤：移除证明题和描述性任务，仅保留具有唯一答案且必须依赖视觉信息才能解答的问题。
难度过滤：使用模型进行 8 次采样（rollouts），保留通过率在[ 1 8 , 7 8 ] [\frac{1}{8}, \frac{7}{8}][81,87]之间的样本，剔除过易或过难的问题。
查询正确性验证：利用 Gemini-3-Flash 检查问题是否完整、图文是否匹配以及答案是否准确。最终获得约 10.3 万个高质量 QA 对。

4. 实验

4.1 设置

在具有原生思考能力的模型（如 Qwen3-VL-8B-Instruct）上使用 GSPO 算法进行强化学习训练，奖励基于答案的正确性（+ 1 +1+1或0 00）。

4.2 实验结果

如表 3 所示，在 DeepVision 上训练的模型表现优异：

数学推理：在 WeMath 和 LogicVista 等基准上取得了 SOTA 结果，显著优于官方思考版和其他开源数据集训练的模型。
通用能力泛化：不仅在数学上提升明显，在通用多模态任务（如 MMMU）上也展现了出色的泛化能力，证明了视觉多样性的重要性。

表 3：多模态数学推理和通用多模态基准的性能对比。
(此处对应原文表格，显示了 DeepVision 模型在各个基准上的领先地位)

5. 分析

5.1 增强的能力

通过人工标注分析（图 7），RL 训练主要增强了三种能力：

视觉感知：增强了“一触即发”的感知力，能直接识别形状和数值（图 8）。
视觉反思：在感知出错时，模型能主动重新检查图像内容进行自我纠错（图 9）。
数学推理：在获取正确视觉信息后，推理过程更加严谨（图 10）。

图 8：模型首次尝试即正确识别阴影区域。

图 9：模型通过反思修正感知错误。

5.2 视觉逻辑数据的价值

消融实验显示，引入视觉逻辑数据（如迷宫、游戏）对提升空间推理和模式识别至关重要，这些能力可以正向迁移至数学和通用多模态任务。

5.3 查询正确性验证的必要性

实验表明，移除正确性验证步骤会导致性能显著下降。准确且可靠的奖励信号是多模态 RLVR 成功的关键。

6. 结论

DeepVision-103K 是一个大规模、可验证的多模态数据集，通过涵盖丰富的视觉元素和广泛的数学主题，显著提升了模型在复杂多模态推理任务中的表现。研究强调了数学数据与视觉逻辑数据互补的重要性，以及数据质量在 RLVR 训练中的核心作用。

7. 局限性

尽管 DeepVision-103K 提升了视觉多样性，但数据分布仍存在不平衡（如平面几何占比较大）。此外，流水线依赖外部强模型进行验证，且未涵盖开放式证明题等非唯一答案的任务。

Original Abstract:Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce \textbf{DeepVision-103K}, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision’s effectiveness for advancing multimodal reasoning. Data: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}.

PDF Link:2602.16742v1