当前位置: 首页 > news >正文

DeepVision-103K A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimod

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Authors:Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

Deep-Dive Summary:

DeepVision-103K: 一个视觉多样、广覆盖且可验证的多模态推理数学数据集

摘要

带有可验证奖励的强化学习(RLVR)在增强大多模态模型(LMMs)的视觉反思和推理能力方面表现出色。然而,现有数据集大多源于小规模人工构建或现有资源的重新组合,限制了数据的多样性和覆盖范围。为此,本文推出了DeepVision-103K,这是一个专门为 RLVR 训练设计的综合数据集,涵盖了多样的 K12 数学主题、广泛的知识点和丰富的视觉元素。在该数据集上训练的模型在多模态数学基准测试中表现强劲,并能有效泛化至通用的多模态推理任务。

1. 引言

通过 RLVR 训练的大语言模型(LLM)展现出了卓越的推理能力。最近的研究将这一范式扩展到了大多模态模型(LMM),显著增强了模型的视觉反思能力。然而,现有的多模态 RLVR 训练数据存在局限性:

  • 合成数据集:虽然数据量大,但缺乏真实世界的数学场景。
  • 人工标注数据集:依赖专家标注,难以大规模扩展。
  • 现有数据重组:缺乏新颖问题,导致数据分布重叠。

为了解决这些问题,DeepVision-103K 具备以下特点:

  • 视觉多样性:涵盖几何、解析图、图表和数学背景下的真实物品。
  • 广覆盖:包含广泛的数学问题及视觉逻辑问题(如迷宫、象棋、俄罗斯方块)。
  • 自动化策展流水线:通过有效性过滤、通过率分层和正确性验证,将噪声较大的原始 K12 问题转化为结构化且可验证的问答对。

图 2:在多模态数学和通用多模态基准上的性能,报告了各基准的平均 Pass@1 准确率。

2. DeepVision-103K 概览

DeepVision-103K 的每个样本包含问题、图像、唯一的可验证答案、模型通过率、主题分类、知识点以及视觉元素列表。

图 3:DeepVision-103K 的数据样本示例。

2.1 视觉多样性

该数据集包含 6 大类视觉元素(如图 4):平面几何、立体几何、解析图、数据图表、示意图和真实物品。其涵盖了复杂的跨类别组合,要求模型能够同时理解和推理多种视觉表达。

图 4:DeepVision-103K 中的视觉元素。

2.2 广覆盖

数据集涵盖了四大数学领域:几何(占比最大)、代数、概率统计和基础数学技能。共涉及 200 多个细分主题和近 400 个不同的知识点(如图 5)。此外,还加入了来自 Zebra-CoT 和 GameQA 的视觉逻辑问题。

图 5:DeepVision-103K 中的数学主题。

3. DeepVision-103K 的构建

研究人员从 330 万个原始样本池出发,采用了三阶段策展流水线:

图 6:DeepVision-103K 数学数据的策展流水线。

  1. 有效性过滤:移除证明题和描述性任务,仅保留具有唯一答案且必须依赖视觉信息才能解答的问题。
  2. 难度过滤:使用模型进行 8 次采样(rollouts),保留通过率在[ 1 8 , 7 8 ] [\frac{1}{8}, \frac{7}{8}][81,87]之间的样本,剔除过易或过难的问题。
  3. 查询正确性验证:利用 Gemini-3-Flash 检查问题是否完整、图文是否匹配以及答案是否准确。最终获得约 10.3 万个高质量 QA 对。

4. 实验

4.1 设置

在具有原生思考能力的模型(如 Qwen3-VL-8B-Instruct)上使用 GSPO 算法进行强化学习训练,奖励基于答案的正确性(+ 1 +1+10 00)。

4.2 实验结果

如表 3 所示,在 DeepVision 上训练的模型表现优异:

  • 数学推理:在 WeMath 和 LogicVista 等基准上取得了 SOTA 结果,显著优于官方思考版和其他开源数据集训练的模型。
  • 通用能力泛化:不仅在数学上提升明显,在通用多模态任务(如 MMMU)上也展现了出色的泛化能力,证明了视觉多样性的重要性。

表 3:多模态数学推理和通用多模态基准的性能对比。
(此处对应原文表格,显示了 DeepVision 模型在各个基准上的领先地位)

5. 分析

5.1 增强的能力

通过人工标注分析(图 7),RL 训练主要增强了三种能力:

  1. 视觉感知:增强了“一触即发”的感知力,能直接识别形状和数值(图 8)。
  2. 视觉反思:在感知出错时,模型能主动重新检查图像内容进行自我纠错(图 9)。
  3. 数学推理:在获取正确视觉信息后,推理过程更加严谨(图 10)。


图 8:模型首次尝试即正确识别阴影区域。


图 9:模型通过反思修正感知错误。

5.2 视觉逻辑数据的价值

消融实验显示,引入视觉逻辑数据(如迷宫、游戏)对提升空间推理和模式识别至关重要,这些能力可以正向迁移至数学和通用多模态任务。

5.3 查询正确性验证的必要性

实验表明,移除正确性验证步骤会导致性能显著下降。准确且可靠的奖励信号是多模态 RLVR 成功的关键。

6. 结论

DeepVision-103K 是一个大规模、可验证的多模态数据集,通过涵盖丰富的视觉元素和广泛的数学主题,显著提升了模型在复杂多模态推理任务中的表现。研究强调了数学数据与视觉逻辑数据互补的重要性,以及数据质量在 RLVR 训练中的核心作用。

7. 局限性

尽管 DeepVision-103K 提升了视觉多样性,但数据分布仍存在不平衡(如平面几何占比较大)。此外,流水线依赖外部强模型进行验证,且未涵盖开放式证明题等非唯一答案的任务。

Original Abstract:Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce \textbf{DeepVision-103K}, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision’s effectiveness for advancing multimodal reasoning. Data: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}.

PDF Link:2602.16742v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/396830/

相关文章:

  • 用过才敢说 AI论文写作软件 千笔AI VS 万方智搜AI,研究生写论文更高效!
  • 2026年郭氏正骨机构盘点:如何选择适合你的,郭氏正骨,郭氏正骨供应商排行 - 品牌推荐师
  • Mine and Refine Optimizing Graded Relevance in E-commerce Search Retrieval
  • 导师推荐 10个降AI率工具测评:自考降AI率全攻略
  • DeepContext Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs
  • 格式总出错?9个一键生成论文工具测评:继续教育毕业论文+科研写作必备神器
  • 基于Python基于flask的酒店管理系统演示录像2024-Pycharm django
  • 交稿前一晚!千笔,MBA论文写作救星!
  • 万里通积分卡的最佳使用策略!轻松兑换最优价值 - 团团收购物卡回收
  • 20天、20000次对话、12亿Token——Claude Code 重度用户使用复盘
  • 基于Python基于flask的框架的企业人事员工绩效考核管理系统-vue-Pycharm django
  • 2020年信奥赛C++提高组csp-s初赛真题及答案解析(阅读程序第2题)
  • SI标准网站
  • 回收卡券有诀窍:山东一卡通回收流程详解 - 团团收购物卡回收
  • 海洋科考船上的AI与边缘计算
  • 股市赚钱学概论:赚钱理之四,赚稳健的钱
  • 镜像视界技术护城河与全球竞品结构对标压制报告——从视频系统竞争到空间操作系统代际替换
  • 镜像视界技术参数锁定与封标级专家质询攻防体系——空间计算操作系统的可验证能力结构
  • 深夜修图指南:七行代码拯救你的暗光照片
  • 基础入门 React Native 鸿蒙跨平台开发:react-native-easy-toast三方库适配
  • 上海有哪些做研发数据管理的服务商?2026原创优选指南 - 冠顶工业设备
  • VisionMaster之平移旋转标定(十二点标定)
  • neovim报错:E319:No python3 provider found. Run :checkheaLth vim.provider
  • 定稿前必看!AI论文写作软件 千笔·专业论文写作工具 VS Checkjie,研究生专属神器!
  • 干货来了:自考必备的降AIGC工具 —— 千笔·降AIGC助手
  • 国内做得好的支付宝消费券回收平台推荐 - 京顺回收
  • 挺拔体态,悦见美好|武汉普拉提体态调整课程,禧悦帮你摆脱体态困扰 - 冠顶工业设备
  • 对比一圈后!继续教育必备的降AI率网站 —— 千笔·专业降AIGC智能体
  • Nginx源代码学习:六种算法、六个文件、两千行C——Nginx负载均衡的全部秘密
  • 实测对比后AI论文工具,千笔 VS 灵感风暴AI更贴合专科生需求