Vision-R1_ Incentivizing Reasoning Capability in Multimodal Large Language Models
- 标题: Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
- 作者: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin 等
- 年份: 2026
- 发表刊物: ICLR
研究主要背景
DeepSeek-R1-Zero 模型的诞生。通过强化学习 (RL),无需人类手把手地教它一步步思考,大语言模型 (LLM) 的推理能力就可以“自我涌现”。它会自己学会质疑、反思,产生复杂的思维链来解决难题。
因此产生一个思考:能将这种强大的“RL-激发推理”模式从纯文本的 LLM,移植到带有视觉能力的多模态大语言模型 (MLLM) 上吗?
目前,增强 MLLM 推理能力的主流方法是研究人员手工构建包含标准解题步骤的数据集,再通过监督微调 (SFT) 的方式,教会模型如何答题。例如,给模型一千道几何题,每道题都附带“已知…,求证…,步骤一…,步骤二…”的标准答案。这种方法虽然有效,但产生的往往是僵硬的、缺乏灵魂的“伪思维链” (Pseudo-CoT)。缺少了人类反思,反驳的动态认知过程,难以应对需要深度洞察的复杂推理。
因此面临的挑战:
如何在缺少高质量、多模态、且蕴含复杂认知过程的训练数据的情况下,利用强化学习激发出 MLLM 真正的、类人的强大推理能力?
作者的问题意识
- 直接复刻可行吗?直接将 DeepSeek-R1-Zero 的强化学习方案套用在 MLLM 上,是否也能激发出强大的多模态推理能力?(答案初步显示:不行,遇到了巨大挑战)。
- 数据从哪来?既然“伪思维链”数据有缺陷,而人类手工标注高质量、包含“思考”过程的数据成本又极其高昂,那么是否有一种方法,能够无需人工标注,自动构建出一个既包含视觉信息、又包含高质量、类人复杂思维过程的数据集?
- 如何解决“过思考”困境?即使有了好的启动数据,作者发现模型会陷入一个怪圈:它倾向于进行漫长的、但往往是错误的思考。如何引导模型先学会“正确的思考”,然后再去“更深入地思考”,从而稳定提升其推理能力?(强化学习)
研究意义
- Vision-R1 是最早将 DeepSeek-R1 式的强化学习范式成功、系统地应用于增强 MLLM 推理能力的探索之一。
- 提出了“模态桥接”这一创新方法,巧妙地利用现有最强文本推理模型(DeepSeek-R1)和视觉模型(Qwen2.5-VL)的能力,全自动地构建了高质量的复杂 CoT 数据集。这为未来无需昂贵人工标注,就能训练出更强大 AI 模型提供了宝贵的思路。
- 发现了冷启动后模型特有的“过思考优化问题”,并针对性地设计了PTST训练策略。为模型设计了一套科学的“思维训练课程”,先打牢基础,再逐步增加思考深度,为复杂 RL 训练提供了稳定且高效的方案。
- 仅使用 7B(70亿)参数的 Vision-R1 模型,在多项数学推理基准测试中,性能超越了众多 70B(700亿)甚至更大的顶尖模型
正文-背景
既然纯强化学习 (RL) 能让纯文本大模型 (LLM) 涌现推理能力,那我们直接用同样的方法训练一个“看图说话”的多模态大模型 (MLLM),不就能得到一个会看图推理的超级模型了吗?
他们准备了一个包含 1 万道数学题(有图有文字)的数据集,然后让一个基础 MLLM(Qwen2.5-VL-7B)通过 GRPO 算法在这数据集上进行自我进化。规则很简单:模型看到题目后,自由生成“思考过程”(<font style="color:#000000;"><think></font>) 和“最终答案”(<font style="color:#000000;"><answer></font>),如果格式正确且答案对了,就得 1 分,否则得 0 分。
结果如图 1 (D,E) 和 (F) 所示,**Vision-R1-Zero **无法自发产生期望中的长且复杂的思维链。只能给出一些简短的分析,推理能力提升非常有限。即使训练更长时间,模型虽然能产出更长的文本,但这并没有带来性能的提升,就像是一直在做“无效的思考”。
作者分析原因是“数据和模态的鸿沟”。DeepSeek-R1-Zero 的成功,离不开海量、高质量的纯文本数据和长时间的训练。而在多模态领域,高质量的多模态数据本就稀缺,RL 训练时仅靠 1 万道数学题。模型缺乏一个基本的、蕴含“思考模式”的先验知识,以至于 RL 的探索过程异常艰难。
正文-方法
第一步:冷启动初始化
这一步的目标是:先教会模型“什么是好的思考”,让它拥有一个优秀的思考范本,而非从零开始盲目探索。
挑战:如何得到这位“思考导师”的教学材料?直接让人类去写上万道题、包含“质疑”和“反思”的思考过程,代价巨大。而 DeepSeek-R1 虽然推理能力很强,但是看不懂图。
方法:“模态桥接” 整个过程可以分解为以下步骤,如图 2 所示:
1.生成“看图说话” (生成伪思维链): 研究者把(图像,问题,答案)这三样东西,喂给一个现有的、能看图的基础 MLLM(如 Qwen2.5-VL-72B),让它生成一段“解题过程”。这个过程虽然被称为“伪思维链”,缺乏深度反思,但它天然地包含了“图像描述”(比如“图中有两个全等三角形,线段AF长10…”)和“分步推理”(“因为全等,所以AB=DF…”)两部分。
2. “桥接”视觉信息 (模态桥接): 他们把原始的(图像,问题)和上一步生成的伪思维链,再次输入给那个基础 MLLM。这次,他们给它一个新的指令:“根据这张图、这个问题和这个思考过程,请你提供一个包含了所有解答此题必要视觉细节的详细描述。”
- 为什么要这样做? 因为“伪思维链”像一份笔记,指出了“要解这道题,你得关注图中的哪些点、哪些线、哪些标记”。这样一来,基础 MLLM 就能像被老师点了下重点的学生,产出一份信息极其丰富、针对性极强的纯文本图像描述。
- 效果:这个过程就像把图像信息“翻译”成了一种高度凝练、富含逻辑要点的文本信息,成功地将“视觉模态”无损地“桥接”到了“文本模态”!
3. DeepSeek-R1 生成复杂 CoT: 现在,我们得到了一份高质量的“纯文本看图写话”。这份材料,对于推理模型DeepSeek-R1 来说,是完美的输入!研究者将这份详细文本描述和问题一起交给 DeepSeek-R1。DeepSeek-R1 生成包含“质疑”、“反思”、“验证”等行为的高质量、类人复杂思维链 (CoT)。
4. 数据筛选与清洗: 最后,通过基于规则的过滤,剔除那些最终答案错误、逻辑混乱的样本,并进行一些文字润色。最终,他们将 DeepSeek-R1 生成的纯文本 CoT 与对应的原始图像配对,构成了约 20 万个数据点的 Vision-R1-cold 数据集。
5. 冷启动训练: 用这个数据集,通过监督微调 (SFT) 的方式,对基础 MLLM(Qwen2.5-VL-7B)进行训练。此时的模型,被命名为Vision-R1-CI。它已经学会了用类人的、复杂的方式进行思考。
然而这样就会产生新的挑战
Vision-R1-CI 虽然学会了复杂思考,但容易形成了错误的习惯。如图 1 (A) 所示,研究人员发现,Vision-R1-CI 在面对问题时,往往会进行非常冗长的思考,但那些真正通向正确答案的推理路径,反而集中在那些较短的思考过程中。这种“过思考”如果不加以纠正,紧接着的强化学习训练将变得非常困难,因为模型会在错误的道路上越走越远。
第二步:渐进式思维抑制训练 (PTST)
这一步的目标是:纠正模型的“过思考”,引导它在强化学习(RL)中先掌握正确的推理,再逐步增加推理深度,最终变得又准又强。
方法:PTST + GRPO with HFRRF作者提出了一个训练策略——渐进式思维抑制训练 (PTST),并结合群体相对策略优化 (GRPO) 和硬格式化结果奖励函数 (HFRRF)来实施。
•GRPO(群体相对策略优化): 这是 RL 训练的具体算法。对于同一个问题,它会让模型老版本尝试生成好几个(比如16个)不同的答案,然后计算这批答案的平均分。比平均分高的就是"好学生",低的就被认为是"差生"。模型优化的目标,就是提高成为"好学生"的概率,降低成为"差生"的概率。这比单纯地和0分比要精细得多。
•HFRRF (硬格式化结果奖励函数): 这是一个给模型打分的规则。它只看两点:
1. 格式对不对(……);
2. 最终答案对不对。必须是格式和答案同时正确,才给 1 分,否则就是 0 分。
这杜绝了“蒙对”或“格式对但答案错”的可能性,强迫模型必须走最正确的路。
•PTST (渐进式思维抑制训练):这是训练计划的“核心思想”。如图 3 所示,它将 RL 训练分成多个阶段。在每个阶段,人为地限制模型的“思考长度”(即生成的 token 数量)。
第一阶段 (Stage 1): “基础动作训练”。设置极短的“思考长度限制”,比如 4K tokens。在这严格限制下,模型为了在有限的篇幅内得出正确答案并获得奖励,必须学会精炼、压缩和优化其推理过程。那些绕圈子、不重要的步骤会被强制抛弃,保留下来的是最精华、最直接的推理逻辑。这就有效解决了“过思考”问题,让模型先学会“正确地思考”。
第二阶段 (Stage 2): “进阶耐力训练”。当模型在短思考下已经能稳定得出正确答案后,算法将“思考长度限制”放宽,比如到 8K tokens。这时,模型已经内化了正确的推理模式,它开始利用“多出来”的思考空间,去处理那些真正需要更多分析步骤的难题,进行更深层次、更复杂的推理。
第三阶段 (Stage 3): “自由发挥(未采用)”。理论上还可以进一步放宽到 16K tokens,但作者发现,在第二阶段结束时,模型性能已经达到极佳水平,进一步的训练收益甚微,因此他们最终选择了第二阶段结束时的模型作为最终版 Vision-R1。
通过 PTST,Vision-R1 的优化路径变得稳定而高效。它不像 Vision-R1-Zero 那样无从下手,也不像 Vision-R1-CI 那样陷入无效思考。它先学会“走稳”,再学会“跑快”,最终实现了推理能力的飞跃。
结果
数据设置
- 训练数据:
- 冷启动数据(Vision-R1-cold): 使用约10万LLaVA-CoT数据和约26万Mulberry数据,通过模态桥接技术,最终构建了约20万条高质量多模态思维链数据。
- 强化学习数据: 收集了约1万个多模态数学问题,来自We-Math、MathVision、Polymath等多个权威数据集,用于GRPO训练。对于更大的32B和72B模型,则额外增加了约2万条数据。
- 测试基准: 在多个著名且极具挑战性的多模态数学推理基准上进行测试,包括MathVista、MathVerse和MM-Math。
核心结果
现有方法对比
- Vision-R1-7B,在最重要的MathVista基准上,准确率达到了惊人的73.5%,仅次于当时最强的推理模型OpenAI O1的73.9%。
- 与Qwen2.5-VL-7B相比,Vision-R1-7B在多个基准上平均提升近6%,在MathVista的几何推理(GEO)、代数推理(ALG)等子任务上,提升甚至超过了10%。这充分说明了"强大的推理能力"带来的加成是巨大的。
- 当把模型扩展到320亿(Vision-R1-32B)和720亿(Vision-R1-72B)参数时,在MathVista上分别达到76.4%和78.2%,展现了极好的可扩展性。
策略有效性的验证
数据集质量验证(表 2 和图 4): Vision-R1-cold 数据集包含的Wait(等等)、Hmm(嗯)、Mistake(错误)、Alternatively(或者)等体现自我反思行为的词语,数量是其他数据集的几十倍到上千倍,定性定量地证明了其推理过程的复杂性和人性化。使用该数据集进行冷启动的模型,各项通用能力和数学能力也全面超越了使用其他数据集训练的模。
PTST策略验证(表5): 如果不用PTST,一开始就给16K的长度限制(Vision-R1-Long),模型会严重"跑偏",性能从55.4% 暴跌至47.7%,甚至比不做任何强化学习还要差。这证明了"过度思考"问题是真实存在的,且PTST是解决它的关键。
冷启动与PTST协同验证(原文表3和表6): 单独使用冷启动(Vision-R1-CI)或单独使用PTST(Zero+PTST),效果都远不如两者结合。冷启动提供了学会复杂推理的基础,而PTST修正了这一过程中带来的"副作用",两者相辅相成。
可视化证据(图4): 论文直接展示了Vision-R1的推理过程文本,其中清晰地出现了"Wait, maybe I made a mistake…"、“Let me double-check…”、"Hmm, interesting…"等表达,直观地展现了"顿悟时刻"的涌现。
结论
Vision-R1成功证明了,通过"先冷启动启蒙,后强化学习精炼"的创新范式,可以有效激励多模态大语言模型涌现出强大的、类人的复杂推理能力。
未来研究方向
文献中提及的未来研究方向:
- 多模态数据的Scaling Law: 作者在训练Vision-R1-32B和72B时使用了更多的强化学习数据,效果显著。未来的研究可以进一步系统性地探索多模态推理数据规模与模型性能之间的关系,找到最优"数据配方"。
- 更复杂的多模态推理任务: 本研究主要聚焦于数学推理。未来可以将Vision-R1的范式扩展到更多、更复杂的多模态推理场景,例如科学图表分析、医学影像诊断、复杂的图文逻辑谜题等。
- 更长的思维链探索: 作者提到第三阶段的PTST训练(放开到16K思考长度)虽然没有带来显著性能提升,但生成了更复杂的推理过程。这是否意味着对于某些更深奥的问题,更长的思维链是必要的?如何在更长的思维链中避免"过度思考"陷阱,值得进一步研究。
下一步的思考
- 过程奖励模型的应用与比较: Vision-R1使用的是"结果奖励",即只看最终答案。如果有办法对推理过程中的每一步都进行自动评估并给予奖励(过程奖励模型),是否能更精细、更高效地引导模型学会正确的推理?这可以与PTST策略结合,实现"过程-结果"双保险。
- 跨模态对齐的深化: 模态桥接虽然有效,但仍是一种间接方法。能否设计出更好的模型架构,让纯文本推理模型的强大内核与视觉编码器原生地、深度地融合,让视觉信息和文本推理之间的"翻译"损耗降到最低,实现真正的"端到端"多模态推理涌现?
- 结合推理时的扩展(Test-time Scaling): 本研究主要关注训练阶段的改进。未来可以结合OpenAI O1和DeepSeek-R1也用到的"推理时扩展"技术,即在模型回答问题的那一刻,动态地分配更多计算资源,让它进行更长或更广(如树形搜索)的推理,将训练时的"内功"和推理时的"爆发力"结合起来。
