当前位置：首页 > news >正文

论文阅读笔记 | Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

news 2026/6/30 2:17:07

一、Motivation

1.1 现有范式的局限

AI推理经历了两个重要阶段：

Thinking with Text：Chain-of-Thought (CoT) 显著提升了LLM的推理能力，但纯文本无法处理空间、视觉相关的推理任务。
Thinking with Images：OpenAI o3等模型在CoT中引入图像（裁剪、缩放、旋转），弥补了视觉推理的不足。

然而这两种范式仍存在根本性缺陷：

静态约束：图像只能捕捉单一时刻，无法表达动态过程、时间变化或连续变换。例如，画一条光线的反射路径本质上是一个动态过程，静态图像难以自然表达。
模态分离：文本和视觉仍作为两个独立模态处理，缺乏真正统一的多模态理解和生成框架。

1.2 为什么是视频？

视频天然具备两个关键优势：

动态推理 (Dynamic Reasoning)：可以可视化动态过程，例如画线来解决空间推理题，展示连续变换。
多模态融合 (Multimodal Fusion)：视频帧中可以嵌入文字，配合音频输出，实现文本和视觉在时间维度上的自然对齐，更贴近人类"想象"和"心理模拟"的认知过程。

因此，作者提出“Thinking with Video”,利用 Sora-2 等视频生成模型，以视频帧作为统一媒介进行多模态推理。

二、Related Work

2.1 视频生成模型

视频生成领域正在快速发展。从早期的 Sora（被称为视频领域的 “GPT-1 时刻”）到 Sora-2，模型能够生成更逼真、可控、物理准确的视频，甚至包含同步对话和声音效果。其他闭源模型如 Runway Gen-3、Pika Labs、Luma AI、Google Veo 系列也在推动行业发展。开源方面则有 Stable Video Diffusion、Hunyan-Video、Wan 系列等。

2.2 推理范式迁移

Thinking with Text: CoT 及大规模强化学习（如 DeepSeek-R1）促使 LLM 进行深度推理。
Thinking with Images: o3/o4-mini 在 CoT 中原生地裁剪、缩放和旋转图像；Nano Banana 等模型可以在图像中生成嵌入文字。
统一多模态模型: Emu3.5、Lumina-DiMoo 等模型尝试通过文本-图像交错推理实现 “Thinking with Images”。

2.3 视频生成推理评估

已有工作（如 Wiedemer et al. 和 Guo et al.）开始探索视频生成模型的推理能力，但存在三个不足：(1) 仅关注视觉推理，未涉及文本推理；(2) 评估样本量有限，缺乏统计鲁棒性；(3) 缺少与 SOTA VLM 的系统性对比。本文在这三个方面进行了补充。

三、Method

3.1 VideoThinkBench 基准构建

作者构建了VideoThinkBench，包含4,149 个测试样本，覆盖五种核心推理能力：

能力层次	任务类型	样本数	说明
几何直觉	目测谜题 (Eyeballing Puzzles)	1,050	21种几何题型，分为Point/Line/Shape三类
视觉模式归纳	视觉拼图 (Visual Puzzles)	496	改编自PuzzleVQA，含对称/渐变/组合三类
抽象规则归纳	ARC-AGI-2	1,000	少样本抽象网格变换推理
空间规划与搜索	迷宫 (Mazes)	150	三种形状：正方形/六边形/圆形
语言概念理解与推理	文本为主任务	1,453	改编自GSM8K、MATH、MMLU、MMMU等

视觉为主任务

目测谜题：自主设计的21种几何推理题（如找圆心、画切线、光线反射等），每题50个样本，多选题形式，可自动化批量生成和验证。

视觉拼图：改编自 PuzzleVQA，包含颜色对称、渐变感知、形状组合等10种题型。

ARC-AGI-2：从示例中归纳变换规则并应用到新输入，测试少样本归纳推理能力。
迷宫：从起点到终点画路径，不能穿墙。

文本为主任务

将已有基准的题目显示在参考图像中，提示模型在视频中展示书面解题过程，并通过音频说出最终答案。涵盖：

纯文本数学推理: GSM8K, MATH-500, AIME24/25
纯文本通识推理: BBH, MMLU, MMLU-Pro, GPQA, SuperGPQA
多模态数学推理: MathVista, MathVision
多模态通识推理: MMBench, MMMU

3.2 评估方法

视频生成模型的三种评估方式

针对 Sora-2 的输出，作者设计了三种互补的评估策略：

Audio（音频评估）：提取视频音频并转录，获取口述答案。
Last Frame（末帧评估）：提取视频最后一帧，识别其中标注或书写的答案。
Major Frame（主帧投票）：每隔5帧采样一帧，对每帧的答案做多数投票，起到去噪效果。

VLM基线

GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro 等VLM直接以文本形式输出答案。

LLM-as-a-Judge

文本为主任务使用 GPT-4o 作为评判器，分别对末帧图像和音频转录文本进行答案正确性判断。

四、Experiments

4.1 视觉为主任务

目测谜题：Sora-2 超越 SOTA VLMs

关键发现：Sora-2 在 Point 和 Line 类任务上大幅领先 VLMs，展现出通过"画图"进行空间推理的独特优势。例如在光线反射题中，Sora-2 能够准确画出反射路径并标记通过的点。

视觉拼图：展现归纳推理能力

Sora-2 在对称任务上与 Claude Sonnet 4.5 表现相当（81.9% vs 80.1%），说明视频生成模型可以识别和应用颜色、形状、尺寸的模式规律。但在渐变和组合任务上仍落后于 GPT-5。

ARC-AGI-2：少样本学习者

Sora-2 自动评估准确率仅 1.3%，但人工分析 100 个样本后发现：3% 完全正确，14% 基本正确，28% 部分正确。模型往往能抓住核心规则但在执行细节上失败。一个有趣的发现是模型在生成过程中展现了自我纠正行为。

迷宫：仅限正方形

Sora-2 在正方形迷宫上有 40% 的成功率，但六边形和圆形迷宫完全失败（0%），说明其空间推理能力尚未泛化到非网格结构。

4.2 文本为主任务

数据集	Sora-2 (Audio)	Gemini 2.5 Pro	GPT-5 high	Claude Sonnet 4.5
GSM8K	98.9	98.9	100.0	100.0
MATH-500	92.0	99.0	99.0	98.0
AIME24	46.7	93.3	95.0	75.0
MMMU	69.2	79.0	77.0	82.0
MathVista	75.7	70.0	67.5	72.5

关键发现：Sora-2 通过音频评估在 GSM8K 上接近满分，在 MathVista 上甚至超过了所有 VLM 基线。但在更难的 AIME 竞赛题和 GPQA 上差距明显。音频准确率普遍高于末帧准确率，原因是生成准确的书面文字仍是视频模型的难点。

4.3 增强推理能力的方法

自一致性提升表现

在 Arc Connect 谜题上，不同评估方式的准确率对比：

评估方法	单次	5次投票
Audio	12%	12%
Last Frame	56%	66%
Major Frame	68%	90%

多次生成后取多数投票可以大幅提升性能，揭示了视频生成推理中测试时扩展 (test-time scaling)的潜力。

4.4 能力来源分析

排除数据泄露

用不同数值生成相似结构的新题目，Sora-2 在原始题和衍生题上表现一致（GSM8K: 98.9% vs 100%），排除了数据泄露的可能。

推理过程质量分析

对 115 个正确回答的样本进行人工分析：

类别	占比
完全正确	13.91%
逻辑正确但书写有误	29.57%
不可读或逻辑错误	43.48%
缺少解题过程	6.96%
无需解题过程	6.09%

重要发现：Sora-2 虽然能给出正确答案，但视频中的推理过程大多不可读。这暗示正确答案可能并非来自视频中展示的推理过程。

Prompt Rewriter 是关键

通过 Wan 2.5 的对比实验（可以控制prompt重写器的开关）：

数据集	Prompt重写	Last Frame	Audio
GSM8K	✘	0.0%	0.0%
GSM8K	✔	78.4%	31.9%

关闭重写器后准确率几乎归零。重写器实际上在视频生成前就已经解出了题目，然后将解题步骤转化为视频生成指令。作者推测 Sora-2 的文本推理能力也主要来源于其内部的 prompt 重写模型。

五、Conclusion

Sora-2 是一个有能力的推理者：在视觉推理任务上与 SOTA VLMs 相当，在目测谜题上甚至超越 GPT-5 约10%。
统一多模态潜力：Sora-2 能在视频帧中嵌入文字，通过视频生成实现文本与视觉的统一推理。
可提升性：少样本学习和自一致性投票都能有效提升表现。
局限性：Sora-2 不开源，无法分析内部机制；文本推理能力可能主要依赖 prompt 重写器而非视频模型本身。
未来方向：通过 RLVR（强化学习+可验证奖励）增强视频推理；将文本语料转为视频形式训练数据（如逐帧模拟白板书写），使视频模型获得文本世界知识。

六、个人思考

6.1 “Thinking with Video” 的真实推理能力有多少？

这篇论文最令人深思的部分不是 Sora-2 的亮眼数字，而是第3.2节的能力来源分析。Wan 2.5 的实验清楚地表明：关闭 prompt 重写器后，模型在文本推理上的能力几乎归零。这意味着所谓的"用视频思考"在文本推理任务上，实际上是**“用文本思考后把答案画成视频”**。真正在做推理的是 prompt 重写器（本质上是一个 LLM），视频生成模型只是一个"可视化渲染器"。

这引发了一个根本性问题：如果文本推理能力来自 prompt 重写器，那么在 GSM8K 上 98.9% 的准确率到底说明了什么？它更多地说明了 Sora-2 的系统工程能力（集成了一个强大的 LLM 作为前处理），而非视频生成模型本身的推理能力。

6.2 视觉推理才是真正的亮点

相比之下，目测谜题上的表现才是论文最有说服力的贡献。在这些任务中，Sora-2 通过"画线"来解决几何问题——这是一种 VLMs 做不到的推理方式。VLMs 必须在"脑中"想象几何关系然后输出文字答案，而 Sora-2 可以实际地"画出来"并从画图结果中读取答案。这种具身化的推理方式确实是一个新的范式贡献。

6.3 评估方法的创新与局限

三种评估方式（Audio/Last Frame/Major Frame）的设计很有巧思，尤其是 Major Frame 投票机制，本质上利用了视频的时间冗余来实现去噪。但这也暴露了一个问题：视频生成的不稳定性（末帧可能被 SMPTE 色条或黑屏破坏）是一个工程问题而非推理问题。未来需要更鲁棒的视频生成才能让这个范式实用化。