论文阅读笔记 | Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
一、Motivation
1.1 现有范式的局限
AI推理经历了两个重要阶段:
- Thinking with Text:Chain-of-Thought (CoT) 显著提升了LLM的推理能力,但纯文本无法处理空间、视觉相关的推理任务。
- Thinking with Images:OpenAI o3等模型在CoT中引入图像(裁剪、缩放、旋转),弥补了视觉推理的不足。
然而这两种范式仍存在根本性缺陷:
- 静态约束:图像只能捕捉单一时刻,无法表达动态过程、时间变化或连续变换。例如,画一条光线的反射路径本质上是一个动态过程,静态图像难以自然表达。
- 模态分离:文本和视觉仍作为两个独立模态处理,缺乏真正统一的多模态理解和生成框架。
1.2 为什么是视频?
视频天然具备两个关键优势:
- 动态推理 (Dynamic Reasoning):可以可视化动态过程,例如画线来解决空间推理题,展示连续变换。
- 多模态融合 (Multimodal Fusion):视频帧中可以嵌入文字,配合音频输出,实现文本和视觉在时间维度上的自然对齐,更贴近人类"想象"和"心理模拟"的认知过程。
因此,作者提出“Thinking with Video”,利用 Sora-2 等视频生成模型,以视频帧作为统一媒介进行多模态推理。
二、Related Work
2.1 视频生成模型
视频生成领域正在快速发展。从早期的 Sora(被称为视频领域的 “GPT-1 时刻”)到 Sora-2,模型能够生成更逼真、可控、物理准确的视频,甚至包含同步对话和声音效果。其他闭源模型如 Runway Gen-3、Pika Labs、Luma AI、Google Veo 系列也在推动行业发展。开源方面则有 Stable Video Diffusion、Hunyan-Video、Wan 系列等。
2.2 推理范式迁移
- Thinking with Text: CoT 及大规模强化学习(如 DeepSeek-R1)促使 LLM 进行深度推理。
- Thinking with Images: o3/o4-mini 在 CoT 中原生地裁剪、缩放和旋转图像;Nano Banana 等模型可以在图像中生成嵌入文字。
- 统一多模态模型: Emu3.5、Lumina-DiMoo 等模型尝试通过文本-图像交错推理实现 “Thinking with Images”。
2.3 视频生成推理评估
已有工作(如 Wiedemer et al. 和 Guo et al.)开始探索视频生成模型的推理能力,但存在三个不足:(1) 仅关注视觉推理,未涉及文本推理;(2) 评估样本量有限,缺乏统计鲁棒性;(3) 缺少与 SOTA VLM 的系统性对比。本文在这三个方面进行了补充。
三、Method
3.1 VideoThinkBench 基准构建
作者构建了VideoThinkBench,包含4,149 个测试样本,覆盖五种核心推理能力:
| 能力层次 | 任务类型 | 样本数 | 说明 |
|---|---|---|---|
| 几何直觉 | 目测谜题 (Eyeballing Puzzles) | 1,050 | 21种几何题型,分为Point/Line/Shape三类 |
| 视觉模式归纳 | 视觉拼图 (Visual Puzzles) | 496 | 改编自PuzzleVQA,含对称/渐变/组合三类 |
| 抽象规则归纳 | ARC-AGI-2 | 1,000 | 少样本抽象网格变换推理 |
| 空间规划与搜索 | 迷宫 (Mazes) | 150 | 三种形状:正方形/六边形/圆形 |
| 语言概念理解与推理 | 文本为主任务 | 1,453 | 改编自GSM8K、MATH、MMLU、MMMU等 |
视觉为主任务
- 目测谜题:自主设计的21种几何推理题(如找圆心、画切线、光线反射等),每题50个样本,多选题形式,可自动化批量生成和验证。
- 视觉拼图:改编自 PuzzleVQA,包含颜色对称、渐变感知、形状组合等10种题型。
- ARC-AGI-2:从示例中归纳变换规则并应用到新输入,测试少样本归纳推理能力。
- 迷宫:从起点到终点画路径,不能穿墙。
文本为主任务
将已有基准的题目显示在参考图像中,提示模型在视频中展示书面解题过程,并通过音频说出最终答案。涵盖:
- 纯文本数学推理: GSM8K, MATH-500, AIME24/25
- 纯文本通识推理: BBH, MMLU, MMLU-Pro, GPQA, SuperGPQA
- 多模态数学推理: MathVista, MathVision
- 多模态通识推理: MMBench, MMMU
3.2 评估方法
视频生成模型的三种评估方式
针对 Sora-2 的输出,作者设计了三种互补的评估策略:
- Audio(音频评估):提取视频音频并转录,获取口述答案。
- Last Frame(末帧评估):提取视频最后一帧,识别其中标注或书写的答案。
- Major Frame(主帧投票):每隔5帧采样一帧,对每帧的答案做多数投票,起到去噪效果。
VLM基线
GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro 等VLM直接以文本形式输出答案。
LLM-as-a-Judge
文本为主任务使用 GPT-4o 作为评判器,分别对末帧图像和音频转录文本进行答案正确性判断。
四、Experiments
4.1 视觉为主任务
目测谜题:Sora-2 超越 SOTA VLMs
关键发现:Sora-2 在 Point 和 Line 类任务上大幅领先 VLMs,展现出通过"画图"进行空间推理的独特优势。例如在光线反射题中,Sora-2 能够准确画出反射路径并标记通过的点。
视觉拼图:展现归纳推理能力
Sora-2 在对称任务上与 Claude Sonnet 4.5 表现相当(81.9% vs 80.1%),说明视频生成模型可以识别和应用颜色、形状、尺寸的模式规律。但在渐变和组合任务上仍落后于 GPT-5。
ARC-AGI-2:少样本学习者
Sora-2 自动评估准确率仅 1.3%,但人工分析 100 个样本后发现:3% 完全正确,14% 基本正确,28% 部分正确。模型往往能抓住核心规则但在执行细节上失败。一个有趣的发现是模型在生成过程中展现了自我纠正行为。
迷宫:仅限正方形
Sora-2 在正方形迷宫上有 40% 的成功率,但六边形和圆形迷宫完全失败(0%),说明其空间推理能力尚未泛化到非网格结构。
4.2 文本为主任务
| 数据集 | Sora-2 (Audio) | Gemini 2.5 Pro | GPT-5 high | Claude Sonnet 4.5 |
|---|---|---|---|---|
| GSM8K | 98.9 | 98.9 | 100.0 | 100.0 |
| MATH-500 | 92.0 | 99.0 | 99.0 | 98.0 |
| AIME24 | 46.7 | 93.3 | 95.0 | 75.0 |
| MMMU | 69.2 | 79.0 | 77.0 | 82.0 |
| MathVista | 75.7 | 70.0 | 67.5 | 72.5 |
关键发现:Sora-2 通过音频评估在 GSM8K 上接近满分,在 MathVista 上甚至超过了所有 VLM 基线。但在更难的 AIME 竞赛题和 GPQA 上差距明显。音频准确率普遍高于末帧准确率,原因是生成准确的书面文字仍是视频模型的难点。
4.3 增强推理能力的方法
更多示例提升上下文学习
在 ARC-AGI-2 上,给 Sora-2 提供所有示例(few-shot)比只给一个示例(1-shot)时,高准确率(0.65-1.0)样本数从 95 增加到 130,证实了视频模型的少样本学习能力。
自一致性提升表现
在 Arc Connect 谜题上,不同评估方式的准确率对比:
| 评估方法 | 单次 | 5次投票 |
|---|---|---|
| Audio | 12% | 12% |
| Last Frame | 56% | 66% |
| Major Frame | 68% | 90% |
多次生成后取多数投票可以大幅提升性能,揭示了视频生成推理中测试时扩展 (test-time scaling)的潜力。
4.4 能力来源分析
排除数据泄露
用不同数值生成相似结构的新题目,Sora-2 在原始题和衍生题上表现一致(GSM8K: 98.9% vs 100%),排除了数据泄露的可能。
推理过程质量分析
对 115 个正确回答的样本进行人工分析:
| 类别 | 占比 |
|---|---|
| 完全正确 | 13.91% |
| 逻辑正确但书写有误 | 29.57% |
| 不可读或逻辑错误 | 43.48% |
| 缺少解题过程 | 6.96% |
| 无需解题过程 | 6.09% |
重要发现:Sora-2 虽然能给出正确答案,但视频中的推理过程大多不可读。这暗示正确答案可能并非来自视频中展示的推理过程。
Prompt Rewriter 是关键
通过 Wan 2.5 的对比实验(可以控制prompt重写器的开关):
| 数据集 | Prompt重写 | Last Frame | Audio |
|---|---|---|---|
| GSM8K | ✘ | 0.0% | 0.0% |
| GSM8K | ✔ | 78.4% | 31.9% |
关闭重写器后准确率几乎归零。重写器实际上在视频生成前就已经解出了题目,然后将解题步骤转化为视频生成指令。作者推测 Sora-2 的文本推理能力也主要来源于其内部的 prompt 重写模型。
五、Conclusion
- Sora-2 是一个有能力的推理者:在视觉推理任务上与 SOTA VLMs 相当,在目测谜题上甚至超越 GPT-5 约10%。
- 统一多模态潜力:Sora-2 能在视频帧中嵌入文字,通过视频生成实现文本与视觉的统一推理。
- 可提升性:少样本学习和自一致性投票都能有效提升表现。
- 局限性:Sora-2 不开源,无法分析内部机制;文本推理能力可能主要依赖 prompt 重写器而非视频模型本身。
- 未来方向:通过 RLVR(强化学习+可验证奖励)增强视频推理;将文本语料转为视频形式训练数据(如逐帧模拟白板书写),使视频模型获得文本世界知识。
六、个人思考
6.1 “Thinking with Video” 的真实推理能力有多少?
这篇论文最令人深思的部分不是 Sora-2 的亮眼数字,而是第3.2节的能力来源分析。Wan 2.5 的实验清楚地表明:关闭 prompt 重写器后,模型在文本推理上的能力几乎归零。这意味着所谓的"用视频思考"在文本推理任务上,实际上是**“用文本思考后把答案画成视频”**。真正在做推理的是 prompt 重写器(本质上是一个 LLM),视频生成模型只是一个"可视化渲染器"。
这引发了一个根本性问题:如果文本推理能力来自 prompt 重写器,那么在 GSM8K 上 98.9% 的准确率到底说明了什么?它更多地说明了 Sora-2 的系统工程能力(集成了一个强大的 LLM 作为前处理),而非视频生成模型本身的推理能力。
6.2 视觉推理才是真正的亮点
相比之下,目测谜题上的表现才是论文最有说服力的贡献。在这些任务中,Sora-2 通过"画线"来解决几何问题——这是一种 VLMs 做不到的推理方式。VLMs 必须在"脑中"想象几何关系然后输出文字答案,而 Sora-2 可以实际地"画出来"并从画图结果中读取答案。这种具身化的推理方式确实是一个新的范式贡献。
6.3 评估方法的创新与局限
三种评估方式(Audio/Last Frame/Major Frame)的设计很有巧思,尤其是 Major Frame 投票机制,本质上利用了视频的时间冗余来实现去噪。但这也暴露了一个问题:视频生成的不稳定性(末帧可能被 SMPTE 色条或黑屏破坏)是一个工程问题而非推理问题。未来需要更鲁棒的视频生成才能让这个范式实用化。
6.4 统一多模态推理的路还很长
论文将 “Thinking with Video” 定位为"潜在的统一多模态推理范式",措辞谨慎且合理。但从当前结果看:
- 文本推理依赖 prompt 重写器,不是真正的统一。
- 迷宫任务只能解正方形,泛化能力有限。
- 视频中的书面推理过程 43.48% 不可读,说明文字生成质量远未达标。
真正的统一应该是模型在生成视频的过程中自发地进行推理,而不是先用 LLM 解题再用视频模型渲染。这需要在视频生成模型的训练阶段就引入推理能力,而非依赖外部组件。
6.5 对未来研究的启发
- RLVR for Video:论文提出的用强化学习+可验证奖励来增强视频推理能力是一个很有前景的方向。目测谜题和迷宫等任务天然可验证,非常适合这种训练范式。
- 视频形式的预训练:将文本知识转化为"白板书写视频"的想法很有创意,本质上是在让视频模型通过视觉通道学习语言。
本文仅为个人阅读理解,如有不当之处欢迎指正。
