当前位置: 首页 > news >正文

论文阅读笔记 | Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

一、Motivation

1.1 现有范式的局限

AI推理经历了两个重要阶段:

  • Thinking with Text:Chain-of-Thought (CoT) 显著提升了LLM的推理能力,但纯文本无法处理空间、视觉相关的推理任务。
  • Thinking with Images:OpenAI o3等模型在CoT中引入图像(裁剪、缩放、旋转),弥补了视觉推理的不足。

然而这两种范式仍存在根本性缺陷:

  1. 静态约束:图像只能捕捉单一时刻,无法表达动态过程、时间变化或连续变换。例如,画一条光线的反射路径本质上是一个动态过程,静态图像难以自然表达。
  2. 模态分离:文本和视觉仍作为两个独立模态处理,缺乏真正统一的多模态理解和生成框架。

1.2 为什么是视频?

视频天然具备两个关键优势:

  • 动态推理 (Dynamic Reasoning):可以可视化动态过程,例如画线来解决空间推理题,展示连续变换。
  • 多模态融合 (Multimodal Fusion):视频帧中可以嵌入文字,配合音频输出,实现文本和视觉在时间维度上的自然对齐,更贴近人类"想象"和"心理模拟"的认知过程。

因此,作者提出“Thinking with Video”,利用 Sora-2 等视频生成模型,以视频帧作为统一媒介进行多模态推理。

二、Related Work

2.1 视频生成模型

视频生成领域正在快速发展。从早期的 Sora(被称为视频领域的 “GPT-1 时刻”)到 Sora-2,模型能够生成更逼真、可控、物理准确的视频,甚至包含同步对话和声音效果。其他闭源模型如 Runway Gen-3、Pika Labs、Luma AI、Google Veo 系列也在推动行业发展。开源方面则有 Stable Video Diffusion、Hunyan-Video、Wan 系列等。

2.2 推理范式迁移

  • Thinking with Text: CoT 及大规模强化学习(如 DeepSeek-R1)促使 LLM 进行深度推理。
  • Thinking with Images: o3/o4-mini 在 CoT 中原生地裁剪、缩放和旋转图像;Nano Banana 等模型可以在图像中生成嵌入文字。
  • 统一多模态模型: Emu3.5、Lumina-DiMoo 等模型尝试通过文本-图像交错推理实现 “Thinking with Images”。

2.3 视频生成推理评估

已有工作(如 Wiedemer et al. 和 Guo et al.)开始探索视频生成模型的推理能力,但存在三个不足:(1) 仅关注视觉推理,未涉及文本推理;(2) 评估样本量有限,缺乏统计鲁棒性;(3) 缺少与 SOTA VLM 的系统性对比。本文在这三个方面进行了补充。


三、Method

3.1 VideoThinkBench 基准构建


作者构建了VideoThinkBench,包含4,149 个测试样本,覆盖五种核心推理能力:

能力层次任务类型样本数说明
几何直觉目测谜题 (Eyeballing Puzzles)1,05021种几何题型,分为Point/Line/Shape三类
视觉模式归纳视觉拼图 (Visual Puzzles)496改编自PuzzleVQA,含对称/渐变/组合三类
抽象规则归纳ARC-AGI-21,000少样本抽象网格变换推理
空间规划与搜索迷宫 (Mazes)150三种形状:正方形/六边形/圆形
语言概念理解与推理文本为主任务1,453改编自GSM8K、MATH、MMLU、MMMU等
视觉为主任务
  • 目测谜题:自主设计的21种几何推理题(如找圆心、画切线、光线反射等),每题50个样本,多选题形式,可自动化批量生成和验证。

  • 视觉拼图:改编自 PuzzleVQA,包含颜色对称、渐变感知、形状组合等10种题型。

  • ARC-AGI-2:从示例中归纳变换规则并应用到新输入,测试少样本归纳推理能力。
  • 迷宫:从起点到终点画路径,不能穿墙。
文本为主任务

将已有基准的题目显示在参考图像中,提示模型在视频中展示书面解题过程,并通过音频说出最终答案。涵盖:

  • 纯文本数学推理: GSM8K, MATH-500, AIME24/25
  • 纯文本通识推理: BBH, MMLU, MMLU-Pro, GPQA, SuperGPQA
  • 多模态数学推理: MathVista, MathVision
  • 多模态通识推理: MMBench, MMMU

3.2 评估方法

视频生成模型的三种评估方式

针对 Sora-2 的输出,作者设计了三种互补的评估策略:

  1. Audio(音频评估):提取视频音频并转录,获取口述答案。
  2. Last Frame(末帧评估):提取视频最后一帧,识别其中标注或书写的答案。
  3. Major Frame(主帧投票):每隔5帧采样一帧,对每帧的答案做多数投票,起到去噪效果。
VLM基线

GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro 等VLM直接以文本形式输出答案。

LLM-as-a-Judge

文本为主任务使用 GPT-4o 作为评判器,分别对末帧图像和音频转录文本进行答案正确性判断。


四、Experiments

4.1 视觉为主任务

目测谜题:Sora-2 超越 SOTA VLMs

关键发现:Sora-2 在 Point 和 Line 类任务上大幅领先 VLMs,展现出通过"画图"进行空间推理的独特优势。例如在光线反射题中,Sora-2 能够准确画出反射路径并标记通过的点。

视觉拼图:展现归纳推理能力

Sora-2 在对称任务上与 Claude Sonnet 4.5 表现相当(81.9% vs 80.1%),说明视频生成模型可以识别和应用颜色、形状、尺寸的模式规律。但在渐变和组合任务上仍落后于 GPT-5。

ARC-AGI-2:少样本学习者

Sora-2 自动评估准确率仅 1.3%,但人工分析 100 个样本后发现:3% 完全正确,14% 基本正确,28% 部分正确。模型往往能抓住核心规则但在执行细节上失败。一个有趣的发现是模型在生成过程中展现了自我纠正行为。

迷宫:仅限正方形

Sora-2 在正方形迷宫上有 40% 的成功率,但六边形和圆形迷宫完全失败(0%),说明其空间推理能力尚未泛化到非网格结构。

4.2 文本为主任务

数据集Sora-2 (Audio)Gemini 2.5 ProGPT-5 highClaude Sonnet 4.5
GSM8K98.998.9100.0100.0
MATH-50092.099.099.098.0
AIME2446.793.395.075.0
MMMU69.279.077.082.0
MathVista75.770.067.572.5

关键发现:Sora-2 通过音频评估在 GSM8K 上接近满分,在 MathVista 上甚至超过了所有 VLM 基线。但在更难的 AIME 竞赛题和 GPQA 上差距明显。音频准确率普遍高于末帧准确率,原因是生成准确的书面文字仍是视频模型的难点。

4.3 增强推理能力的方法

更多示例提升上下文学习

在 ARC-AGI-2 上,给 Sora-2 提供所有示例(few-shot)比只给一个示例(1-shot)时,高准确率(0.65-1.0)样本数从 95 增加到 130,证实了视频模型的少样本学习能力。

自一致性提升表现

在 Arc Connect 谜题上,不同评估方式的准确率对比:

评估方法单次5次投票
Audio12%12%
Last Frame56%66%
Major Frame68%90%

多次生成后取多数投票可以大幅提升性能,揭示了视频生成推理中测试时扩展 (test-time scaling)的潜力。

4.4 能力来源分析

排除数据泄露

用不同数值生成相似结构的新题目,Sora-2 在原始题和衍生题上表现一致(GSM8K: 98.9% vs 100%),排除了数据泄露的可能。

推理过程质量分析

对 115 个正确回答的样本进行人工分析:

类别占比
完全正确13.91%
逻辑正确但书写有误29.57%
不可读或逻辑错误43.48%
缺少解题过程6.96%
无需解题过程6.09%

重要发现:Sora-2 虽然能给出正确答案,但视频中的推理过程大多不可读。这暗示正确答案可能并非来自视频中展示的推理过程。

Prompt Rewriter 是关键

通过 Wan 2.5 的对比实验(可以控制prompt重写器的开关):

数据集Prompt重写Last FrameAudio
GSM8K0.0%0.0%
GSM8K78.4%31.9%

关闭重写器后准确率几乎归零。重写器实际上在视频生成前就已经解出了题目,然后将解题步骤转化为视频生成指令。作者推测 Sora-2 的文本推理能力也主要来源于其内部的 prompt 重写模型。

五、Conclusion

  1. Sora-2 是一个有能力的推理者:在视觉推理任务上与 SOTA VLMs 相当,在目测谜题上甚至超越 GPT-5 约10%。
  2. 统一多模态潜力:Sora-2 能在视频帧中嵌入文字,通过视频生成实现文本与视觉的统一推理。
  3. 可提升性:少样本学习和自一致性投票都能有效提升表现。
  4. 局限性:Sora-2 不开源,无法分析内部机制;文本推理能力可能主要依赖 prompt 重写器而非视频模型本身。
  5. 未来方向:通过 RLVR(强化学习+可验证奖励)增强视频推理;将文本语料转为视频形式训练数据(如逐帧模拟白板书写),使视频模型获得文本世界知识。

六、个人思考

6.1 “Thinking with Video” 的真实推理能力有多少?

这篇论文最令人深思的部分不是 Sora-2 的亮眼数字,而是第3.2节的能力来源分析。Wan 2.5 的实验清楚地表明:关闭 prompt 重写器后,模型在文本推理上的能力几乎归零。这意味着所谓的"用视频思考"在文本推理任务上,实际上是**“用文本思考后把答案画成视频”**。真正在做推理的是 prompt 重写器(本质上是一个 LLM),视频生成模型只是一个"可视化渲染器"。

这引发了一个根本性问题:如果文本推理能力来自 prompt 重写器,那么在 GSM8K 上 98.9% 的准确率到底说明了什么?它更多地说明了 Sora-2 的系统工程能力(集成了一个强大的 LLM 作为前处理),而非视频生成模型本身的推理能力。

6.2 视觉推理才是真正的亮点

相比之下,目测谜题上的表现才是论文最有说服力的贡献。在这些任务中,Sora-2 通过"画线"来解决几何问题——这是一种 VLMs 做不到的推理方式。VLMs 必须在"脑中"想象几何关系然后输出文字答案,而 Sora-2 可以实际地"画出来"并从画图结果中读取答案。这种具身化的推理方式确实是一个新的范式贡献。

6.3 评估方法的创新与局限

三种评估方式(Audio/Last Frame/Major Frame)的设计很有巧思,尤其是 Major Frame 投票机制,本质上利用了视频的时间冗余来实现去噪。但这也暴露了一个问题:视频生成的不稳定性(末帧可能被 SMPTE 色条或黑屏破坏)是一个工程问题而非推理问题。未来需要更鲁棒的视频生成才能让这个范式实用化。

6.4 统一多模态推理的路还很长

论文将 “Thinking with Video” 定位为"潜在的统一多模态推理范式",措辞谨慎且合理。但从当前结果看:

  • 文本推理依赖 prompt 重写器,不是真正的统一。
  • 迷宫任务只能解正方形,泛化能力有限。
  • 视频中的书面推理过程 43.48% 不可读,说明文字生成质量远未达标。

真正的统一应该是模型在生成视频的过程中自发地进行推理,而不是先用 LLM 解题再用视频模型渲染。这需要在视频生成模型的训练阶段就引入推理能力,而非依赖外部组件。

6.5 对未来研究的启发

  • RLVR for Video:论文提出的用强化学习+可验证奖励来增强视频推理能力是一个很有前景的方向。目测谜题和迷宫等任务天然可验证,非常适合这种训练范式。
  • 视频形式的预训练:将文本知识转化为"白板书写视频"的想法很有创意,本质上是在让视频模型通过视觉通道学习语言。

本文仅为个人阅读理解,如有不当之处欢迎指正。

http://www.jsqmd.com/news/1093134/

相关文章:

  • Spring 事务总踩坑?一文吃透事务管理 + 数据访问底层源码与生产最佳实践
  • 在线教程丨32K上下文一次解析数十页文档,百度开源Unlimited OCR,重构长文档复杂场景
  • TMS320F28379D中断系统:从外设到CPU的实战配置指南
  • LPDDR5 ZQ校准实战:从背景校准到命令模式的深度解析
  • RAG 上下文压缩利器 headroom:深度架构解析与本地实战指南
  • [Android] 只音-免费无损音乐神器-全网曲库随心下
  • 从DCB到OSB:北斗多频多系统硬件延迟改正的演进与实践
  • 从Demo到SaaS:ChatGPT聊天机器人商业化闭环设计(含用户身份鉴权、计费埋点、审计日志)
  • AI专著写作指南:利用AI工具,20万字专著快速撰写不是梦!
  • 晋商遗韵里的明清活化石
  • 更新int count变量,fill()函数中getInIfOpen().read(buffer, pos, buffer.length - pos)这行代码的返回值为8192,
  • D3KeyHelper终极指南:暗黑3智能游戏自动化与按键管理解决方案
  • BGP路由反射器实战:从反射簇设计到防环机制的部署与验证
  • 量子LDPC码波束搜索解码器:原理、优化与应用
  • 考验AI的“自我“-AI对《红楼梦》后40回的改写(29)
  • 内蒙古经销商线上获客怎么做?呼和浩特专业 GEO 获客 + 短视频推广服务商推荐
  • 官宣邀约|7 月慕尼黑上海电子展,中国星坤 × 云汉芯城联合亮相 N2-609,恭候莅临!
  • 面了几个程序员转AI Agent方向,真的崩溃…
  • OV SSL证书一年费用多少?单域名、多域名和通配符价格怎么选
  • HarmonyOS APP《画伴梦工厂》开发第10篇:相册选择与 PhotoViewPicker——从相册导入图片
  • 使用示例示例(1)使用方法一全局函数调用,其余使用结构体方法调用。
  • React Virtual DOM 性能优化实践
  • 信号链路——从采样电阻到电流数值
  • 关于算法性能的理论极限与工程突破路径的技术7
  • 基于matlab模拟直导线中电流感应的电磁场
  • 从调试失败到上线交付:一位资深架构师的ChatGPT API Python集成手记(含企业级重试/降级/监控完整链路)
  • Java的java.lang.foreign.MemorySegment内存访问模式与缓存友好性优化
  • gomonkey
  • 3步搞定缠论分析:开源ChanlunX通达信插件终极指南
  • 苹果4.3 App 为什么建议先做好核心功能,再持续迭代?一次真实项目的经验总结