当前位置：首页 > news >正文

清华研究发现：当世界模型能够通过视觉想象而非纯文本思考时，其推理方式更接近人类！

news 2026/7/4 11:19:59

模型能解高数题、写复杂代码，但遇到“把这张纸对折三次再剪个洞，展开后有几个窟窿”就频频卡壳。纯语言推理在符号和抽象规则上进步很快，但在物理常识、空间拓扑这些需要具象表征的任务上，依然存在明显的系统性短板。

社区一直对“让大模型边想边画图到底有没有用”争论不休，早期实验结论也很混杂。既不知道何时该引入多模态生成，也不知道该对结果抱多大期望。这篇由清华大学与字节跳动 Seed 团队联合发表的论文，试图通过控制变量把这笔账算清楚。

论文：Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models
链接：https://arxiv.org/pdf/2601.19834v1
项目：https://thuml.github.io/Reasoning-Visual-World

认知科学的双编码理论早就指出，人类同时依赖语言和视觉心理表征来理解世界。当前的统一多模态模型虽然能做到图文统一生成，但视觉生成究竟在哪些环节真正帮到了推理，依然缺乏清晰的理论框架。

纯语言路径在面对依赖空间直觉的物理任务时，往往受限于表征瓶颈。但这并不意味着纯语言推理一无是处，它更提示我们需要根据任务特性重新审视模态分工。

从“画草图”到“世界沙盘”：理论形式化

论文的核心思路，是把大模型的“脑补”过程形式化为一个世界模型。

简单来说，作者将任务建模为一个多可观测马尔可夫决策过程。你可以把它理解为一个允许模型通过不同视角（文字或图像）去观察同一隐含状态的系统。在这个框架下，视觉生成主要承担两项原子能力：世界重建与世界模拟。

世界重建，好比人类根据几张局部照片，脑补出完整房间的布局，并支持生成新视角的图像；世界模拟，则像是在脑子里下棋，提前推演几步操作后的局面变化。交错式多模态思维链，就是让文字推理和图像生成交替推进，像工程师画草稿加写备注一样。

看这张图时，重点关注意念中的状态流转路径：从局部观测到隐含状态，再到多模态思维链的交替生成。它支撑了论文的核心主张：在物理推理中，显式生成中间图像相当于在执行更精确的状态跟踪。但它不能直接证明视觉生成在所有场景都优于文本，其理论推导基于理想化的信息论假设，实际训练中的模态对齐成本远比公式复杂。

换一把尺子：VisWorld-Eval 如何隔离“重建”与“模拟”

要验证“视觉到底在哪有用”，首先需要一把刻度精准的尺子。以往的研究任务设计往往比较随意，导致结论难以横向对比。

为此，作者构建了 VisWorld-Eval 评测集。这套基准没有追求大而全，而是精准隔离了“重建”与“模拟”两类需求。它包含了折纸、多跳物体操作、球体轨迹追踪、立方体三视图投影、真实空间关系、迷宫和推箱子等七项任务，涵盖了合成场景与真实空间关系。

读这张图和表时，重点看两件事：一是任务难度的阶梯设计，二是主流 VLM 在空间物理任务上的普遍低分。这说明当前基于纯语言 CoT 的模型在面对具象变换时确实存在瓶颈。但需要留意的是，零样本低分不一定完全代表认知缺失，部分结果也可能受限于指令遵循能力或评测格式的严格性。注：该基线数据仅反映当前模型在特定评测集上的表现，不直接等价于开放域泛化能力。

边想边画：视觉 CoT 何时拉开差距，何时该让位

实验结果给出了一个比较清晰的信号：模态的选择，高度依赖任务的信息需求。

在论文设定的实验条件下，当任务强依赖几何对称、空间变换或连续状态跟踪（如折纸、球体追踪）时，交错式多模态思维链显著优于纯语言推理或隐式推理。作者在该实验设置下指出，在折纸任务的特定监督微调设置中，视觉路径的样本效率提升了约 4 倍（指对比纯语言 SFT 达到同等折纸任务准确率所需的数据量）。

这张柱状图是全文的“证据高地”。重点对比隐式、语言、视觉三种模式在不同任务上的分差。它直观验证了“视觉优越性假说”在特定任务上的有效性。但它不能推导出视觉 CoT 可以全面替代语言推理，因为性能增益仅在 VisWorld-Eval 的特定设置下测得，直接外推到所有场景需要谨慎。注：柱状图仅反映该基准下的零样本/微调表现，不直接等价于模型开放域物理推理能力。

有意思的是，在迷宫和推箱子这类状态空间相对简单的网格任务中，视觉 CoT 并没有展现出优势，反而是隐式 CoT 表现最好。

这说明，对于能够被坐标或内部隐式表征充分编码的任务，模型其实已经能内部涌现状态跟踪能力。这时候硬上视觉生成，不仅收益有限，还会白白消耗算力和生成时间（如交错生成带来的推理步数翻倍、KV Cache 显存峰值及首字延迟）。这有点像用高射炮打蚊子，工程账算不过来。

看这个案例时，注意观察“文本推理→图像生成→文本修正”的交替节奏，以及中间生成的图像如何辅助空间定位。它证明了多模态模型具备执行显式世界重建的可行性。但它展示的只是精选的成功案例，并未呈现中间图像模糊、结构损坏的失败路径。实际推理上限，依然被当前的视觉生成质量死死卡住。