当前位置：首页 > news >正文

多模态推理新范式：上海AI Lab新作证明“画”出答案比“说”出答案更靠谱

news 2026/7/14 5:21:46

在通往 AGI 的道路上，大语言模型（LLM）和多模态大模型（MLLM）的自回归架构似乎已经成为了“真理”。然而，这种基于一维序列的线性推理模式，在处理长程、视觉中心任务时，正暴露出明显的短板——它缺乏全局观，且难以纠错。

近日，上海人工智能实验室联合南京大学、香港中文大学及上海交通大学，在这个MLLM 统治的多模态推理领域撕开了一道口子。

他们提出的DiffThinker模型，并没有试图教会 MLLM 如何更好地“说话”，而是利用扩散模型（Diffusion Models）构建了一种全新的视觉推理范式，在视觉中心任务上，其准确率足以碾压 GPT-5 和 Gemini-3-Flash，以及同数据训练的Qwen3-VL-32B。

论文地址：https://arxiv.org/pdf/2512.24165
项目主页：https://diffthinker-project.github.io
代码仓库：https://github.com/lcqysl/DiffThinker

逃离一维诅咒：为什么选 Diffusion？

当人类解决一个迷宫问题时，我们不会像 LLM 那样，在脑子里一行行地写出“先向左 3 步，再向上 2 步……”的文本代码。相反，我们会俯瞰全局，在瞬间构建出一条视觉路径。

这正是 DiffThinker 的核心洞见：复杂的视觉推理，不应被强行降维成符号序列。

扩散模型的“天赋”：原生并行推理

DiffThinker 的成功，很大程度上归功于扩散模型自带的物理特性。在推理的初始阶段（高噪声状态），DiffThinker 并不是像 LLM 那样只能试探一条路。相反，它在潜在空间中同时激活了多条可能的路径分布。随着去噪步数的推进，那些不符合约束条件的路径概率逐渐消失，模型自动收敛到最优解，实现了原生的并行推理（Native Parallel Reasoning）。

实验结果：碾压级的性能

研究团队在四个领域的七大任务上进行了系统评测，包括：

长程规划：VSP, VSP-Super, Maze（迷宫）
组合优化：TSP（旅行商问题）
约束满足：Sudoku（数独）
空间推理：Jigsaw（拼图）, VisPuzzle

主要结果如下：

DiffThinker在所有任务上的平均得分高达87.4，而 GPT-5 仅为 21.1，Gemini-3-Flash 为 41.3。同数据训练的Qwen3-VL-32B也只有62.9。

1+1 > 2：DiffThinker与MLLM合作

扩散模型虽然直觉强，但会不会缺乏逻辑严密性？

DiffThinker 给出的方案是：协同推理（Collaborative Reasoning）。
在实验中，DiffThinker 扮演了“直觉系统”的角色，快速生成多个高置信度的候选视觉解；而 MLLM 则扮演“验证系统”，负责对这些视觉解进行校验。

结果显示，这种合作实现1+1>2的效果，超过各自单一模型。

结语

如果说 Transformer 代表了人类的逻辑与语言能力，那么 Diffusion Model 正逐渐展示出推理中所需的空间直觉与想象力。当两者真正结合，我们要面对的，可能才是真正的通用智能。

http://www.jsqmd.com/news/202163/

相关文章：

15分钟构建Cursor连接监控原型：快马平台实战

智能办公助手集成GLM-4.6V-Flash-WEB的技术路线

表情包语义解析：GLM-4.6V-Flash-WEB读懂网络梗图

企业级Docker实战：从零搭建微服务架构

GLM-4.6V-Flash-WEB对表格类图像的数据抽取精度

LiveSplit精通指南：从零到实战的计时器配置全解析

VibeVoice在JupyterLab中的一键启动部署教程全公开

ALIBABAPROTECT在企业数据安全中的实际应用

网盘直链下载助手助力VibeVoice大模型权重高速获取

Vivado License迁移指南：更换服务器实操说明

如何用AI分析COMPATTELRUNNER.EXE进程行为

BongoCat：让你的键盘敲击变成萌宠互动秀

TranslucentTB中文界面设置终极解决方案：零基础快速实现任务栏透明美化

Vivado使用通俗解释：FPGA逻辑设计中的时钟域处理

工业自动化中的串口调试实战：从设备连接到数据解析

2025/11/7日每日总结 HBase实战——Shell命令与Java API深度操作

AI助力Pinia状态管理：自动生成高效代码

用SPDLOG快速构建日志监控原型系统

事故现场图像自动摘要：GLM-4.6V-Flash-WEB生成报告

Python自动化抢票神器：告别手动抢票的烦恼

Flink CDC在电商实时数仓中的实战案例

土地利用类型分类：基于GLM-4.6V-Flash-WEB的遥感解译

GLM-4.6V-Flash-WEB在边缘计算设备上的运行可能性

如何通过VibeVoice-WEB-UI实现高质量播客自动化生产？

Poppler Windows终极指南：免费PDF处理工具完整解决方案

企业级开发：VSCode+SSH远程开发实战指南

5分钟搭建SQL注入演示原型：安全教育利器

CSDN官网热议：VibeVoice是否将重新定义中文TTS标准？

电路图语义解析：GLM-4.6V-Flash-WEB的极限挑战

AI如何帮你破解Source Insight 4的替代方案