当前位置：首页 > news >正文

去掉像素中介！上海交大让AI边看边想边画，用同一个“大脑”跨模态推理

news 2026/4/14 16:12:36

让AI会看会画早已司空见惯。

如果让它画完之后继续规划、继续推理，就不得不把图片重新编码回语义特征，重新喂给AI。

工程师们正把目光投向更复杂的领域，教AI边看边想边画，把自己画好的视觉内容纳入推理闭环，变成中间思维状态，不需要像素的编码、解码，直接进行进一步的推理、规划乃至世界建模。

这样摒弃了传统的像素解码中介，直接在共享的语义潜空间里进行跨模态思考，打破了现有大模型的认知瓶颈。

来自上海交通大学、清华大学和加州大学圣地亚哥分校的研究团队，提出的LatentUM架构，把文本和图像放入同一个语义潜空间完成复杂推理，在视觉空间规划和物理世界模拟任务上，取得了SOTA成绩。

跨越像素中介

人们期待统一模型（UM）能在文本、图像和视频之间自由切换，像人类一样进行交叉推理。

这类推理在现实中非常有价值，比如解决需要密集视觉思考的规划问题，或者根据动作指令模拟物理世界的动态变化。

这些任务需要的是语义正确，而不是精确到每一个像素点的完美还原。

现有统一模型，生成一段视觉信息并想要对其进行后续推理时，必须先要把特征解码成一张张真实的像素图片，然后再把图片重新编码回语义特征。

这种像素空间的中介转换带来了不必要的编解码偏差，还拉大了不同模态之间的鸿沟。

LatentUM则直接在同一个语义潜空间里嵌入不同的模态。

研究团队认为，既然语义正确比像素逼真更重要，就应该把视觉信息转化成和语言一样的语义词元。

他们利用模型行为对齐量化（MBAQ）技术，把原本连续的视觉特征转化为离散的视觉语义词元。

这种量化方式不关注像素细节的重建，只关心一件事，量化后的特征必须保留原有的视觉理解能力。

他们引入一个视觉语言模型（VLM），让它分别观察原始的连续特征和量化后的离散特征。通过计算两种观察结果输出分布之间的差异，不断调整量化器。

这样一来，LatentUM自己生成的视觉内容，不需要变成图片也能被自己直接理解。

架构各司其职

有了统一的离散词元，接下来需要一个自回归模型把各模态的依赖关系串联起来。

把语言和视觉的生成任务生硬地塞进同一个Transformer骨干网络里，会产生互相冲突的优化信号，拖累整体性能。

研究团队巧妙设计了多模态专家混合（MoME）架构。

在每一个处理层里，模型同时维护两条平行的分支，理解分支负责处理交织的文本和视觉特征，生成分支专门用来吐出离散的视觉词元。

这两条分支各自保留独立的网络和投影矩阵，但在自注意力机制上握手共享。

这种共享让生成分支在创作时能充分参考上下文的理解信息。在推理阶段，只需要一个特殊的标记，模型就能顺畅地在理解和生成模式之间切换。

为了让我们人类能看到模型的思考过程，LatentUM外挂了一个解耦的像素解码器。

这是一个单独训练的扩散模型，负责把量化后的视觉语义特征渲染成真实的图片。主干模型从头到尾都不会去追求像素还原度，彻底保持了潜空间对语义的专注。

在标准的多模态理解基准测试中，LatentUM表现出色。

当使用量化后的视觉特征处理图像时，它的性能下降非常微小，在部分指标上甚至超越了使用连续特征的对比模型。这证明了量化技术确实保留了足够丰富的语义信息。

边生成边反思

除了基本的文本生成图像。

把视觉和语言放在同一个空间里，最大的好处是模型可以审视自己生成的作品。

利用组相对策略优化（GRPO），LatentUM在生成视觉内容后，会立刻提出包含物体数量、颜色、空间关系等细节的选择题来考校自己。

它利用自身的理解能力打分，把这个分数作为奖励信号，不断提升视觉生成的质量。

在GenEval测试集上，经历了“自我反思”的LatentUM拿下了0.92的高分，超过了市面上所有的统一模型。

这种完全依赖自身理解能力驱动质量飞跃的自我进化，展示了统一语义空间的巨大潜力。

走迷宫是检验空间推理能力的绝佳舞台。

视觉空间规划（VSP）基准测试，要求模型在迷宫环境中找到出路。LatentUM展示了两种递进的推理方式。

在粗粒度规划里，它先用文字分析迷宫结构，在脑海里画出完整的视觉路线图，最后给出文字解答。

在更精细的分布规划里，它做到了步步为营，每给出一条例如向上走的文字指令，就会在潜空间里更新一次当前状态的视觉表示，把新状态当成下一步动作的参考背景。

这种把大问题拆解成细小图文步骤的做法效果惊人。

细粒度规划下的LatentUM几乎达到了满分，远超那些依赖像素空间做多模态转换的传统模型。统一的语义空间确实让机器具备了更深刻、更复杂的思考能力。

预测世界演变

能在静态图像里做推理只是开始，真实世界是随着动作不断演变的。在机器人视觉导航的场景中，LatentUM承担起了物理世界模拟器的角色。

研究人员用第一人称视角的导航数据集对模型进行了训练。只要给它4帧过去的画面背景和一段文字描述的动作指令，模型就能在语义潜空间里预测出下一个画面的样貌。只有当最后需要评估效果时，那套解耦的扩散解码器才会出马，把预测出的语义词元渲染成肉眼可见的像素图片。

不仅在既定轨迹下能保持画面的时间连贯性和空间布局，LatentUM甚至展现出了零样本的模拟能力。

哪怕面对靠近左边房子这种自由发挥的语言指令，它依然能精准预测出对应的视觉状态，在导航世界模型测试中取得了亮眼的成绩。

LatentUM用一个简洁的潜空间方案，把多模态模型从繁杂的像素描绘中解救出来，让其真正专注于深度的交叉逻辑与时间推理，为未来复杂的端到端决策系统打下了一个极具潜力的底座。

参考资料：

https://arxiv.org/pdf/2604.02097

https://github.com/SJTU-DENG-Lab/LatentUM

https://huggingface.co/collections/SJTU-DENG-Lab/latentum

查看全文

http://www.jsqmd.com/news/640211/

康安倍泰李华：一位深耕女性健康事业的创业者 - 品牌排行榜

include ‘config.php‘；+计算机系统的生命周期的庖丁解牛

2026靠谱的钢丝网骨架聚乙烯管加工厂推荐，性价比高的厂家选择指南 - mypinpai

Vue3——Vue实例与数据绑定

Rudist v0.5.1 发布：AI 驱动的 Redis 客户端，更快、更直观

2026年乌鲁木齐软装定制与沙发翻新服务商完全指南｜忆麻家纺官方联系方式+全行业横评避坑指南 - 精选优质企业推荐榜

【Python】Playwright：高效页面交互实战指南

3分钟解锁WeMod专业版：Wand-Enhancer让你的游戏体验全面升级

**发散创新：过度依赖单一编程语言导致的架构脆弱性与重构实践**在现代软件开发中，**选择一种主流编程语言并深度投入是常见的做

AI工程师的自我修炼：从算法到商业价值

SqlSugar 接入 PostgreSQL pgvector 完整方案（增删改查 + 强类型相似度查询）

实力强的预制直埋保温管厂家推荐，看看企业排行谁更值得选 - myqiye

2026年乌鲁木齐软装定制与沙发翻新怎么选？忆麻家纺官方联系方式与本地5大服务商深度横评 - 精选优质企业推荐榜

Fan Control深度指南：Windows风扇控制软件全面解析与实战应用

ug三轴后处理怎么修改？

企业上AI前必看：从场景出发，轻松收藏这份上AI准备指南

如何永久保存微信聊天记录：数据自主备份完整指南

2026年乌鲁木齐软装定制怎么选？忆麻家纺官方联系电话+本地竞品深度横评避坑指南 - 精选优质企业推荐榜

微信聊天记录永久保存方案：你的数字记忆守护者

FPGA verilog can mcp2515 altera xilinx工程代码程序

构建高性能生物医学数据分析平台：基于云原生架构的UK Biobank研究应用平台技术解析

2026兄弟机床一级代理商服务对比：上海尚善的售前工艺支持与快速响应机制 - 品牌推荐大师

3分钟搞定Windows风扇智能控制：FanControl终极免费指南

Proteus ISIS实战：从零搭建8051最小系统原理图（含LED和晶振电路）

Agentic 应用落地必看！手把手搭建 Dify 全链路可观测系统

深耕Ozon市场：Captain AI助跨境新手突破选品困局

传统数据分析师升级AI数据分析师后薪资差距多大

教你闲置盒马鲜生礼品卡如何换现金（全攻略） - 淘淘收小程序

MapGIS10打开后左侧图标全是”黄色三角形内嵌红色问号“

跨越像素中介

架构各司其职

边生成边反思

预测世界演变

相关文章：