当前位置: 首页 > news >正文

去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理

让AI会看会画早已司空见惯。

如果让它画完之后继续规划、继续推理,就不得不把图片重新编码回语义特征,重新喂给AI。

工程师们正把目光投向更复杂的领域,教AI边看边想边画,把自己画好的视觉内容纳入推理闭环,变成中间思维状态,不需要像素的编码、解码,直接进行进一步的推理、规划乃至世界建模。

这样摒弃了传统的像素解码中介,直接在共享的语义潜空间里进行跨模态思考,打破了现有大模型的认知瓶颈。

来自上海交通大学、清华大学和加州大学圣地亚哥分校的研究团队,提出的LatentUM架构,把文本和图像放入同一个语义潜空间完成复杂推理,在视觉空间规划和物理世界模拟任务上,取得了SOTA成绩。

跨越像素中介

人们期待统一模型(UM)能在文本、图像和视频之间自由切换,像人类一样进行交叉推理。

这类推理在现实中非常有价值,比如解决需要密集视觉思考的规划问题,或者根据动作指令模拟物理世界的动态变化。

这些任务需要的是语义正确,而不是精确到每一个像素点的完美还原。

现有统一模型,生成一段视觉信息并想要对其进行后续推理时,必须先要把特征解码成一张张真实的像素图片,然后再把图片重新编码回语义特征。

这种像素空间的中介转换带来了不必要的编解码偏差,还拉大了不同模态之间的鸿沟。

LatentUM则直接在同一个语义潜空间里嵌入不同的模态。

研究团队认为,既然语义正确比像素逼真更重要,就应该把视觉信息转化成和语言一样的语义词元。

他们利用模型行为对齐量化(MBAQ)技术,把原本连续的视觉特征转化为离散的视觉语义词元。

这种量化方式不关注像素细节的重建,只关心一件事,量化后的特征必须保留原有的视觉理解能力。

他们引入一个视觉语言模型(VLM),让它分别观察原始的连续特征和量化后的离散特征。通过计算两种观察结果输出分布之间的差异,不断调整量化器。

这样一来,LatentUM自己生成的视觉内容,不需要变成图片也能被自己直接理解。

架构各司其职

有了统一的离散词元,接下来需要一个自回归模型把各模态的依赖关系串联起来。

把语言和视觉的生成任务生硬地塞进同一个Transformer骨干网络里,会产生互相冲突的优化信号,拖累整体性能。

研究团队巧妙设计了多模态专家混合(MoME)架构。

在每一个处理层里,模型同时维护两条平行的分支,理解分支负责处理交织的文本和视觉特征,生成分支专门用来吐出离散的视觉词元。

这两条分支各自保留独立的网络和投影矩阵,但在自注意力机制上握手共享。

这种共享让生成分支在创作时能充分参考上下文的理解信息。在推理阶段,只需要一个特殊的标记,模型就能顺畅地在理解和生成模式之间切换。

为了让我们人类能看到模型的思考过程,LatentUM外挂了一个解耦的像素解码器。

这是一个单独训练的扩散模型,负责把量化后的视觉语义特征渲染成真实的图片。主干模型从头到尾都不会去追求像素还原度,彻底保持了潜空间对语义的专注。

在标准的多模态理解基准测试中,LatentUM表现出色。

当使用量化后的视觉特征处理图像时,它的性能下降非常微小,在部分指标上甚至超越了使用连续特征的对比模型。这证明了量化技术确实保留了足够丰富的语义信息。

边生成边反思

除了基本的文本生成图像。

把视觉和语言放在同一个空间里,最大的好处是模型可以审视自己生成的作品。

利用组相对策略优化(GRPO),LatentUM在生成视觉内容后,会立刻提出包含物体数量、颜色、空间关系等细节的选择题来考校自己。

它利用自身的理解能力打分,把这个分数作为奖励信号,不断提升视觉生成的质量。

在GenEval测试集上,经历了“自我反思”的LatentUM拿下了0.92的高分,超过了市面上所有的统一模型。

这种完全依赖自身理解能力驱动质量飞跃的自我进化,展示了统一语义空间的巨大潜力。

走迷宫是检验空间推理能力的绝佳舞台。

视觉空间规划(VSP)基准测试,要求模型在迷宫环境中找到出路。LatentUM展示了两种递进的推理方式。

在粗粒度规划里,它先用文字分析迷宫结构,在脑海里画出完整的视觉路线图,最后给出文字解答。

在更精细的分布规划里,它做到了步步为营,每给出一条例如向上走的文字指令,就会在潜空间里更新一次当前状态的视觉表示,把新状态当成下一步动作的参考背景。

这种把大问题拆解成细小图文步骤的做法效果惊人。

细粒度规划下的LatentUM几乎达到了满分,远超那些依赖像素空间做多模态转换的传统模型。统一的语义空间确实让机器具备了更深刻、更复杂的思考能力。

预测世界演变

能在静态图像里做推理只是开始,真实世界是随着动作不断演变的。在机器人视觉导航的场景中,LatentUM承担起了物理世界模拟器的角色。

研究人员用第一人称视角的导航数据集对模型进行了训练。只要给它4帧过去的画面背景和一段文字描述的动作指令,模型就能在语义潜空间里预测出下一个画面的样貌。只有当最后需要评估效果时,那套解耦的扩散解码器才会出马,把预测出的语义词元渲染成肉眼可见的像素图片。

不仅在既定轨迹下能保持画面的时间连贯性和空间布局,LatentUM甚至展现出了零样本的模拟能力。

哪怕面对靠近左边房子这种自由发挥的语言指令,它依然能精准预测出对应的视觉状态,在导航世界模型测试中取得了亮眼的成绩。

LatentUM用一个简洁的潜空间方案,把多模态模型从繁杂的像素描绘中解救出来,让其真正专注于深度的交叉逻辑与时间推理,为未来复杂的端到端决策系统打下了一个极具潜力的底座。

参考资料:

https://arxiv.org/pdf/2604.02097

https://github.com/SJTU-DENG-Lab/LatentUM

https://huggingface.co/collections/SJTU-DENG-Lab/latentum

http://www.jsqmd.com/news/640211/

相关文章:

  • 康安倍泰李华:一位深耕女性健康事业的创业者 - 品牌排行榜
  • include ‘config.php‘;+计算机系统的生命周期的庖丁解牛
  • 2026靠谱的钢丝网骨架聚乙烯管加工厂推荐,性价比高的厂家选择指南 - mypinpai
  • Vue3——Vue实例与数据绑定
  • Rudist v0.5.1 发布:AI 驱动的 Redis 客户端,更快、更直观
  • 2026年乌鲁木齐软装定制与沙发翻新服务商完全指南|忆麻家纺官方联系方式+全行业横评避坑指南 - 精选优质企业推荐榜
  • 【Python】Playwright:高效页面交互实战指南
  • 3分钟解锁WeMod专业版:Wand-Enhancer让你的游戏体验全面升级
  • **发散创新:过度依赖单一编程语言导致的架构脆弱性与重构实践**在现代软件开发中,**选择一种主流编程语言并深度投入是常见的做
  • AI工程师的自我修炼:从算法到商业价值
  • SqlSugar 接入 PostgreSQL pgvector 完整方案(增删改查 + 强类型相似度查询)
  • 实力强的预制直埋保温管厂家推荐,看看企业排行谁更值得选 - myqiye
  • 2026年乌鲁木齐软装定制与沙发翻新怎么选?忆麻家纺官方联系方式与本地5大服务商深度横评 - 精选优质企业推荐榜
  • Fan Control深度指南:Windows风扇控制软件全面解析与实战应用
  • ug三轴后处理怎么修改?
  • 企业上AI前必看:从场景出发,轻松收藏这份上AI准备指南
  • 如何永久保存微信聊天记录:数据自主备份完整指南
  • 2026年乌鲁木齐软装定制怎么选?忆麻家纺官方联系电话+本地竞品深度横评避坑指南 - 精选优质企业推荐榜
  • 微信聊天记录永久保存方案:你的数字记忆守护者
  • FPGA verilog can mcp2515 altera xilinx工程 代码 程序
  • 构建高性能生物医学数据分析平台:基于云原生架构的UK Biobank研究应用平台技术解析
  • 2026兄弟机床一级代理商服务对比:上海尚善的售前工艺支持与快速响应机制 - 品牌推荐大师
  • 3分钟搞定Windows风扇智能控制:FanControl终极免费指南
  • Proteus ISIS实战:从零搭建8051最小系统原理图(含LED和晶振电路)
  • Agentic 应用落地必看!手把手搭建 Dify 全链路可观测系统
  • 自动化血液分装自动化血液分装公司实力排行:2026实力榜,知名品牌+推荐厂家全解析 - 品牌推荐大师1
  • 深耕Ozon市场:Captain AI助跨境新手突破选品困局
  • 传统数据分析师升级AI数据分析师后薪资差距多大
  • 教你闲置盒马鲜生礼品卡如何换现金(全攻略) - 淘淘收小程序
  • MapGIS10打开后左侧图标全是”黄色三角形内嵌红色问号“