去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理
让AI会看会画早已司空见惯。
如果让它画完之后继续规划、继续推理,就不得不把图片重新编码回语义特征,重新喂给AI。
工程师们正把目光投向更复杂的领域,教AI边看边想边画,把自己画好的视觉内容纳入推理闭环,变成中间思维状态,不需要像素的编码、解码,直接进行进一步的推理、规划乃至世界建模。
这样摒弃了传统的像素解码中介,直接在共享的语义潜空间里进行跨模态思考,打破了现有大模型的认知瓶颈。
来自上海交通大学、清华大学和加州大学圣地亚哥分校的研究团队,提出的LatentUM架构,把文本和图像放入同一个语义潜空间完成复杂推理,在视觉空间规划和物理世界模拟任务上,取得了SOTA成绩。
跨越像素中介
人们期待统一模型(UM)能在文本、图像和视频之间自由切换,像人类一样进行交叉推理。
这类推理在现实中非常有价值,比如解决需要密集视觉思考的规划问题,或者根据动作指令模拟物理世界的动态变化。
这些任务需要的是语义正确,而不是精确到每一个像素点的完美还原。
现有统一模型,生成一段视觉信息并想要对其进行后续推理时,必须先要把特征解码成一张张真实的像素图片,然后再把图片重新编码回语义特征。
这种像素空间的中介转换带来了不必要的编解码偏差,还拉大了不同模态之间的鸿沟。
LatentUM则直接在同一个语义潜空间里嵌入不同的模态。
研究团队认为,既然语义正确比像素逼真更重要,就应该把视觉信息转化成和语言一样的语义词元。
他们利用模型行为对齐量化(MBAQ)技术,把原本连续的视觉特征转化为离散的视觉语义词元。
这种量化方式不关注像素细节的重建,只关心一件事,量化后的特征必须保留原有的视觉理解能力。
他们引入一个视觉语言模型(VLM),让它分别观察原始的连续特征和量化后的离散特征。通过计算两种观察结果输出分布之间的差异,不断调整量化器。
这样一来,LatentUM自己生成的视觉内容,不需要变成图片也能被自己直接理解。
架构各司其职
有了统一的离散词元,接下来需要一个自回归模型把各模态的依赖关系串联起来。
把语言和视觉的生成任务生硬地塞进同一个Transformer骨干网络里,会产生互相冲突的优化信号,拖累整体性能。
研究团队巧妙设计了多模态专家混合(MoME)架构。
在每一个处理层里,模型同时维护两条平行的分支,理解分支负责处理交织的文本和视觉特征,生成分支专门用来吐出离散的视觉词元。
这两条分支各自保留独立的网络和投影矩阵,但在自注意力机制上握手共享。
这种共享让生成分支在创作时能充分参考上下文的理解信息。在推理阶段,只需要一个特殊的标记,模型就能顺畅地在理解和生成模式之间切换。
为了让我们人类能看到模型的思考过程,LatentUM外挂了一个解耦的像素解码器。
这是一个单独训练的扩散模型,负责把量化后的视觉语义特征渲染成真实的图片。主干模型从头到尾都不会去追求像素还原度,彻底保持了潜空间对语义的专注。
在标准的多模态理解基准测试中,LatentUM表现出色。
当使用量化后的视觉特征处理图像时,它的性能下降非常微小,在部分指标上甚至超越了使用连续特征的对比模型。这证明了量化技术确实保留了足够丰富的语义信息。
边生成边反思
除了基本的文本生成图像。
把视觉和语言放在同一个空间里,最大的好处是模型可以审视自己生成的作品。
利用组相对策略优化(GRPO),LatentUM在生成视觉内容后,会立刻提出包含物体数量、颜色、空间关系等细节的选择题来考校自己。
它利用自身的理解能力打分,把这个分数作为奖励信号,不断提升视觉生成的质量。
在GenEval测试集上,经历了“自我反思”的LatentUM拿下了0.92的高分,超过了市面上所有的统一模型。
这种完全依赖自身理解能力驱动质量飞跃的自我进化,展示了统一语义空间的巨大潜力。
走迷宫是检验空间推理能力的绝佳舞台。
视觉空间规划(VSP)基准测试,要求模型在迷宫环境中找到出路。LatentUM展示了两种递进的推理方式。
在粗粒度规划里,它先用文字分析迷宫结构,在脑海里画出完整的视觉路线图,最后给出文字解答。
在更精细的分布规划里,它做到了步步为营,每给出一条例如向上走的文字指令,就会在潜空间里更新一次当前状态的视觉表示,把新状态当成下一步动作的参考背景。
这种把大问题拆解成细小图文步骤的做法效果惊人。
细粒度规划下的LatentUM几乎达到了满分,远超那些依赖像素空间做多模态转换的传统模型。统一的语义空间确实让机器具备了更深刻、更复杂的思考能力。
预测世界演变
能在静态图像里做推理只是开始,真实世界是随着动作不断演变的。在机器人视觉导航的场景中,LatentUM承担起了物理世界模拟器的角色。
研究人员用第一人称视角的导航数据集对模型进行了训练。只要给它4帧过去的画面背景和一段文字描述的动作指令,模型就能在语义潜空间里预测出下一个画面的样貌。只有当最后需要评估效果时,那套解耦的扩散解码器才会出马,把预测出的语义词元渲染成肉眼可见的像素图片。
不仅在既定轨迹下能保持画面的时间连贯性和空间布局,LatentUM甚至展现出了零样本的模拟能力。
哪怕面对靠近左边房子这种自由发挥的语言指令,它依然能精准预测出对应的视觉状态,在导航世界模型测试中取得了亮眼的成绩。
LatentUM用一个简洁的潜空间方案,把多模态模型从繁杂的像素描绘中解救出来,让其真正专注于深度的交叉逻辑与时间推理,为未来复杂的端到端决策系统打下了一个极具潜力的底座。
参考资料:
https://arxiv.org/pdf/2604.02097
https://github.com/SJTU-DENG-Lab/LatentUM
https://huggingface.co/collections/SJTU-DENG-Lab/latentum
