Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
JoyAI-Image 论文总结、创新点及核心章节翻译
一、文章主要内容
JoyAI-Image 是京东统一多模态基础模型,一体化实现图像理解、文生图、指令驱动图像编辑三大核心能力,核心目标是在统一框架中唤醒空间智能,解决传统多模态模型理解-生成交互弱、空间几何感知不足的问题。
模型以空间增强的多模态大语言模型(MLLM)为认知核心,搭配多模态扩散Transformer(MMDiT)与VAE,通过共享多模态接口实现感知与生成的双向交互;搭配规模化训练方案(统一指令微调、长文本渲染监督、空间对齐数据、空间编辑信号),在理解、生成、长文本渲染、编辑基准上达到SOTA或顶尖水平,同时具备更强的空间推理、多视图生成、几何精准编辑能力,为具身智能、世界模型等下游应用提供支撑。
二、核心创新点
- 统一多模态架构
首次将图像理解、文生图、指令编辑深度耦合,以空间增强MLLM为统一接口,为MMDiT提供语义+空间对齐条件,打破感知与生成的割裂状态。 - 空间智能唤醒机制
构建OpenSpatial自动化空间数据引擎,生成300万空间对齐QA数据,覆盖空间测量、关系、相机感知、多视图一致性、场景推理五大能力,将空间能力融入全训练流程。</
