当前位置：首页 > news >正文

智源发布多模态大模型Emu3.5：开创视觉语言融合新纪元，推理速度提升20倍

news 2026/3/26 23:27:40

智源发布多模态大模型Emu3.5：开创视觉语言融合新纪元，推理速度提升20倍

【免费下载链接】Emu3.5项目地址: https://ai.gitcode.com/BAAI/Emu3.5

北京智源研究院（BAAI）近日正式推出新一代原生多模态世界模型Emu3.5，该模型以创新的统一世界建模范式，实现了视觉与语言模态的深度有机融合。不同于传统多模态模型依赖模态转换接口的设计，Emu3.5采用端到端的预训练架构，在高达10万亿的交错多模态tokens（包含视频帧数据与文本转录信息）上完成训练，能够直接处理和生成视觉-文本交错序列，彻底摆脱了对模态适配器或任务特定头的依赖，为多模态智能应用开辟了全新路径。

突破性DiDA技术实现推理效率质的飞跃

Emu3.5在技术层面的核心突破在于创新性的Discrete Diffusion Adaptation（DiDA）技术架构。该技术颠覆了传统自回归模型的顺序解码模式，通过将离散扩散过程与双向上下文建模相结合，实现了视觉-文本序列的并行预测。这种架构革新使模型在保持生成质量不下降的前提下，推理速度提升约20倍，有效解决了多模态生成任务中的效率瓶颈。技术团队通过大规模强化学习（RL）后训练进一步优化模型性能，使其在推理能力、组合性理解及生成质量上均达到行业领先水平，尤其在长程视觉-语言生成、任意模态到图像（X2I）合成以及富文本图像创建等复杂任务中展现出卓越性能。

如上图所示，该架构图清晰呈现了Emu3.5如何通过统一序列处理机制实现视觉与文本的无缝融合。这种端到端设计消除了传统模型中的模态转换损耗，为开发者构建高效多模态应用提供了底层技术支撑。

时空一致性建模赋能动态场景理解

得益于预训练数据中包含的海量视频帧及其对应转录文本，Emu3.5具备强大的时空一致性建模能力，能够精准捕捉场景动态变化规律。在虚拟场景探索等复杂任务中，模型可依据文本指令生成连续且时空一致的图像序列，准确模拟物体运动轨迹、光照变化及视角转换。这种能力使Emu3.5在开放世界具身交互领域展现出巨大应用潜力，特别是在机器人导航、虚拟环境构建、AR/VR内容生成等需要动态场景理解的场景中，有望推动相关技术实现从演示验证到实用化的跨越。

该示例直观展示了Emu3.5对动态场景中物体运动状态的精准预测能力。连续帧中的运动轨迹连贯性证明模型已掌握物理世界的基本运动规律，为实现更自然的人机交互奠定了基础。

原生多模态交互重塑内容创作范式

Emu3.5的原生多模态推理能力支持视觉-文本序列的无缝输入输出，用户可直接提交包含图像描述、复杂问题和创作指令的混合序列，模型无需任何格式转换即可生成逻辑连贯的图文响应。在"根据故事脚本生成漫画分镜"的典型应用场景中，Emu3.5能够自动解析文本中的情节转折、情感变化和人物关系，生成符合叙事逻辑的图像序列，同时确保对话气泡内容与画面表达的高度一致性。这种端到端的创作流程大幅降低了专业内容生产的技术门槛，使创作者能够专注于创意表达而非工具操作。

【免费下载链接】Emu3.5项目地址: https://ai.gitcode.com/BAAI/Emu3.5

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/73783/