当前位置: 首页 > news >正文

ICLR 2026 | 多模态训练遇梯度冲突?Uni-X探索纯自回归原生多模态架构

我们关于统一多模态生成与理解模型(Unified Multimodal Models,UMMs)架构探索的论文 Uni-X 被 ICLR 2026 接收。

在该工作中,我们在最简洁的自回归(Autoregressive,AR)范式下,尝试给“文本”和“视觉”模态之间的互相冲突问题一个优雅的解决方案。

简单来说,我们在模型的浅层和深层设置了不同分支来专门处理文本或者视觉模态。

论文标题:

Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models

论文链接:

https://openreview.net/forum?id=IJLIYpCkwz

代码链接:

https://github.com/CURRENTF/Uni-X

HuggingFace链接:

https://huggingface.co/JitaiHao/Uni-X-3B

Motivation:模态间梯度冲突

将视觉输入通过向量量化(Vector Quantization)转化为离散 Token,从而将文本和视觉统一为单一序列进行预测,是目前构建 AR UMMs 的主流思路。

然而,通过实验分析,我们发现:使用一个完全共享参数的标准 Transformer 在处理这种多模态输入时,会遭遇严重的“梯度冲突”(Gradient Conflict)。

〓 标准 Transformer 的 FFN 下采样权重梯度冲突分析。浅层和深层的梯度冲突极为剧烈,而在中间层有所缓解。应用 Uni-X 结构后,梯度冲突得到了进一步地缓解。

为了精确描述这一现象,我们定义了层级的梯度冲突指标

通过计算纯文本数据梯度与图文对数据梯度之间的余弦相似度,并减去模型在混合模态数据分布下的基线梯度相似度,我们得到 :

冲突来源:底层表示的信息熵差异

为什么会出现这种现象?我们尝试从信息论角度提供一个解释:VQ 得到的视觉序列与于自然语言的差异极大。

我们计算了基于 N-gram 的条件熵,结果表明,视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言。

这种极高的信息熵意味着视觉序列的预测难度更大,需要模型建模更长程、空间纠缠更深的依赖关系。

〓 视觉 Token 序列的条件熵显著高于英语、德语或中文等自然语言

当单一网络强制同时处理低熵的语法化文本和高熵的空间化视觉时,模型的浅层(负责底层特征提取)和深层(负责目标分布预测)会被迫调和截然不同的底层统计特性,从而引发强烈的梯度拉扯。

相反,在网络的中间层,特征表征逐渐抽象化和语义化,模态间的对齐变得更加自然,冲突显著减小。

Uni-X

基于上述底层逻辑,我们不再一味地引入外部视觉语义编码器或复杂的任务分支结构,而是让模型架构的物理设计去贴合不同模态的固有特性。

我们提出了 Uni-X,一种“两端分离、中间共享”的 X 型架构:

〓 Uni-X 架构与标准共享 Transformer 的对比。X 型结构通过两端分离避免了极端的梯度冲突,同时依靠共享核心实现了特征对齐。

  • 分离层(Separated Layers):将 Transformer 的初始层和最后层拆分为平行的模态专用分支。这保证了在早期特征提取和最终 Token 投射阶段,文本和视觉信息能够被独立处理,彻底隔绝底层分布差异带来的优化冲突。

  • 共享层(Shared Layers):中间层保持参数共享,专注于高维语义的跨模态融合与推理。

和 Encoder/Decoder 的关系

我们的模型设计一定程度上也受到了 Encoder/Decoder 这种经典架构的启发,我们希望分离层能分别起到 Encoder 和 Decoder 的作用,由于时间和资源限制我们没有进行相关分析实验。

一个有趣的探索是,直接拿出浅分离层作为双塔模型,能不能有一个还不错的检索性能?

理论计算效率的额外增益

除了优化上的优势,由于分离层中视觉和文本处于严格隔离的计算流,对于长度为的序列(其中视觉 Token 长,文本 Token 长),自注意力机制的计算复杂度从全共享的下降到了与成正比。

这意味着在同等参数规模下,Uni-X 的训练和推理吞吐量具有更高的理论上限。

实验结果

我们在一致训练预算下进行实验对比,Uni-X 的 3B 参数版本展现出了极强的 Scaling 能力与任务竞争力:

  • 图像生成与理解:在未引入额外语义 Encoder 的前提下,模型在 GenEval 基准测试中达到了 82 分的优异成绩,匹配甚至超越了一些 7B 规模的自回归 UMMs。

  • 图像编辑(Zero-Shot 泛化):在仅使用约 90k 图像编辑数据微调的情况下,Uni-X 凭借中间共享层积累的强大语义对齐能力,在 ImgEdit 榜单上的综合表现与使用了更多数据和更大参数量的 Bagel 相当。

Future Work

不依赖外部视觉特征提取器(CLIP)确实在一定程度上限制了极致的多模态理解上限。

但我们计划进一步探索:未来能否进一步移除 VQ-VAE 这一用来 tokenization 的中间件?

如果让 Uni-X 架构中 “X” 的分叉部分直接承担起 Tokenizer 与 Detokenizer 的映射功能,我们或许能实现真正意义上的 Pixel-to-Pixel、端到端的原生多模态统一。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/534927/

相关文章:

  • 利用快马平台AI能力,十分钟构建trea技术概念验证原型
  • 掌握算法艺术与Canvas设计的5个核心步骤:从代码到视觉的创作指南
  • 企业级xmake包仓库搭建:私有化部署依赖管理的终极指南
  • OpenClaw性能调优:Qwen3-32B在CUDA12.4下的量化加速
  • 163MusicLyrics:革新音乐歌词管理的开源智能工具
  • 3个维度掌握Rubberduck:从安装到精通的实战指南
  • 深度解析:7大深度学习模型构建PyTorch文本分类框架
  • 《零基础读懂新能源汽车》——智能汽车「最强大脑」解剖:域控制器/以太网/线控底盘重构百年汽车
  • 2026年3月苏州机房减震厂家最新推荐:弹簧减震器、橡胶减震器、阻尼减震器、吊式减震器、工业减震器厂家选择指南 - 海棠依旧大
  • B站黑马Python+AI零基础入门(一)AI应用-基础
  • 服务器安装nvidia驱动+cuda+cudnn+torch
  • javaweb项目完整案例SSM框架实现的校园二手交易网站
  • DeepSeek-R1(1.5B)效果实测:1.5B参数实现7B级别推理能力的秘密
  • linux服务器性能查看
  • DanKoe 视频笔记:个人商业模式:如何通过解决自己的问题来获利
  • [a股]操盘相似性
  • QAnything古籍数字化:繁体竖排文本的解析之道
  • ACE-Step优化升级:开启torch_compile加速,生成速度提升20%
  • 嵌入式开发中开源组件的工程实践与优化
  • Linux 安装 Docker 详细步骤(保姆级教程),亲测可用
  • 避坑指南:Unity粒子系统做星星特效时最容易忽略的3个细节(附材质包)
  • 2026年3月苏州减震台座厂家最新推荐:水泵减震器、冷水机组减震器、变压器减震器、冷却塔减震器、浮筑楼板减震器厂家选择指南 - 海棠依旧大
  • 如何实现百万级WebSocket连接:Go语言高性能架构完全指南
  • 从AlphaGo到ChatGPT:拆解AI巨头产品背后的‘三派’混血技术
  • ThreadX系统服务:从事件链到优先级继承的深度解析
  • DMXAPI 和 Filesystem MCP Tool 能解决什么:一篇偏工程经验的总结
  • 如何快速搭建MiroFish预测引擎:3种高效部署方案全解析
  • Arcgis进阶指南:影像镶嵌与裁剪的高效操作技巧
  • 嵌入式老司机教你玩转Hi3520DV400:NOR/NAND双启动配置与TFTP极速烧写技巧
  • 常见编程错误单词总结