当前位置: 首页 > news >正文

RepresentationForcing

Representation Forcing: 让统一多模态模型摆脱 VAE 瓶颈

论文:Representation Forcing for Bottleneck-Free Unified Multimodal Models
arXiv:2605.31604
作者:Yuqing Wang, Zhijie Lin, Ceyuan Yang 等(HKU × ByteDance Seed × CUHK × NJU × THU)


一句话总结

该论文提出表征强制(Representation Forcing, RF),让统一多模态模型(Unified Multimodel model,UMM)在像素生成前先自回归预测visual representation作为中间 token,并将其作为context进一步引导pixel diffusion,通过将representation作为自回归生成目标而不是VAE输出,摆脱对外部 VAE 的依赖、消除结构瓶颈,在像素空间实现与 VAE 模型相当的生成质量并提升理解能力,迈向端到端无瓶颈统一多模态模型。

_attachments/RepresentationForcing/file-20260608000326318 1.png


1. 它在解决什么问题?

当前 UMM 的结构性瓶颈

目前主流的统一多模态模型(Chameleon、Emu3、Transfusion、Show-o、JanusFlow、BAGEL 等)几乎都依赖一个独立预训练且冻结的 VAE:图像先压成 latent,再在 latent 空间上做扩散。这看似是一个解耦良好的工程选择,但作者指出这其实是一个结构性的天花板

  1. 目标错位:VAE 的 latent 空间是为重建优化的,而不是为 UMM 的多目标(语言建模 + 视觉理解 + 图像生成)联合优化的。
  2. 信息上限:VAE 是有损压缩,无论后续怎么训 UMM 都无法突破这个上限
  3. 理解-生成不共享空间:理解侧用 SigLIP/DINO 这类语义编码器,生成侧用 VAE,两套表征空间天然撕裂。

直接做"像素空间生成"为什么不行?

JiT 等工作已经证明:对独立的生成模型而言,纯 ViT + x-prediction 可以直接在 raw pixel 上生成(在 ImageNet 上甚至能比 latent diffusion 更好)。但作者发现:把这套搬进 UMM 里就垮——pixel-only 的 GenEval 只有 0.25,而 VAE 版本能到 0.52

为什么? 因为 UMM 面对的图像分布远比 ImageNet 复杂,且文本条件更丰富,模型被迫同时学习高层语义结构和低层像素细节,从同一份原始信号里完成两件事,过载了。

这是论文最关键的诊断:纯像素生成的失败不是像素的失败,而是"高层语义结构缺位"的失败

论文的核心切入点

UMM 内部其实已经有一份现成的高层视觉表征——理解侧编码器的输出。理解任务里,这份表征是从输入图像里抽出来的;但生成任务里没有图像可抽,模型必须从文本上下文中预测出这份表征

把这个"预测"过程显式化、训练化,就是 Representation Forcing


2. 核心方法:把"理解表征"做成自回归词元

2.1 表征从哪里来——理解编码器自带

不引入外部冻结模块(不是 REPA 那样对齐到一个外部的 DINOv2/SigLIP 目标),直接用模型自己理解侧编码器(联合训练的 DINOv3)的特征

这是一个很优雅的选择:

  • 表征空间和理解任务同步进化,不会成为外挂。
  • 理解和生成共享同一份语义骨架——这正是后面在理解 benchmark 上 Pixel+RF > VAE+RF 的根本原因。

2.2 用 Online VQ 把连续特征离散化

连续回归会误差累积(消融里 Continuous 版本 GenEval 仅 0.26,几乎等于不加 RF 的 0.25)。所以必须离散化,把"预测表征"做成 next-token prediction,享受语言模型那一套训练机制的稳定性。

离散化的实现:

  • 来源是 encoder 的 EMA 副本(慢变目标,让离散分配稳定)。
  • 维护 K=16,384 个可学习的 prototype 向量构成的 codebook。
  • 每个 patch feature 与所有 prototype 算余弦相似度,最近邻就是它的离散 token id。
  • codebook 用 SwAV 风格的动量更新,配 Sinkhorn–Knopp 平衡防塌缩。
  • 每个 spatial patch → 一个表征 token,按 raster-scan 排成序列。

离散化在这里同时起了两个作用:(1) 让 next-token CE loss 能用;(2) 天然丢掉细节、保留结构——这正好契合"高层 scaffold"的定位。

2.3 训练阶段——三种 loss 同时优化

模型处理统一序列:[文本 tokens, 表征 tokens, 像素 patches]

注意力模式是这套设计的关键:

  • 文本 + 表征 tokens:因果(自回归)
  • 噪声像素 patches:彼此双向,对前面的文本+表征 tokens 因果

这样表征 tokens 天然成为像素生成的 in-context 条件,不需要额外的 cross-attention 模块。这一点比 REPA 高级:REPA 是把表征当辅助 loss 去对齐内部特征,RF 是把表征直接放进解码序列里、让像素去 attend 它

总目标:

\[L = L_{LM} + L_{FM} + L_{Rep} \]

  • \(L_{LM}\):文本 next-token CE
  • \(L_{Rep}\):表征 token next-token CE
  • \(L_{FM}\):像素 x-prediction 的 velocity loss(沿用 JiT):\(z_t = tx + (1-t)\varepsilon\)\(L_{FM} = \mathbb{E}[\|v_\theta - v\|^2]\)\(v = x - \varepsilon\)

2.4 推理阶段——两步走

  1. 给定文本,自回归生成完整的表征 token 序列(top-k 采样,CFG=2.0)。
  2. 以文本 + 表征 tokens 为条件,迭代扩散去噪 25 步得到像素图(CFG=3.0)。

推理时 encoder 完全不参与——这是 RF 真正落地的关键:训练时 encoder 提供监督,推理时模型已经把"如何生成表征"内化了。

2.5 架构:MoT 路由

沿用 BAGEL 的 Mixture-of-Transformers:所有 token 共享 self-attention,但根据类型路由到三个 FFN expert:

  1. 多模态理解
  2. 表征 token 预测
  3. 像素生成

这避免了模态干扰,又最大化共享。

  • 整体架构图:
    _attachments/RepresentationForcing/file-20260608000326315.png

一些细节

  • 架构:Qwen3-A3B (3B active) + DINOv3 ViT-H+/16 + MoT (3 experts)
  • Codebook:K = 16,384
  • Patch:16×16,pool 2×2
  • 训练:10K (align) + 50K (joint @ ≤256) + 20K (high-res @ ≤1024)
  • 推理:25 步扩散,CFG (rep=2.0, pix=3.0)
  • 数字:GenEval 0.84 / 0.88(rewrite),DPG-Bench 84.15

_attachments/RepresentationForcing/file-20260608000326318.png


3. 实验告诉了我们什么

3.1 RF 是必要的、且无可替代

最强力的消融在 4.4(a):

条件 Pixel GenEval VAE GenEval
不加 RF 0.25 0.52
加 RF 0.76 0.77

两个结论:

  1. 像素空间在 UMM 里裸跑就是灾难(0.25),加 RF 才能匹配 VAE(0.76 vs 0.77)。
  2. VAE 也能受益于 RF(+0.25),说明 RF 提供的"高层结构脚手架"是普适的,不是只对像素生成有用。

3.2 RF vs REPA——架构差异决定一切

方法 GenEval
0.25
REPA(辅助对齐 loss) 0.43
RF(in-context 自回归预测) 0.76

REPA 把表征当 auxiliary loss 去 align 内部特征;RF 直接把预测出的表征放进解码序列。这个区别在数字上是 0.43 vs 0.76 的鸿沟。

这条消融提示了一个一般性原则:conditioning 信号最好以 token 形式进入注意力上下文,而不是以辅助 loss 形式悬挂在中间层

3.3 离散 vs 连续

方法 GenEval
Continuous 0.26(几乎等于没做)
Discrete 0.76

连续表征 token 在 AR 里误差累积——后面位置基于前面位置的预测,小误差被指数放大。离散化天然限制了状态空间,加上 next-token CE 的训练范式,稳定性优势是巨大的。

3.4 与现有 SOTA 比较

不加 LLM rewriter:GenEval 0.84(略胜 BAGEL 0.82,平 BLIP3-o 0.84),DPG-Bench 84.15。加 rewriter 后到 0.88,对齐统一模型的 SOTA。

3.5 最有意思的发现:Pixel+RF 在理解上反而更强

理解 benchmark(8 个)上,Pixel+RF 在其中 6 个上击败了 VAE+RF。作者的解释是:

去掉外部 VAE 隐空间,让理解和生成真正共享同一份表征空间,耦合更紧。

这反过来回应了开篇的诊断——VAE 不只是生成侧的瓶颈,它同时也是理解侧的拖累,因为它把两条路径的表征空间撕开了。

3.6 编码器选择:DINOv3 > SigLIP2

DINOv3 在 5 个理解 benchmark 中 4 个胜出。作者归因于 DINOv3 的自监督目标保留更丰富的空间和结构信息——这与 RF 需要的"空间 layout scaffold"高度契合。


4. 这篇论文的真正贡献

抛开 GenEval 上 +0.02 的数字,这篇论文的真正贡献是对 UMM 架构哲学的一次纠偏

  1. 诊断:"VAE 是工程便利,不是架构必然"——并量化了它的代价。
  2. 方案:通过"自回归预测离散化的内部表征" + "in-context 注入"两个简单设计,把语义脚手架内化进模型。
  3. 结论像素空间生成不仅可行,且与统一多模态建模更兼容——这是一个反直觉但被实验充分支持的结论。

它和 BAGEL 的关系

RF 用了 BAGEL 的 MoT backbone 和数据 pipeline,所以可以看作"BAGEL - VAE + RF"的对照实验。两者数字接近(GenEval 0.84 vs 0.82)但 RF 的训练成本更低(去掉 VAE 那部分),且理解侧更强。

没说的话

  • 没和 from-scratch 训练比:模型仍是从 Qwen3-A3B 初始化,纯从头训会怎样不知道。
  • 没扩展到视频:时序模态下"表征 token 序列"会爆炸,怎么处理是开放问题。
  • codebook 的语义可解释性没分析:16,384 个 prototype 学到了什么概念?是不是有 mode collapse 的细分模式?

5. 给我们的启发

对设计 UMM 的启发

  1. 质疑"冻结预训练组件"的默认设定。VAE / CLIP / 离散 tokenizer 都是借来的工具,借得越多越受制于借源的目标。
  2. 共享表征空间是关键——理解和生成走同一条路径才能互相增强,否则就是"两个套间合住一间房"。
  3. conditioning 应当尽可能以 token 进入 attention,而不是以 loss 挂在中间。这与 in-context learning 的成功本质上是一回事。

对设计训练目标的启发

  • 离散化 + 自回归 + CE 这套组合的稳定性远超连续回归——这条经验在 RQ-VAE、MaskGIT、本文都成立。
  • EMA 副本提供训练目标是稳定化的小但关键的细节(MoCo/BYOL/DINO 谱系都是这套)。
  • Sinkhorn-Knopp 是防止 codebook 塌缩的低成本工具,应当成为离散表征学习的标配。

一个开放问题

如果"中间表征 scaffold"这个思路是对的,那么 LLM 的"chain of thought" 和 UMM 的"representation token sequence" 是不是同一个东西的不同形态?两者都是"在最终输出之前,先生成一个结构化的中间表征序列"——这或许是 next-token paradigm 在多模态上的统一表达。


http://www.jsqmd.com/news/971185/

相关文章:

  • 离散选择模型中的代理变量偏差校正方法
  • STM32F407上EC11旋转编码器的轮询+中断双模驱动代码包(含去抖与方向识别)
  • YOLOv12创新改进 | TIP一区 2025 | 涨点卷积改进篇 | 引入SFMB空间和频率增强 Mamba模块, 通过空间多尺度、通道增强和频域建模的互补机制,助力YOLOv12高效涨点
  • 震惊!原来毕业论文有这操作?2026降AIGC网站推荐合集
  • 昇腾CANN神经网络算子库ops-nn:从基础算子到融合优化的推理加速实战
  • Matlab版Lee散斑滤波工具包,适配SAR与超声图像去噪实战
  • 2026降AI率工具亲测:10款网站对比,论文质量提升秘籍
  • 2026年最佳B2B电商平台:15大企业级解决方案对比评测
  • 2026年,二轴码垛机器人多少钱? - mypinpai
  • 如何轻松批量下载抖音视频:免费工具全攻略
  • Lombard效应语音合成:零样本自适应控制技术解析
  • 昇腾 CANN ops-transformer Transformer 算子库深度优化——注意力机制与高性能计算实战
  • Windows最强伴侣,好用到起飞!
  • EasyExcel-Plus实战指南:Spring Boot下Excel处理的高效解决方案
  • OBS背景移除终极指南:三步打造专业直播画面,告别杂乱背景
  • 2026 年 GEO 优化公司推荐指南:技术与合规双轮驱动下的 Top5 企业解析 - GEO优化
  • 2026年GEO优化公司头部机构盘点:技术实力与落地效果双维度横评推荐+GEO服务商概念解析 - GEO优化
  • 5个实用技巧,轻松保存抖音直播回放与视频内容
  • 终极指南:如何使用ParsecVDisplay免费创建4K虚拟显示器
  • 西安豆包获客技巧深度解析:核心问题与原因分析
  • 专业驱动存储管理:Driver Store Explorer释放Windows系统20GB+空间的高效方案
  • 拯救者工具箱窗口透明度调节指南:打造无干扰游戏体验
  • FastAPI 身份验证总踩坑?这份 FastAPI Users “避坑指南”请收好
  • 佛山搬家公司选对不踩雷,正规企业查询方法:避坑指南与权威验证攻略 - 从来都是英雄出少年
  • 深度学习框架PyTorch笔记(三)数据集类(Data Set)与数据加载器(Data Loader)
  • JAVA:继承
  • m4s-converter:三步解决B站缓存视频无法播放的终极方案
  • 西安 GEO 优化服务商深度解析:服务商选择核心原因分析
  • 如何用开源工具实现高效图片管理:5步打造个人视觉搜索引擎
  • Play Integrity Checker实战指南:轻松构建Android设备安全验证