当前位置：首页 > news >正文

Beyond Language Modeling: An Exploration of Multimodal Pretraining

news 2026/7/14 23:38:33

论文信息：Shengbang Tong, David Fan, John Nguyen 等 (FAIR, Meta & NYU)，2026年3月
项目主页：https://beyond-llms.github.io/

1. motivation

当前的基础模型主要建立在语言预训练之上，但文本本质上是对现实世界的有损压缩——用论文的比喻，语言模型只是在描述柏拉图洞穴墙上的影子，而从未见过投射影子的实体本身。更现实的问题是，高质量文本数据正在趋于枯竭，而视觉世界提供了几乎无限的信号。

然而，统一多模态预训练的设计空间仍然不清晰。现有方法大多基于预训练好的语言模型进行多模态适配，这使得我们无法区分哪些能力来自统一训练、哪些继承自语言预训练。

本文的核心贡献是：**从零开始（from scratch）**进行受控实验，系统性地隔离影响多模态预训练的各个因素。

模型采用 Transfusion 框架：对文本使用 next-token prediction，对视觉使用 flow matching（扩散/流匹配）。训练数据包括四类：纯文本（DCLM）、原始视频、图文对（MetaCLIP / Shutterstock）、以及动作条件视频（NWM导航数据）。

默认模型为 2.3B 总参数 / 1.5B 激活参数的 decoder-only Transformer，视觉编码器默认使用冻结的 SigLIP 2 So400m。

以往普遍认为：理解任务需要语义编码器（如 SigLIP），生成任务需要 VAE（如 Stable Diffusion 的 VAE）。因此 Janus、BAGEL 等模型采用了双编码器设计。

本文发现，基于 Representation Autoencoder (RAE) 的语义编码器（如 SigLIP 2）在理解和生成上都优于 VAE，可以用单一编码器同时胜任两个任务。这大大简化了模型设计。

关键数据点：SigLIP 2 在 DPGBench、GenEval（生成）和 VQA（理解）上全面超越 FLUX.1 和 SD-VAE，同时文本困惑度与纯文本基线持平。

几个关键结论：

视觉数据不会损害语言能力。Text+Video 的文本困惑度甚至优于纯文本基线。文本性能的轻微下降主要来自图文对中 caption 的分布偏移，而非视觉信号本身。
语言帮助视觉。在固定视觉 token 预算下，增加文本 token 能持续改善图像生成质量（因为生成基准如 GenEval 是文本条件的）。
多样化预训练优于专项堆数据。用 20B VQA 数据 + 80B 杂项数据训练的模型，VQA 准确率超过了用 100B 纯 VQA 数据训练的模型。

本文将导航动作（平移/旋转量）直接编码为文本字符串，不引入任何特殊的动作适配器。在 Navigation World Model (NWM) 任务上：

MoE 设计空间的关键发现：

更细粒度的专家更好。Granularity 从 1 提升到 16 时，语言和视觉都显著改善。视觉在 G=4 饱和，语言在 G=16 饱和，说明语言更受益于细粒度路由。
预测目标取决于视觉表征。高维表征（RAE/SigLIP 2）适合 x-pred；低维表征（VAE/FLUX.1）适合 v-pred。x-pred 在低维表征 + 高粒度下不稳定，会导致文本困惑度飙升。
稀疏性持续带来收益。在固定激活计算量下，总专家数从 32 增加到 1008，语言和视觉性能持续改善。
Per-Modality Shared Expert 优于 Global Shared Expert。为文本和视觉各设一个共享专家，效果最好。