当前位置: 首页 > news >正文

Beyond Language Modeling: An Exploration of Multimodal Pretraining

论文信息:Shengbang Tong, David Fan, John Nguyen 等 (FAIR, Meta & NYU),2026年3月
项目主页:https://beyond-llms.github.io/

1. motivation

当前的基础模型主要建立在语言预训练之上,但文本本质上是对现实世界的有损压缩——用论文的比喻,语言模型只是在描述柏拉图洞穴墙上的影子,而从未见过投射影子的实体本身。更现实的问题是,高质量文本数据正在趋于枯竭,而视觉世界提供了几乎无限的信号。

然而,统一多模态预训练的设计空间仍然不清晰。现有方法大多基于预训练好的语言模型进行多模态适配,这使得我们无法区分哪些能力来自统一训练、哪些继承自语言预训练。

本文的核心贡献是:**从零开始(from scratch)**进行受控实验,系统性地隔离影响多模态预训练的各个因素。

2. 实验框架

模型采用 Transfusion 框架:对文本使用 next-token prediction,对视觉使用 flow matching(扩散/流匹配)。训练数据包括四类:纯文本(DCLM)、原始视频、图文对(MetaCLIP / Shutterstock)、以及动作条件视频(NWM导航数据)。

默认模型为 2.3B 总参数 / 1.5B 激活参数的 decoder-only Transformer,视觉编码器默认使用冻结的 SigLIP 2 So400m。

3. 四大核心发现

发现1:RAE 是最优的统一视觉表征


以往普遍认为:理解任务需要语义编码器(如 SigLIP),生成任务需要 VAE(如 Stable Diffusion 的 VAE)。因此 Janus、BAGEL 等模型采用了双编码器设计。

本文发现,基于 Representation Autoencoder (RAE) 的语义编码器(如 SigLIP 2)在理解和生成上都优于 VAE,可以用单一编码器同时胜任两个任务。这大大简化了模型设计。

关键数据点:SigLIP 2 在 DPGBench、GenEval(生成)和 VQA(理解)上全面超越 FLUX.1 和 SD-VAE,同时文本困惑度与纯文本基线持平。

发现2:多模态数据之间存在协同效应

几个关键结论:

  • 视觉数据不会损害语言能力。Text+Video 的文本困惑度甚至优于纯文本基线。文本性能的轻微下降主要来自图文对中 caption 的分布偏移,而非视觉信号本身。
  • 语言帮助视觉。在固定视觉 token 预算下,增加文本 token 能持续改善图像生成质量(因为生成基准如 GenEval 是文本条件的)。
  • 多样化预训练优于专项堆数据。用 20B VQA 数据 + 80B 杂项数据训练的模型,VQA 准确率超过了用 100B 纯 VQA 数据训练的模型。

发现3:世界建模能力从通用多模态预训练中涌现

本文将导航动作(平移/旋转量)直接编码为文本字符串,不引入任何特殊的动作适配器。在 Navigation World Model (NWM) 任务上:

  • 仅需 1% 的领域特定数据即可达到接近饱和的性能,核心能力主要来自通用多模态预训练(尤其是视频数据)。
  • 模型甚至能 zero-shot 地根据自由语言指令(如"get out of the shadow!")进行导航——这完全是从多模态预训练中涌现的能力。

发现4:MoE 是统一多模态模型的最优架构

MoE 设计空间的关键发现:

  • 更细粒度的专家更好。Granularity 从 1 提升到 16 时,语言和视觉都显著改善。视觉在 G=4 饱和,语言在 G=16 饱和,说明语言更受益于细粒度路由。
  • 预测目标取决于视觉表征。高维表征(RAE/SigLIP 2)适合 x-pred;低维表征(VAE/FLUX.1)适合 v-pred。x-pred 在低维表征 + 高粒度下不稳定,会导致文本困惑度飙升。
  • 稀疏性持续带来收益。在固定激活计算量下,总专家数从 32 增加到 1008,语言和视觉性能持续改善。
  • Per-Modality Shared Expert 优于 Global Shared Expert。为文本和视觉各设一个共享专家,效果最好。

四、缩放定律:视觉比语言更"数据饥渴"

通过 Chinchilla 风格的 IsoFLOP 分析,论文发现了缩放不对称性:

视觉的数据指数远高于语言,意味着视觉模态需要按比例更多的数据。随着模型从 1B 扩展到 1T 参数,视觉所需数据量相对语言增长 51 倍。

MoE 的关键作用:它将两个模态的数据指数差距从 0.10(dense)缩小到 0.05,同时通过稀疏性为语言提供高参数容量、为视觉提供数据密集的训练条件。

五、核心 Takeaways

六、个人评价

这篇论文的最大价值在于受控实验设计——从零训练排除了预训练语言模型的干扰,使得每个结论都有较高的因果可信度。几个亮点:

  • RAE 统一理解和生成的结论,直接挑战了 Janus/BAGEL 的双编码器范式
  • 视觉"数据饥渴"的缩放不对称性是一个重要的实践指导
  • MoE 涌现出的"先分后合"策略(早层分模态、深层融合)很有启发性
  • 世界建模仅需 1% 领域数据的发现,暗示通用基础模型可能比专项模型更有前途

局限性方面,论文聚焦于预训练阶段,没有探索后训练(RLHF/DPO);视觉分辨率固定在 224×224;且当前语义编码器在精细重建上仍不如 VAE。

http://www.jsqmd.com/news/506994/

相关文章:

  • 避坑指南:Postman接口测试中90%人会犯的3个参数配置错误(附正确示范)
  • 全任务零样本学习-mT5中文-base精彩案例:科研基金申请书创新点扩写
  • EagleEye效果增强:检测框+关键点联合输出(如人体姿态辅助判断)
  • helm3 部置traefik2
  • 【通信协议对比】Xmodem、Ymodem、Zmodem、ASCII与Binary的传输效率与适用场景解析
  • 年薪30W+的秘密:网络安全_挖漏洞_必备的4类工具与漏洞复
  • HarmonyOS 6实战:从CustomDialog到Navigation Dialog模式的状态管理升级
  • 3秒获取百度网盘提取码:baidupankey智能工具完全指南
  • 空气发生器怎么选不踩坑?2026口碑榜+选购指南一次讲透 - 品牌推荐大师1
  • 2026年评价高的香氛五金品牌推荐:精油香氛五金/智能香氛五金供应商怎么选 - 行业平台推荐
  • FISCO-BCOS多机构联盟链环境搭建实战指南
  • 2026山东饲料加工降本增效设备5强名单公布,权威数据揭示行业格局 - 精选优质企业推荐榜
  • 2026年感应圈/电炉感应圈/中频炉感应圈/高频炉感应圈/熔炼炉感应圈/淬火炉感应圈/退火感应圈/工频炉感应圈/加热感应圈优选推荐:唐山市丰润区宝军电源设备制造厂 - 2026年企业推荐榜
  • 讲讲特灵空调维修选购,南京地区口碑好的公司有哪些 - 工业推荐榜
  • cJSON的字符长度和字符比较以及数组
  • 如何从Python脚本到可执行文件:微信聊天记录导出工具打包完全指南
  • 从电脑到AI:中国技术命名本土化简史,以及为什么AI到现在还没有中文名
  • 卷积:一种共享参数的“不全连接”
  • PSP汉化手稿 PSP中的动态链接库
  • 2026 电磁流量计十大品牌排行榜:行业头部厂家权威排名 - 品牌推荐大师1
  • libigl库在几何网格处理中的高效应用与实践
  • 基于大数据分析的星耀公司招聘系统(角色:用户、企业、管理员)
  • 2026年质量好的医药铁盒工厂推荐:口香糖铁盒生产厂家推荐 - 行业平台推荐
  • 2026年热门的彩印包装药盒工厂推荐:彩印包装礼品箱/彩印包装手提袋/超大幅面彩印包装厂家综合实力对比 - 行业平台推荐
  • RuoYi框架下Vue3菜单空白不报错?可能是这些你没注意的细节
  • 瑞祥商联卡最优回收技巧 - 团团收购物卡回收
  • NUMA性能调优实战:如何用numactl命令提升服务器内存访问效率
  • 合规从业必备!持证上岗成趋势,体重管理培训助你正规执业 - 品牌排行榜单
  • 从零开始:用C++玩转反射内存卡(RFM2g)的结构体读写
  • 工业大数据:重塑制造体系的核心引擎