当前位置：首页 > news >正文

小白必看！大模型不一定先从语言开始：收藏这份多模态学习指南

news 2026/6/12 21:30:40

多模态大模型正变得越来越全能，但它们是否必须以语言模型为基础？本文探讨了超越语言模型的必要性，介绍了从零开始训练统一多模态模型的最新研究。研究发现，视觉表示、数据配方、架构设计和扩展行为对原生多模态预训练至关重要。论文指出，视觉输入本身不一定损害语言建模，但图文对齐和 caption 文本需要被认真处理。此外，语言数据不仅影响语言能力，还能帮助图像生成，通用多模态预训练为完成任务提供能力基础。最后，MoE 架构通过可学习分工帮助模型解耦模态计算，优化专家分工，适合多模态模型的扩展。这些发现为多模态大模型的发展提供了新的视角和方向。

多模态大模型，一定要先是语言模型吗？

现在的多模态大模型越来越Omni (全能)：能看图，能理解视频，能生成图像，甚至还能根据动作预测下一帧画面。

但有一个长期存在的默认共识值得重新思考：

多模态大模型，一定要先是一个语言模型吗？

推出了Beyond Language Modeling: An Exploration of Multimodal Pretraining。

这项工作追问的不是“怎么把多模态模型再做强一点”，而是一个更底层的问题：

多模态基座，应该如何形成？

当前主流的多模态大模型训练路线基本如此：先训练出一个强大的 LLM 基座，再把视觉编码器和投影层接上去；如果要生成图像，再接 VAE、diffusion decoder 或视觉 tokenizer。这个方案可行，效果也不错。但它也会带来一个问题：当语言模型先占据中心位置，视觉、视频和动作往往更像后接模块，而不是从一开始就参与基座形成。

论文不是要证明 LLM 不重要，而是想控制一个强干扰因素：不从现成 LLM 出发，而是从零训练统一多模态模型，观察语言、图像、视频和动作在同一个预训练过程中会呈现出怎样的规律。

在没有现成 LLM 干扰时，多模态预训练到底由哪些因素决定？

思路很简单：把文本、图像、视频和动作放进同一个预训练框架里，再系统考察视觉表示、数据配方、世界建模、架构和 scaling 行为。换句话说，这篇论文不是继续给 LLM 外接视觉能力，而是在系统拆解一个训练问题：原生多模态预训练要成立，表示、数据、架构和 scaling 应该如何一起设计？

一、先把 LLM 拿掉：多模态预训练到底还剩什么？

主要工作一句话讲完：从零训练一个统一 Transformer，把文本、图像、视频和带动作条件的视频放进同一个序列建模框架里。

论文给出的训练样本如下：

四类数据：普通文本、图文对、带动作条件的视频、普通视频。这里所谓的统一，不是把所有东西翻译成文字，而是让不同模态保留各自表示，同时共享同一个训练框架。

统一预训练框架：不同模态保留自己的表示形式，但共享同一个序列建模过程。

二、一套视觉表示，能不能同时负责“看懂”和“画出”？

过去的一些统一多模态模型，在视觉表示上仍然分成两套系统：视觉理解用 CLIP、SigLIP、DINO 这类语义表示，图像生成则用 VAE latent。

但这篇论文直接问：

一个视觉表示，能不能同时支持理解和生成？

论文把不同视觉表示放进同一套预训练和评测框架里：

以 SigLIP 2 这类语义 encoder 为基础的 RAE（Representation Autoencoder），可以在不明显损伤语言能力的情况下，同时改善图像生成和 VQA 表现。这说明，统一多模态预训练不必一开始就预设“理解一套表示、生成一套表示”。也就意味着，我们完全可以把理解和生成放回同一个视觉表示问题里讨论。

三、“模态税”真的存在吗？真正影响语言的可能不是图像

多模态预训练里一直有一个担忧：加入图像、视频和 caption，会不会把语言模型训练坏？换句话说，多模态能力会不会带来一笔“模态税”？

这里需要先把变量拆开：图像、视频是视觉信号；caption 是图文对里的文字描述。真正会直接改变语言训练分布的，往往不是图像本身，而是这些 caption 文本。

两个问题：
视觉输入本身会不会伤害语言建模？
图文对里的 caption 会不会改变语言分布？

论文先把纯视频数据加进文本训练里，看语言建模会不会变差。这一步相当于先单独测试视觉输入：如果只加入视觉信息，语言能力会不会被拖累？

结果显示，加入纯视频后，语言建模没有明显变差。这回应了一个常见误解：视觉模态并不天然和语言冲突。

但这还不够。语言能力不下降，不代表视觉能力会自然出现。要让模型学会“文字描述”和“图像内容”的对应关系，图文对仍然很重要；没有 image-text pair，VQA 和文生图都很难做好。

论文接着比较 image-text pair 对视觉任务的影响：

换到生成和 VQA 任务后，结论也很清楚：纯视频可以兼容语言建模，但不足以建立图文对齐；加入 MetaCLIP 这类图文对后，生成和 VQA 表现才会明显提升。

不是“少用图文对”，而是“图文对不可少，但 caption 需要被认真处理”。

两组实验合在一起，问题就更清楚了：视觉数据本身不一定伤语言，但图文对齐又离不开 image-text pair。真正需要权衡的，是图文对里的 caption 会不会把语言分布带偏。

论文进一步比较了不同图文对里的 caption 和普通网页文本的分布距离：

这张表给出了一个关键证据：有些 caption 和普通网页文本差得很远。它们可能是短标签、描述性短句，或者带有很强数据集风格的文本，并不像普通网页语料那样自然展开。这样的 caption 占比过高时，语言建模学到的文本分布就可能被带偏。

论文还比较了不同图文数据源的取舍：

所以，这一节的核心不是“图文对有害”，而是：图文对负责建立对齐，但 caption 会进入语言训练分布。没有一种数据源能在所有目标上都占优，数据配方要分清哪些数据维持语言能力，哪些数据负责图文对齐，哪些数据提升生成质量。

四、能力不是堆任务堆出来的：多模态协同从哪里发生？

不少论文都会说“模态协同”，但这个词常常不够具体。这里作者把它拆成两个更明确的问题：语言数据能不能帮助图像生成？通用多模态数据能不能帮助 VQA？

关键问题：
语言数据能不能反过来帮助图像生成？
VQA 能力到底来自任务数据，还是来自更通用的预训练？

论文给出的答案是肯定的，而且有具体实验支撑。

论文固定视觉 token 预算，只增加文本 token：

图里的结论很清楚：只增加文本数据，图像生成也会变好。语言不是视觉生成的旁观者，对 prompt 的理解本身就会影响生成质量。

对生成任务来说，文本数据的作用不只在语言侧，也会影响模型理解 prompt 的能力。

VQA 这组对照更接近“能力从哪里来”的问题。论文比较两种训练方式：一种是直接扩大 VQA 数据，另一种是少量 VQA 数据加大量通用预训练数据。

少量 VQA 数据加大量通用预训练数据，反而超过了只扩大 VQA 数据的方案。这意味着，VQA 能力不只是靠增加 VQA 数据得到的。

少量任务数据提供任务形式，通用多模态预训练提供能力基础。

这也是这一节最重要的判断：任务数据负责告诉模型要做什么，通用预训练负责提供完成任务所需的能力基础。

同样的逻辑也出现在 world modeling 里。论文把任务换成导航预测：给模型几帧第一人称画面，再给一段动作文本，让它预测下一帧。

结果和 VQA 一致：模型做导航预测时，不只依赖 Navigation World Model 这类领域数据；通用视频、图文对、文本数据也会带来帮助，尤其是视频。领域数据提供任务形式，通用多模态预训练提供能力基础。

论文还展示了一个更直观的例子：

模型不仅能处理 WASD 这种结构化动作，也能根据“get out of the shadow!”这样的自然语言指令生成未来帧。这还不是完整意义上的世界模型，但已经说明，语言语义、视觉状态和动作后果可以被放进同一个预测任务里。

五、阿喀琉斯之踵：如何破解模态不平衡？

多模态模型还有一个现实问题：语言和视觉需要的计算容量不一样。语言更依赖参数规模，视觉更依赖数据规模；理解、生成、视频预测，又可能需要不同计算路径。如果所有 token 都挤在同一套稠密 FFN 里，模态之间就容易互相竞争。

不同模态该不该走同一套计算路径？

论文先做了一个最小对照：把 shared FFN 换成 modality-specific FFN。文本 token 使用文本 FFN，视觉 token 使用视觉 FFN。

图里的指标方向虽然不同，但整体趋势一致：把文本和视觉的 FFN 分开后，语言、生成、VQA 都变好。这个结果给出的信号很明确：在 FFN 层面做模态解耦是有效的。

强行共享并不总是最优，适当的模态分工反而更有利。

但 modality-specific FFN 还是偏刚性。文本多少容量，视觉多少容量，哪一层分开，哪一层融合，这些最好不要全靠人来规定。于是引入 MoE 就变得自然：让模型自己学习不同 token 该调用哪些专家。

论文固定每个 token 实际激活的专家数，只增加总专家数：

结果显示，在每个 token 计算量基本固定的情况下，更多可选择的专家带来了更好的语言和视觉能力。

在这里，MoE 不是为了提高效率，而是帮助模型解耦模态计算、优化专家分工。

六、专家会自己分工吗？MoE 里的模态路线图

论文不只看 MoE 指标，还分析专家到底是怎么被使用的。结果发现，专家会自然分成文本专家、视觉专家和多模态专家。换句话说，模型似乎自发学出了一种分工：一部分专家处理文本，一部分专家处理视觉，还有一部分负责跨模态融合。

论文统计了每层专家被不同模态使用的情况：

这意味着分工不是手工划出来的，而是路由机制自己学出来的。MoE 让模型自己决定不同模态该走哪些计算路径。

图像理解和图像生成，使用的视觉专家高度重叠。

另一个值得看的问题是：图像理解和图像生成，用的是不是同一批专家？

图里大部分点贴近对角线，说明两类任务调用的专家高度重叠。这与前面的 RAE 结果呼应：一个是视觉表示，一个是专家使用，两者都指向同一个判断：理解和生成不必预设拆分。

七、别照搬 Chinchilla：多模态有自己的 scaling law

这篇论文还有一块很基础、但容易被低估的内容：scaling law。过去训练 LLM，有 Chinchilla-style 的经验：参数和数据之间，有比较稳定的最优比例。但多模态不一样，语言和视觉对参数、数据的需求并不对称。

论文通过 IsoFLOP 分析发现：语言更依赖参数规模，视觉更依赖数据规模。这意味着，多模态模型不能直接照搬语言模型的 scaling recipe。

Dense model：先看强共享架构下的 scaling 行为

论文先在稠密模型上拟合不同算力下的最优参数和数据比例：

结论很直接：语言更接近传统 LLM scaling，参数规模很重要；视觉对数据的需求更强。统一多模态模型不能直接照搬语言模型的训练配方。

MoE model：再看可学习分工能否缓和这种不对称

这也是 MoE 重要的原因。同样的 scaling 分析换到 MoE 后，差异开始变小：

在论文这套设置里，MoE 会缩小语言和视觉 scaling 行为之间的差距。它不只是让模型“更大但每次只用一部分”，更重要的是改变模型分配容量的方式。

MoE 的作用，是用可学习分工缓和语言和视觉的 scaling 不对称。

把第

五、六、七节连起来看，逻辑链条很清楚：

shared FFN 的强共享不够好。
modality-specific FFN 说明模态分工有用。
MoE 让模态分工从人工规则变成可学习路由。
scaling law 说明语言和视觉对参数、数据的需求不同，侧面反映可学习分工的必要性。

总结：从“外接模块”到“原生多模态基座”

论文把“原生多模态预训练”拆开，逐个验证哪些设计会影响预训练结果。说到底，它关心的是基座本身，而不是在语言基座上继续堆外接模块。

视觉表示：理解和生成不必天然对应两套视觉接口。以 SigLIP 2 等语义 encoder 为基础的 RAE 说明，高维语义空间也可以支撑图像生成。
数据配方：纯视频本身不必然伤语言；图文对能建立语言和视觉的对齐，但 caption 是否接近普通文本，会影响语言建模。
能力来源：任务数据更像入口，而不是能力的全部来源。VQA 和 world modeling 都说明，通用多模态预训练提供了更关键的能力基础。
架构设计：MoE 的价值不只是省算力。它可以解耦模态计算、让专家按模态分工。
Scaling law：语言更依赖参数规模，视觉更依赖数据规模。多模态模型不能直接照搬 LLM 的 scaling recipe。

这些结果合在一起，指向的不是某个单点的方法技巧，而是一种训练范式的变化：

多模态能力不应该只是嫁接在语言基座上的附加能力，而应该从预训练阶段就深度参与基座的形成。

当然，这还不是最终答案。论文主要研究预训练，还没有充分展开 post-training、RL、多轮交互和 interleaved data，也没有解决所有视觉重建与硬件效率问题。

总而言之，“Beyond Language Modeling”这个标题最准确的意思，不是抛弃语言，而是在多模态大模型中把语言从唯一中心的位置上移开。

语言仍然重要，但它不再是唯一的中心。真正的原生多模态模型，应该从训练一开始，就让语言、图像、视频和动作共同参与“世界模型”的形成。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。