当前位置：首页 > news >正文

从“看图识字“到“全能感知“！多模态大模型5年爆变史，Qwen系成“基础设施“！

news 2026/7/3 16:01:46

多模态大模型历经5年范式跃迁，从ViT革新视觉AI，到CLIP架起图文桥梁，再到Qwen-VL等多模态理解，乃至GPT-4o与Qwen-Omni的全模态统一。Qwen系模型作为核心基础设施，推动技术从单模态处理走向多模态深度融合，未来将向理解生成协同、视频一体化、世界模型等方向演进，迈向通用人工智能。

引言

从"看图识字"到"能看、能听、能说、能画"，多模态大模型经历了怎样的范式跃迁？

2020年，ViT用一句"一张图值16x16个词"震撼了视觉AI界。几年后，GPT-4o可以同时看图、听音、说话、画画，Qwen3-Omni在36项音视频基准测试中拿下22项SOTA，BAGEL和Ming-Omni等开源模型也在冲击全模态统一的边界。

这条从单模态到全模态的演进之路，并非一条直线，而是多条技术路线并行探索、碰撞融合的过程。本文将为你系统梳理近几年多模态大模型的关键里程碑，讲清楚每一步"为什么"和"怎么做"。

ViT：让 Transformer 学会"看"（2020）

在ViT之前，计算机视觉是CNN（卷积神经网络）的天下，ResNet、EfficientNet统治着各大榜单。与此同时，NLP领域的Transformer凭借自注意力机制已经一统江湖。

一个自然的问题浮出水面：Transformer能不能也用来处理图像？

Google团队给出的答案简洁而优雅：把图像切成16×16的小块（patch），每个小块就相当于NLP中的一个"词"。这些patch通过线性嵌入层映射为向量序列，直接送入标准Transformer编码器——这就是Vision Transformer（ViT）。

ViT架构：将图像切割为Patch作为Token输入Transformer

Visual Patch as Token：将一张图像切割成同样大小 (16x16，后续的internvl是14x14 ) 的小块，每个小块（patch）被展平，通过一个线性层 (patch embedding) 转换为一个向量，作为一个token，传递给 Transformer 作为输入。

这一步的意义远超视觉任务本身：它统一了视觉和语言模型的底层架构，为后续两个世界的融合埋下了最重要的伏笔。但此时的ViT还是纯粹的单模态——它只能处理图像，完全不知道"语言"为何物。

CLIP：在图像和语言之间架起桥梁（2021）

ViT让Transformer能处理图像，但图像和语言之间仍然隔着一堵墙。2021年，OpenAI的CLIP推倒了这堵墙。

CLIP的思路极其直觉：同时训练一个图像编码器（ViT）和一个文本编码器，在4亿图文数据对上做对比学习，让语义相似的图文对在嵌入空间中"靠近"，不相似的"远离"。

CLIP通过对比学习实现图文对齐

这相当于为图像和语言建立了一本"跨语言词典"——从此，机器可以用同一套坐标系来表示一张猫的照片和"一只毛茸茸的橘猫"这句话。

CLIP开启了Vision Foundation Model时代。它训练出的视觉编码器（CLIP ViT）成为了后续几乎所有多模态大模型的标配"眼睛"。但CLIP本身能力有限——它擅长检索和分类这些判别式任务，却无法像ChatGPT一样生成流畅的文本回答。

下一个问题自然而然地出现了：如何让LLM也拥有视觉能力？

LLaVA 到 Qwen-VL：给大语言模型装上"眼睛"（2023-2024）

2023年，大语言模型（LLM）的浪潮席卷全球。LLaVA给出了一个极其简洁的多模态方案：

预训练好的CLIP ViT（看图）+ 一个MLP投影层（翻译）+ 预训练好的LLM（说话）

LLaVA架构：CLIP ViT + MLP Connector + LLM

整个流程一目了然：

CLIP ViT把图像编码为特征向量
MLP将这些向量"翻译"到LLM能理解的空间
LLM基于图像特征和用户问题生成文本回答。

LLaVA引爆了多模态大模型的研究热潮，但真正将这个范式推向工业级落地的，是以Qwen-VL系列为代表的后续工作。

Qwen 系列：多模态领域的"基础设施"

如果要评选多模态大模型时代影响力最大的模型家族，Qwen系列当之无愧。它的影响力体现在两个层面：

第一，作为LLM底座被广泛采用。今天你看到的大量开源多模态模型——InternVL、Janus-Pro、LLaVA-OneVision等——底层的语言模型几乎清一色用的是Qwen2/Qwen2.5/Qwen3。可以说，Qwen已经成为多模态研究的"水电煤"。

第二，自身的多模态产品线极其完整。阿里围绕Qwen构建了覆盖多模态全场景的模型矩阵：

模型	定位	能力
Qwen-VL系列（2023-2025）	视觉语言模型	图文理解、OCR、视觉推理，从Qwen-VL到Qwen2.5-VL持续迭代
Qwen-Audio系列	语音理解模型	语音识别、音频理解
Qwen-Image	图像生成模型	文生图、图像编辑
Qwen-Omni系列（2025-）	全模态统一模型	文本/图像/音频/视频输入 + 文本/语音输出

在"ViT + Connector + LLM"范式下，Qwen-VL/InternVL/Seed-VL等工作进一步从ViT结构、原生分辨率、位置编码、视觉Token压缩等维度持续优化，形成了当前最主流的MLLM范式。

InternVL2.5架构：ViT-MLP-LLM

Qwen2.5-VL架构：ViT-MLP-LLM

但这套范式也存在三个根本性局限：

局限	具体表现
ViT是信息瓶颈	主要提取High-level语义特征，丢失了Low-level细节，OCR、定位等细粒度任务表现不佳
特征空间投影存疑	将视觉空间硬投影到文本空间，是否真正合理？
只能理解，不能生成	图像只能作为输入，模型只能输出文本，无法生成或编辑图像

第三个局限尤其关键——它指向了下一个重大命题：能否让一个模型既能理解图像、又能生成图像？

理解 vs 生成：一个 Tokenizer 引发的根本矛盾

要回答"统一理解和生成"这个问题，首先需要理解一个核心矛盾——图像的两种Tokenizer在特征空间上存在根本性冲突。

图像生成 Tokenizer：VQ-VAE

图像理解 Tokenizer：ViT

图像生成	图像理解
Tokenizer	VQVAE	ViT
loss	重构损失loss	对比学习loss
结构	编码+解码	仅编码
量化	有量化+离散特征	无量化+连续特征
粒度	Low-Level 像素级	High-level 语义级

生成侧用的是VQVAE/VQGAN——通过重构损失训练，提取的是低层像素特征（每个细节长什么样？），离散、有量化。
理解侧用的是CLIP ViT——通过对比学习训练，提取的是高层语义特征（这是猫还是狗？），连续、不量化。

一个要Low-level细节，一个要High-level语义。一个输出离散码字，一个输出连续向量。这就是统一生成和理解的根本矛盾。

这不是一个工程问题，而是一个路线选择问题。围绕这个矛盾，业界发展出了三条不同的技术路线。

路线一：统一 Tokenizer —— Chameleon 的教训

最直觉的想法是：用同一个Tokenizer处理理解和生成，不就统一了吗？

2024年，Meta的Chameleon就是这个思路。它用同一个VQVAE对图像编码，将离散图像Token和文本Token放入同一个自回归序列，基于LLaMA-2架构训练。投入了百万GPU hours。

Chameleon 架构：VQVAE-LLaMA-2（早期融合统一序列）

结果令人遗憾：文生图还行，但图像理解能力很差。原因直指根本——VQVAE是为重构而训练的，几乎没有语义表征能力。用它来做理解，相当于让一个只会临摹的画师去做语文阅读理解。

后续MIT的VILA-U、字节的UniTok等工作尝试在同一个Tokenizer中同时优化重构和对比学习，但Low-level和High-level表征能力的冲突始终难以彻底解决。

教训很清楚：简单地将两种任务塞进一个Tokenizer，行不通。

路线二：双编码器 —— Janus 的"双面神"策略

既然一个Tokenizer搞不定，那就用两个。

2025年初，DeepSeek的Janus-Pro采用了一种巧妙的解耦策略：共享一个LLM Backbone，但理解和生成各用一个独立的编码器。

Janus双编码器架构：共享LLM + 解耦的CLIP ViT和VQVAE

理解端：用CLIP ViT提取语义特征
生成端：用VQVAE提取像素特征
LLM：作为统一的自回归"大脑"，处理两种特征、共享推理能力

Janus的名字来自罗马神话中的双面神——同时看向"理解"和"生成"两个方向。这种设计成功避开了单一Tokenizer的局限，理解和生成效果都不错。

但双编码器的不足也很明显：两个独立编码器意味着理解和生成的特征空间仍然是分离的，难以实现深度融合。模型结构也不够"原生"。

有没有更极致的方案？

路线三：纯自回归统一 —— 走向 Decoder-Only

2025年中，一个更激进的问题被提出：

“是否可以完全不采用任何外部元件——不要ViT、不要Diffusion——实现一个尽可能简洁的一体化结构？”

这就是Decoder-Only纯自回归统一架构，代表了当前最前沿的探索方向。

其核心设计是一个统一的Transformer解码器，图像直接以patch形式输入（无需ViT），输出也直接从Token生成图像（无需Diffusion）。但前面说的特征空间矛盾依然存在——解决方案是模态MoE（Mixture of Experts）：

共享QKV和自注意力层：让不同模态在注意力空间中充分交互
独立FFN专家：为文本理解、图像理解、图像生成分别配备独立的前馈网络专家

美团OneCAT混合模态专家模型：共享注意力 + 分模态FFN Expert

这样既实现了模态间的深度信息交换，又保持了各模态特有特征的有效提取。生成端用Next-Scale Prediction替代逐像素预测，从粗到细多尺度生成，复杂度从O(H²W²)降到O(L)。

这类架构的优势非常显著：推理时不需要额外的视觉编码器（速度快），支持图文交错生成（先写一段文字、再画一张图、再继续写），并且天然支持统一的RL Post-Training。

字节Bagel架构：双专家Transformer与共享多模态注意力

字节的BAGEL是这条路线的代表之一——7B激活参数（14B总参），采用MoT架构，在理解和生成两个维度都达到了开源模型的顶尖水平。

走向 Omni：不只是图和文，还要加上音频和视频

如果说前面的讨论集中在"图文理解与生成的统一"，那么下一步就是全模态（Omni）——将音频、视频、3D等更多模态纳入同一个模型。

2024年5月，OpenAI发布GPT-4o（“o"代表"Omni”），首次实现了文本、图像、音频的原生统一处理，用户可以直接用语音对话，模型能实时理解语气和情感，并生成自然的语音回复和图像。

多模态大模型发展趋势全景：从单模态到全模态理解与生成统一

全模态统一面临的挑战远比图文统一更复杂：模态间数据量差异巨大，不同模态收敛速度不同，训练工程极其复杂。

Qwen-Omni：全模态理解与语音生成的标杆

在全模态赛道上，Qwen系列再次展现了强大的工程能力。

Qwen2.5-Omni（2025.03）率先推出Thinker-Talker架构——Thinker（思考者）负责理解全模态输入并生成文本，Talker（表达者）负责将文本实时转化为流式语音输出。两者并行工作，Thinker还在处理后半部分时，Talker已经开始输出前半部分的语音，端到端延迟低至211ms。

Qwen3-Omni（2025.09）进一步将这条路线推到极致：

输入覆盖文本、图像、音频、视频四种模态
在36项音视频基准测试中，32项开源最佳、22项SOTA
文本和图像理解能力不降智，与专用模型持平
支持119种语言的语音识别、10种语言的语音生成
支持长达40分钟的音频理解

最新的Qwen3.5-Omni更是新增了音色克隆、语义打断、语音控制等实时交互能力，在215项评测中取得SOTA。

Qwen-Omni目前尚未将图像生成集成进主模型（图像生成由Qwen-Image独立承担），但在"全模态理解 + 语音生成"这条路上已经做到了业界顶尖。

Ming-Omni：开源全模态统一的先行者

蚂蚁集团的Ming系列则在另一个维度发力——成为首个在模态覆盖上全面对标GPT-4o的开源模型，不仅覆盖全模态理解，还同时支持图像生成和语音生成。

Ming-Flash-Omni的MoE跨模态融合架构：Multi-Router + AnyExperts

Ming-Flash-Omni在架构上的关键创新包括：

Multi-Router + AnyExperts：传统MoE给每个Token激活固定K个专家，但不同Token的重要度差异很大——Ming让模型自己决定每个Token需要激活多少专家，按需分配算力。
MingTok统一表征：用连续表征做理解和生成效果最好——高维语义表征做自回归输入，低维潜在表征做自回归输出，同一套范式统一图像和语音处理。

全模态第一梯队全景

当前全模态赛道的主要玩家：

模型	全模态输入	文本输出	语音输出	图像生成	亮点
GPT-4o/5	✅	✅	✅	✅	闭源标杆，率先定义Omni形态
Gemini 2/3	✅	✅	✅	✅	原生多模态训练，长上下文
Qwen-Omni系列	✅	✅	✅	❌（独立模型）	开源音视频理解SOTA，Thinker-Talker架构
Ming-Omni	✅	✅	✅	✅	开源领域首个全模态理解+生成统一
BAGEL	图文	✅	❌	✅	图文理解+生成统一开源标杆

全景回顾：五年五个阶段

回顾2020年至今的发展，多模态大模型经历了清晰的五个阶段：

阶段	核心突破	代表模型	能力边界
视觉Transformer化（2020）	统一视觉与语言的底层架构	ViT	图像分类
跨模态对齐（2021）	图文嵌入空间统一	CLIP、SigLIP	图文检索、零样本分类
多模态理解（2023-2024）	LLM获得视觉理解能力	LLaVA、Qwen-VL、InternVL、GPT-4V	图文问答、视觉推理
理解生成统一（2024-2025）	同一模型同时理解和生成图像	Chameleon、Janus-Pro、BAGEL	图文理解+图像生成+编辑
全模态统一（2025-）	音视图文全面覆盖	GPT-4o、Qwen-Omni、Ming-Omni、Gemini	全模态理解+全模态生成