当前位置: 首页 > news >正文

从“看图识字“到“全能感知“!多模态大模型5年爆变史,Qwen系成“基础设施“!

多模态大模型历经5年范式跃迁,从ViT革新视觉AI,到CLIP架起图文桥梁,再到Qwen-VL等多模态理解,乃至GPT-4o与Qwen-Omni的全模态统一。Qwen系模型作为核心基础设施,推动技术从单模态处理走向多模态深度融合,未来将向理解生成协同、视频一体化、世界模型等方向演进,迈向通用人工智能。


引言

从"看图识字"到"能看、能听、能说、能画",多模态大模型经历了怎样的范式跃迁?


2020年,ViT用一句"一张图值16x16个词"震撼了视觉AI界。几年后,GPT-4o可以同时看图、听音、说话、画画,Qwen3-Omni在36项音视频基准测试中拿下22项SOTA,BAGEL和Ming-Omni等开源模型也在冲击全模态统一的边界。

这条从单模态到全模态的演进之路,并非一条直线,而是多条技术路线并行探索、碰撞融合的过程。本文将为你系统梳理近几年多模态大模型的关键里程碑,讲清楚每一步"为什么"和"怎么做"。


ViT:让 Transformer 学会"看"(2020)

在ViT之前,计算机视觉是CNN(卷积神经网络)的天下,ResNet、EfficientNet统治着各大榜单。与此同时,NLP领域的Transformer凭借自注意力机制已经一统江湖。

一个自然的问题浮出水面:Transformer能不能也用来处理图像?

Google团队给出的答案简洁而优雅:把图像切成16×16的小块(patch),每个小块就相当于NLP中的一个"词"。这些patch通过线性嵌入层映射为向量序列,直接送入标准Transformer编码器——这就是Vision Transformer(ViT)

ViT架构:将图像切割为Patch作为Token输入Transformer

  • Visual Patch as Token:将一张图像切割成同样大小 (16x16,后续的internvl是14x14 ) 的小块,每个小块(patch)被展平,通过一个线性层 (patch embedding) 转换为一个向量,作为一个token,传递给 Transformer 作为输入

这一步的意义远超视觉任务本身:它统一了视觉和语言模型的底层架构,为后续两个世界的融合埋下了最重要的伏笔。但此时的ViT还是纯粹的单模态——它只能处理图像,完全不知道"语言"为何物。


CLIP:在图像和语言之间架起桥梁(2021)

ViT让Transformer能处理图像,但图像和语言之间仍然隔着一堵墙。2021年,OpenAI的CLIP推倒了这堵墙。

CLIP的思路极其直觉:同时训练一个图像编码器(ViT)和一个文本编码器,在4亿图文数据对上做对比学习,让语义相似的图文对在嵌入空间中"靠近",不相似的"远离"。

CLIP通过对比学习实现图文对齐

这相当于为图像和语言建立了一本"跨语言词典"——从此,机器可以用同一套坐标系来表示一张猫的照片和"一只毛茸茸的橘猫"这句话。

CLIP开启了Vision Foundation Model时代。它训练出的视觉编码器(CLIP ViT)成为了后续几乎所有多模态大模型的标配"眼睛"。但CLIP本身能力有限——它擅长检索和分类这些判别式任务,却无法像ChatGPT一样生成流畅的文本回答。

下一个问题自然而然地出现了:如何让LLM也拥有视觉能力?


LLaVA 到 Qwen-VL:给大语言模型装上"眼睛"(2023-2024)

2023年,大语言模型(LLM)的浪潮席卷全球。LLaVA给出了一个极其简洁的多模态方案:

预训练好的CLIP ViT(看图)+ 一个MLP投影层(翻译)+ 预训练好的LLM(说话)

LLaVA架构:CLIP ViT + MLP Connector + LLM

整个流程一目了然:

  • CLIP ViT把图像编码为特征向量
  • MLP将这些向量"翻译"到LLM能理解的空间
  • LLM基于图像特征和用户问题生成文本回答。

LLaVA引爆了多模态大模型的研究热潮,但真正将这个范式推向工业级落地的,是以Qwen-VL系列为代表的后续工作。

Qwen 系列:多模态领域的"基础设施"

如果要评选多模态大模型时代影响力最大的模型家族,Qwen系列当之无愧。它的影响力体现在两个层面:

第一,作为LLM底座被广泛采用。今天你看到的大量开源多模态模型——InternVL、Janus-Pro、LLaVA-OneVision等——底层的语言模型几乎清一色用的是Qwen2/Qwen2.5/Qwen3。可以说,Qwen已经成为多模态研究的"水电煤"。

第二,自身的多模态产品线极其完整。阿里围绕Qwen构建了覆盖多模态全场景的模型矩阵:

模型定位能力
Qwen-VL系列(2023-2025)视觉语言模型图文理解、OCR、视觉推理,从Qwen-VL到Qwen2.5-VL持续迭代
Qwen-Audio系列语音理解模型语音识别、音频理解
Qwen-Image图像生成模型文生图、图像编辑
Qwen-Omni系列(2025-)全模态统一模型文本/图像/音频/视频输入 + 文本/语音输出

在"ViT + Connector + LLM"范式下,Qwen-VL/InternVL/Seed-VL等工作进一步从ViT结构、原生分辨率、位置编码、视觉Token压缩等维度持续优化,形成了当前最主流的MLLM范式。

InternVL2.5架构:ViT-MLP-LLM

Qwen2.5-VL架构:ViT-MLP-LLM

但这套范式也存在三个根本性局限:

局限具体表现
ViT是信息瓶颈主要提取High-level语义特征,丢失了Low-level细节,OCR、定位等细粒度任务表现不佳
特征空间投影存疑将视觉空间硬投影到文本空间,是否真正合理?
只能理解,不能生成图像只能作为输入,模型只能输出文本,无法生成或编辑图像

第三个局限尤其关键——它指向了下一个重大命题:能否让一个模型既能理解图像、又能生成图像?


理解 vs 生成:一个 Tokenizer 引发的根本矛盾

要回答"统一理解和生成"这个问题,首先需要理解一个核心矛盾——图像的两种Tokenizer在特征空间上存在根本性冲突

图像生成 Tokenizer:VQ-VAE

图像理解 Tokenizer:ViT

图像生成图像理解
TokenizerVQVAEViT
loss重构损失loss对比学习loss
结构编码+解码仅编码
量化有量化+离散特征无量化+连续特征
粒度Low-Level 像素级High-level 语义级
  • 生成侧用的是VQVAE/VQGAN——通过重构损失训练,提取的是低层像素特征(每个细节长什么样?),离散、有量化。
  • 理解侧用的是CLIP ViT——通过对比学习训练,提取的是高层语义特征(这是猫还是狗?),连续、不量化。

一个要Low-level细节,一个要High-level语义。一个输出离散码字,一个输出连续向量。这就是统一生成和理解的根本矛盾。

这不是一个工程问题,而是一个路线选择问题。围绕这个矛盾,业界发展出了三条不同的技术路线。


路线一:统一 Tokenizer —— Chameleon 的教训

最直觉的想法是:用同一个Tokenizer处理理解和生成,不就统一了吗?

2024年,Meta的Chameleon就是这个思路。它用同一个VQVAE对图像编码,将离散图像Token和文本Token放入同一个自回归序列,基于LLaMA-2架构训练。投入了百万GPU hours。

Chameleon 架构:VQVAE-LLaMA-2(早期融合统一序列)

结果令人遗憾:文生图还行,但图像理解能力很差。原因直指根本——VQVAE是为重构而训练的,几乎没有语义表征能力。用它来做理解,相当于让一个只会临摹的画师去做语文阅读理解。

后续MIT的VILA-U、字节的UniTok等工作尝试在同一个Tokenizer中同时优化重构和对比学习,但Low-level和High-level表征能力的冲突始终难以彻底解决。

教训很清楚:简单地将两种任务塞进一个Tokenizer,行不通。


路线二:双编码器 —— Janus 的"双面神"策略

既然一个Tokenizer搞不定,那就用两个。

2025年初,DeepSeek的Janus-Pro采用了一种巧妙的解耦策略:共享一个LLM Backbone,但理解和生成各用一个独立的编码器。

Janus双编码器架构:共享LLM + 解耦的CLIP ViT和VQVAE

  • 理解端:用CLIP ViT提取语义特征
  • 生成端:用VQVAE提取像素特征
  • LLM:作为统一的自回归"大脑",处理两种特征、共享推理能力

Janus的名字来自罗马神话中的双面神——同时看向"理解"和"生成"两个方向。这种设计成功避开了单一Tokenizer的局限,理解和生成效果都不错。

但双编码器的不足也很明显:两个独立编码器意味着理解和生成的特征空间仍然是分离的,难以实现深度融合。模型结构也不够"原生"。

有没有更极致的方案?


路线三:纯自回归统一 —— 走向 Decoder-Only

2025年中,一个更激进的问题被提出:

“是否可以完全不采用任何外部元件——不要ViT、不要Diffusion——实现一个尽可能简洁的一体化结构?”

这就是Decoder-Only纯自回归统一架构,代表了当前最前沿的探索方向。

其核心设计是一个统一的Transformer解码器,图像直接以patch形式输入(无需ViT),输出也直接从Token生成图像(无需Diffusion)。但前面说的特征空间矛盾依然存在——解决方案是模态MoE(Mixture of Experts)

  • 共享QKV和自注意力层:让不同模态在注意力空间中充分交互
  • 独立FFN专家:为文本理解、图像理解、图像生成分别配备独立的前馈网络专家

美团OneCAT混合模态专家模型:共享注意力 + 分模态FFN Expert

这样既实现了模态间的深度信息交换,又保持了各模态特有特征的有效提取。生成端用Next-Scale Prediction替代逐像素预测,从粗到细多尺度生成,复杂度从O(H²W²)降到O(L)。

这类架构的优势非常显著:推理时不需要额外的视觉编码器(速度快),支持图文交错生成(先写一段文字、再画一张图、再继续写),并且天然支持统一的RL Post-Training。

字节Bagel架构:双专家Transformer与共享多模态注意力

字节的BAGEL是这条路线的代表之一——7B激活参数(14B总参),采用MoT架构,在理解和生成两个维度都达到了开源模型的顶尖水平。


走向 Omni:不只是图和文,还要加上音频和视频

如果说前面的讨论集中在"图文理解与生成的统一",那么下一步就是全模态(Omni)——将音频、视频、3D等更多模态纳入同一个模型。

2024年5月,OpenAI发布GPT-4o(“o"代表"Omni”),首次实现了文本、图像、音频的原生统一处理,用户可以直接用语音对话,模型能实时理解语气和情感,并生成自然的语音回复和图像。

多模态大模型发展趋势全景:从单模态到全模态理解与生成统一

全模态统一面临的挑战远比图文统一更复杂:模态间数据量差异巨大,不同模态收敛速度不同,训练工程极其复杂。

Qwen-Omni:全模态理解与语音生成的标杆

在全模态赛道上,Qwen系列再次展现了强大的工程能力。

Qwen2.5-Omni(2025.03)率先推出Thinker-Talker架构——Thinker(思考者)负责理解全模态输入并生成文本,Talker(表达者)负责将文本实时转化为流式语音输出。两者并行工作,Thinker还在处理后半部分时,Talker已经开始输出前半部分的语音,端到端延迟低至211ms。

Qwen3-Omni(2025.09)进一步将这条路线推到极致:

  • 输入覆盖文本、图像、音频、视频四种模态
  • 在36项音视频基准测试中,32项开源最佳、22项SOTA
  • 文本和图像理解能力不降智,与专用模型持平
  • 支持119种语言的语音识别、10种语言的语音生成
  • 支持长达40分钟的音频理解

最新的Qwen3.5-Omni更是新增了音色克隆、语义打断、语音控制等实时交互能力,在215项评测中取得SOTA。

Qwen-Omni目前尚未将图像生成集成进主模型(图像生成由Qwen-Image独立承担),但在"全模态理解 + 语音生成"这条路上已经做到了业界顶尖。

Ming-Omni:开源全模态统一的先行者

蚂蚁集团的Ming系列则在另一个维度发力——成为首个在模态覆盖上全面对标GPT-4o的开源模型,不仅覆盖全模态理解,还同时支持图像生成语音生成

Ming-Flash-Omni的MoE跨模态融合架构:Multi-Router + AnyExperts

Ming-Flash-Omni在架构上的关键创新包括:

  • Multi-Router + AnyExperts:传统MoE给每个Token激活固定K个专家,但不同Token的重要度差异很大——Ming让模型自己决定每个Token需要激活多少专家,按需分配算力。
  • MingTok统一表征:用连续表征做理解和生成效果最好——高维语义表征做自回归输入,低维潜在表征做自回归输出,同一套范式统一图像和语音处理。

全模态第一梯队全景

当前全模态赛道的主要玩家:

模型全模态输入文本输出语音输出图像生成亮点
GPT-4o/5闭源标杆,率先定义Omni形态
Gemini 2/3原生多模态训练,长上下文
Qwen-Omni系列❌(独立模型)开源音视频理解SOTA,Thinker-Talker架构
Ming-Omni开源领域首个全模态理解+生成统一
BAGEL图文图文理解+生成统一开源标杆

全景回顾:五年五个阶段

回顾2020年至今的发展,多模态大模型经历了清晰的五个阶段:

阶段核心突破代表模型能力边界
视觉Transformer化(2020)统一视觉与语言的底层架构ViT图像分类
跨模态对齐(2021)图文嵌入空间统一CLIP、SigLIP图文检索、零样本分类
多模态理解(2023-2024)LLM获得视觉理解能力LLaVA、Qwen-VL、InternVL、GPT-4V图文问答、视觉推理
理解生成统一(2024-2025)同一模型同时理解和生成图像Chameleon、Janus-Pro、BAGEL图文理解+图像生成+编辑
全模态统一(2025-)音视图文全面覆盖GPT-4o、Qwen-Omni、Ming-Omni、Gemini全模态理解+全模态生成

特别值得注意的是,Qwen系列贯穿了第三到第五阶段:Qwen-VL是多模态理解阶段的核心玩家,Qwen2/2.5作为LLM底座支撑了Janus-Pro等统一模型,Qwen-Omni则直接进入了全模态赛道。可以说Qwen是多模态大模型时代真正的"基础设施级"存在。

值得关注的几个技术洞察:

  1. 统一是大趋势:从分离式模型到统一式模型,减少模块拼接、增加原生融合
  2. Tokenizer是核心瓶颈:理解和生成的矛盾本质上是Tokenizer特征空间的矛盾
  3. 原生融合优于后期拼接:早期多模态预训练比后期接Adapter效果更好
  4. 数据配比决定上限:生成任务对数据量需求高、对参数量需求低,与语言任务呈不同的Scaling趋势

2026年AI行业最大的机会,毫无疑问就在应用层

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%,年薪破百万!

腾讯、京东、百度开放招聘技术岗,80%与AI相关……

如今,超过60%的企业都在推进AI产品落地,而真正能交付项目的大模型应用开发工程师**,**却极度稀缺!

落地AI应用绝对不是写几个prompt,调几个API就能搞定的,企业真正需要的,是能搞定这三项核心能力的人:

✅RAG:融入外部信息,修正模型输出,给模型装靠谱大脑

✅Agent智能体:让AI自主干活,通过工具调用(Tools)环境交互,多步推理完成复杂任务。比如做智能客服等等……

✅微调:针对特定任务优化,让模型适配业务

目前,脉脉上有超过1000家企业发布大模型相关岗位,人工智能岗平均月薪7.8w!实习生日薪高达4000!远超其他行业收入水平!

技术的稀缺性,才是你「值钱」的关键!

具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻

AI浪潮,正在重构程序员的核心竞争力!现在入场,仍是最佳时机!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!

大模型微调

  • 掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。

  • 学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。

RAG应用开发

  • 深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
  • 应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。

AI Agent智能体搭建

  • 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
  • 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。

如果你也有以下诉求:

快速链接产品/业务团队,参与前沿项目

构建技术壁垒,从竞争者中脱颖而出

避开35岁裁员危险期,顺利拿下高薪岗

迭代技术水平,延长未来20年的新职业发展!

……

那这节课你一定要来听!

因为,留给普通程序员的时间真的不多了!

立即扫码,即可免费预约

「AI技术原理 + 实战应用 + 职业发展

「大模型应用开发实战公开课」

👇👇

👍🏻还有靠谱的内推机会+直聘权益!!

完课后赠送:大模型应用案例集、AI商业落地白皮书

http://www.jsqmd.com/news/760081/

相关文章:

  • Nemotron-Flash:低延迟LLM推理的混合架构设计
  • 避坑指南:在Ubuntu 20.04上从零搭建OpenPCDet+PointPillars_ROS环境(含CUDA 11.7、spconv2.x配置)
  • Tool Calling 的实现细节——Agent 如何决定调用哪个工具
  • YOLO训练入门(下)学习笔记(第四集)
  • 【AI模型】模型量化技术详解
  • 大模型代码生成与代理任务评估框架及优化实践
  • 2026年5月专业靠谱的全屋定制TOP5:基于全案交付与口碑验证的权威榜单 - 商业科技观察
  • 告别手动测试:深入解读Vector CANoe LIN一致性测试模块(ISO17987/J2602标准覆盖哪些内容?)
  • 2026树枝粉碎机品牌评分出炉!博尚9.8分领跑,全能配置+高性价比,市政/物业首选品牌 - 会飞的懒猪
  • 大模型输入的“灵魂”步骤:Embedding如何让0、1、2变得有“意义”?
  • 2026年5月全屋定制品牌权威盘点:精工智造如何定义家的品质 - 商业科技观察
  • 前端学习打卡 Day1:从0到1认识前端与HTML基础结构
  • 大语言模型逻辑验证框架:原理、实现与应用
  • 2026年5月全屋整装十大公认品牌——选对品牌,装好一个家 - 商业科技观察
  • 超表面技术在水下定位系统中的应用与优化
  • 前端已死?2026年,转型AI Agent工程师才是你的“续命”良方!
  • 基于Flutter的OpenClaw桌面控制台开发:架构设计与跨平台实践
  • 4J36低膨胀合金有哪些?符合国标的4J36低膨胀合金厂商推荐 - 品牌2026
  • CANoe诊断测试避坑指南:ISO 15765-2网络层时间参数(N_Ar, N_As, N_Br...)详解与实战监控
  • 2026年5月厨柜定制选购白皮书:从物理参数到精工交付的品质解码 - 商业科技观察
  • 利用Taotoken多模型能力为嵌入式系统设计文档寻找最优的生成模型
  • 告别Docker依赖!用tileserver-gl-light在Windows/Mac上5分钟搭建本地地图服务
  • 不只是建模:手把手教你用TCAD为GaN功率器件做‘虚拟实验’(DOE与参数校准篇)
  • GitHub汉化插件:3分钟告别英文界面,让中文开发者更高效
  • 别再手动配IP了!用Cloud-Init在OpenStack上5分钟搞定CentOS 7云主机初始化(附完整配置流程)
  • 用快马ai快速构建你的第一个android天气应用原型
  • 2026年5月橱柜定制品牌十大排名:金牌家居领跑高端厨房定制 - 商业科技观察
  • 【连续11届稳定EI检索、快至3个月】第十二届先进制造技术与应用材料国际学术会议(ICAMMT 2026)
  • 高效散热调校:Fan Control终极风扇控制软件深度解析
  • 2026园林树枝粉碎机厂家品牌排名 - 会飞的懒猪