当前位置：首页 > news >正文

收藏！小白程序员快速入门大模型：多模态LLMs学习指南

news 2026/5/11 22:39:19

多模态大模型（MLLMs）通过整合图像、文本、语音等，实现跨模态理解和生成。文章介绍了MLLMs的基本概念、架构，包括多模态编码器、连接器与LLM，并区分了双编码器架构和基于LLM的架构。同时，文章探讨了VLM前沿动态，如GPT-4V、Gemini等，并解释了图像Patch处理的原因和过程，以及多模态连接器在融合不同模态信息中的关键作用。对于想要了解和学习大模型的程序员，特别是小白，这篇文章提供了一个全面的入门指南。

1、基本概念

多模态大模型普遍基于Transformer based架构，NLP对文本进行embedding，CV对图像patch进行Embedding，从图像、视频、文本、语音数据中提取特征，转换为tokens，进行不同模态特征的对齐，送入（类）Transformer进行运算。

这类模型将LLM的生成与推理能力扩展到超越文本的数据，能够在多种信息模态下实现丰富的语义理解。现有方法大多集中于*视觉-语言理解（VLU）**，通过*融合视觉（如图像与视频）与文本输入，实现对空间关系、物体、场景及抽象概念的综合理解。这些模型运行在混合输入空间中，其中文本数据以离散表示方式编码，视觉信号则被编码为连续表示。与传统LLM类似，这类模型的输出以离散token形式生成，通常采用基于分类的语言建模和特定任务的解码策略。下图展示了多模态理解模型的典型架构。

多模态理解模型的架构，包括多模态编码器、连接器与大语言模型（LLM）：

多模态编码器将图像、音频或视频转换为特征，这些特征通过连接器处理后输入LLM。
连接器的架构大致可分为三类：基于投影的连接器、基于查询的连接器和基于融合的连接器。

视觉语言模型（VLM）两个大类别：

Dual-Encoder

早期VLM模型主要采用双编码器架构，通过分别编码图像与文本，并在对齐的潜在空间中联合推理，代表性方法包括CLIP、ViLBERT、VisualBERT与UNITER。这些开创性模型奠定了多模态推理的核心原则，但过度依赖基于区域的视觉预处理和独立编码器，限制了模型的可扩展性与泛化能力。该类模型构建方法又称为“跨模态注意力架构方法”（cross-attention-based），该方法特点是引入交叉注意力机制。

LLM-Based

随着强大LLM的兴起，VLU模型逐渐转向仅解码器架构，通常以冻结或微调的LLM为基础，该类模型构建方法又称为“统一嵌入解码器架构方法”（decoder-only）。这些方法主要通过结构各异的连接器转换图像嵌入，例如，MiniGPT-4采用单层可学习投影层，将CLIP提取的图像嵌入映射到Vicuna的token空间。

2、VLM前沿动态

GPT-4V在GPT-4框架基础上扩展图像输入能力，虽为闭源模型，但展现出强大的视觉推理、图像描述与多模态对话能力。
Gemini基于解码器架构，支持图像、视频与音频模态，其Ultra版本在多模态推理任务中树立了新基准。
Qwen系列展示了可扩展的多模态设计：Qwen-VL集成视觉接收器与定位模块，Qwen2-VL引入动态分辨率处理与M-RoPE机制，增强对多样输入的稳健性。
LLaVA-1.5与LLaVA-Next结合CLIP视觉编码器与Vicuna风格LLM，在VQA（视觉语言问答）与指令跟随任务中表现出色。
InternVL系列探索统一多模态预训练策略，联合学习文本与视觉数据，提升各类视觉-语言任务表现。
Ovis通过可学习的视觉嵌入查找表引入结构嵌入对齐机制，使视觉嵌入结构上对齐文本token。

近期部分模型进一步探索可扩展、统一的多模态处理架构。DeepSeek-VL2采用专家混合（MoE）架构，提升跨模态推理能力。总体而言，这些模型展现出向指令微调、token中心化框架演进的趋势，能够以统一、可扩展的方式处理多样化多模态任务。

3、图像Patch

为什么需要将图像处理成 Patch？

传统的图像处理主要依赖于卷积神经网络（CNN），CNN 通过局部感受野和层层抽象来提取图像特征。然而，当前许多强大的 MLLMs 的基础架构是 Transformer 模型，这种模型最初为处理文本等序列数据而设计，其核心优势在于通过自注意力机制捕捉序列中元素之间的长距离依赖关系。

将原始图像直接输入 Transformer 面临两大挑战：

巨大的维度：高分辨率图像包含海量像素点，直接将像素矩阵作为输入，维度过高，计算和内存消耗巨大，难以处理。
结构不匹配：Transformer 处理的是一维序列，而图像是二维网格结构。需要一种方式将二维图像转化为一维序列，同时尽可能保留原有的空间信息。

将图像分割成固定大小的“补丁”（patches）并排成序列，提供了一种优雅的解决方案。这种方法将图像类比于文本中的“词语”或“tokens”，使得 Transformer 模型能够以处理文本序列的方式来处理图像。

图像 Patch 处理的详细过程

将原始图像转化为模型可接受的 Patch 序列通常包括以下几个步骤：

1.图像分割 (Image Segmentation into Patches):

将原始图像按照固定大小（例如 16×16 或 32×32 像素）分割成一系列互不重叠的小块。目的是将大型二维图像分解成可管理的、标准大小的基本处理单元。

2.展平 (Flattening):

将每个 P×P×C（高 × 宽 × 通道数）的图像块的像素数据按顺序展平为一个长度为 P×P×C 的一维向量。目的是将每个图像块转换为一个标准的向量格式，适配后续的线性变换。

3.初始 Patch 嵌入 / 线性投影 (Initial Patch Embedding / Linear Projection):

对每个展平后的 patch 向量应用一个线性变换（一个全连接层）。这个线性层将高维的展平向量（维度 P2C）投影到模型内部统一的嵌入维度 D。它学习将原始像素数据映射到模型所在的嵌入空间中具有语义意义的向量表示，类似于文本处理中的词嵌入层。这一步将原始像素信息转化为模型能够理解的、低维稠密的特征嵌入。

4.位置编码 (Positional Encoding):

在 Patch 嵌入向量中加入一个表示该 patch 在原始图像中空间位置的向量（位置编码）。位置编码可以是预设的（如正弦/余弦函数）或可学习的。通过这种方式，为每个 patch 嵌入注入空间上下文信息，使模型能够理解 patch 之间的相对和绝对空间关系，从而捕捉图像的整体结构。

Patch 之间的排序方式

将二维图像块排列成一维序列时，最常用和标准的方式是采用从左到右、从上到下的顺序，即raster scan顺序。

这意味着，序列的第一个元素是图像左上角的 patch，然后依次是同行的右侧 patch，直到行末。接着是下一行的第一个 patch，再是同行的右侧 patch，以此类推，直到图像右下角的 patch 成为序列的最后一个元素（除了可能的 CLS Token）。

这种排序方式简单直观，并且与位置编码的生成方式紧密配合，使得每个序列索引都能唯一对应到原始图像中的一个空间位置。

将原本在二维空间中相邻的 patches（如上下相邻的 patch）在序列中隔开，这确实与CNN通过局部卷积核处理邻近区域的方式不同。这会破坏某些依赖于严格二维邻近性的局部特征吗？Transformer 模型依靠其独特的机制来克服这个问题，并不会因此“破坏”特征。

自注意力机制的全局连接能力：与 CNN 的局部感受野不同，Transformer 的自注意力机制允许序列中的每一个 patch 嵌入与所有其他 patch 嵌入直接计算注意力权重并进行信息交换，无论它们在序列中是相邻还是相隔很远。这意味着，即使上下相邻的 patch 在序列中距离较远，模型也可以在单个注意力层中捕捉到它们之间的关系。
位置编码提供的空间语境：位置编码确保了模型知道每个 patch 在原始二维图像中的真实空间位置。模型学习到序列中相隔较远的两个 patch（例如，序列索引为 i 和 j 的 patch）在原始图像中是上下相邻的（例如，基于它们的位置编码），从而可以在处理过程中有效地整合它们的信息。

4、多模态编码器

又称为视觉骨干网络，在将图像 Patch 转换为初始嵌入序列后，这些序列会被输入到一个视觉骨干网络中，进行更深层次的特征提取和抽象。这个视觉骨干网络是 MLLM 中专门负责处理图像信息的部分。以下是一些常见的视觉部分选择及其分析。

传统的卷积神经网络 (CNN)

**代表模型：**ResNet、ResNeXt、EfficientNet 等。
核心思想：利用卷积和池化进行层次化特征提取。
优点：技术成熟，计算效率相对较高（对于局部特征），对局部结构敏感。
缺点：缺乏原生处理长距离依赖的能力，输出格式需转换，缺乏原生的跨模态对齐。
应用场景：早期或特定需求（如边缘设备）的 MLLMs，或作为混合模型的一部分。

原生视觉 Transformer (*ViT*)

代表模型：Vision Transformer (ViT) 原始版本及其变体。
核心思想：在 Patch 序列上直接应用标准的 Transformer Encoder。
优点：强大的全局建模能力，与 Transformer 架构天然兼容，可扩展性强。
缺点：对局部细节捕捉相对弱，计算量大（高分辨率），缺乏原生的跨模态对齐。
应用场景：许多现代 MLLMs 的首选，特别是需要强大全局视觉理解能力的模型。

层次化视觉 Transformer (Hierarchical ViT)

代表模型：Swin Transformer、PVT 等。
核心思想：结合层次化思想和 Transformer，逐步扩大感受野。
优点：兼顾局部和全局信息，计算效率更高（特别是高分辨率），输出多尺度特征。
缺点：结构相对复杂，缺乏原生的跨模态对齐。
应用场景：处理高分辨率图像、对计算效率有要求或需要多尺度视觉特征的 MLLMs。

图文对齐模型 (Image-Text Alignment Models) 的图像编码器

**代表模型：**CLIP（其 Vision Transformer 或 ResNet 图像编码器）、ALIGN、Florence、CoCa 等。
核心思想：在大规模图文对数据上进行对比学习等联合训练，使图像和文本在共享空间中对齐。
优点：强大的预训练跨模态对齐能力，泛化能力强，简化后续融合。
缺点：可能牺牲部分纯视觉任务性能，依赖预训练数据质量。
应用场景：当前绝大多数领先的 MLLMs 首选，特别是需要理解图文关联和开放世界概念的模型。

5、多模态连接器(VL-Adapter)

多模态模型中有效地融合和处理图像信息，是构建强大 MLLMs 的关键挑战之一。无论选择哪种视觉骨干网络，其输出的视觉特征（例如 ViT 的 [CLS] Token 输出，CLIP 的图像嵌入，或 CNN 的最终特征图）通常需要一个额外的转换步骤，以便与模型中的其他模态（尤其是文本）信息进行有效的融合和交互。这个转换通常由一个或多个线性层（有时是更简单的 MLP）完成，我们称之为 Projector（投影层）。

如上图所示，图像Embedding和文本Embedding需要进行融合，就需要一个叫做多模态连接器的模块，该模块作用：

统一的多模态嵌入空间：可以将多种模块的潜在语义空间进行对齐
维度对齐：另外也可以将两类Embedding的hidden_state维度进行对齐。

Projector 在不同视觉骨干和训练场景下的必要性，使用基于图像任务预训练的视觉骨干（CNN, 原生 ViT, 层次化 ViT）：

这些骨干网络在图像分类等任务上预训练，其特征空间主要反映视觉本身的特征，与语言嵌入空间是独立的。
在这种情况下，Projector 层是至关重要且必不可少的。它需要学习一个复杂的映射，将纯视觉空间中的特征有效地转换到语言模型的嵌入空间，以实现模态间的对齐。Projector 承担着主要的跨模态对齐学习任务。

多模态Projector的通常结构简单，可以使用线性投影：例如SmolVLM-256M-Instruct模型的Projector结构就是一个线性投影：

如上所述，除了线性投影层（MLP），Projector还有Q-Former和LLM其它这两种典型架构，如下图:

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。