当前位置：首页 > news >正文

简单学习 --＞多模态(看图听音的大模型)

news 2026/7/14 10:10:20

核心思想：万物皆向量

无论是文本、图像、音频还是视频，人类感知世界的方式是多维度的，但计算机底层只认识数字。多模态大语言模型（Multimodal LLM）的终极奥义，就是“大一统”——建立一个统一的语义向量空间（Semantic Latent Space）。这就好比在联合国开会，各国代表（不同模态）说着不同的语言，但都需要被同声传译翻译成同一种官方语言（高维向量），然后统一送入 Transformer 这个“中央大脑”进行处理。

不管是文字、图片、音频还是视频，最终都要被转化为向量序列，统一送入 Transformer 处理。多模态的本质就是把所有数据类型翻译成同一种"语言"——向量。

概念解析

文本 ── 分词(Tokenizer) + 嵌入(Embedding) ──▶ 文本向量序列 ──┐ │ 图像 ── ViT 编码器(切块+编码) ──▶ 图像向量序列 ──┼──▶ 统一输入 Transformer │ │ 音频 ── 音频编码器(分帧+编码) ──▶ 音频向量序列 ──┘ ▼ 自注意力计算所有向量关系 │ ▼ 输出: 文本/图片/音频

核心优势：一旦所有数据变成了同维度的向量，Transformer 强大的自注意力机制就可以跨越物理介质的限制，比如直接计算“狗的图片特征”和文本单词“Dog”之间的关联度。

图像处理：ViT（Vision Transformer）

在 2020 年以前，图像处理是卷积神经网络（CNN，如 ResNet）的天下。ViT 的出现打破了这一垄断。它极其粗暴且有效：把图片当成“一句话”，把图片里的色块当成“单词”。

ViT 把一张图片当成"一句话"来处理：将图片切成一个个小块（Patch），每个 Patch 就像一个"图像词汇"，送入标准 Transformer 处理。

原理

分块（Patching）：一张224×224像素的原始图片，按16×16像素为一个小块进行切割，总共得到14×14 = 196个 Patch。
展平与投影（Linear Projection）：每个 Patch 包含 $16 \times 16 \times 3$（RGB通道）=768个像素值。通过一个全连接层（相当于词汇表的 Embedding 层），将这 768 个数字压缩映射成一个高维向量。
位置编码（Positional Encoding）：这是极其关键的一步！因为图片被切碎后丢进了 Transformer，Transformer 天生没有位置概念（不知道哪个块在左上角，哪个在右下角）。加入位置编码后，向量就带上了“空间坐标”信息。
分类特征 [CLS] Token：通常会在序列最前面加上一个特殊的[CLS]向量。它的任务是在流经 Transformer 各层时，吸收所有 196 个 Patch 的信息，最终代表整张图片的全局特征。

简单例子:

ViT 觉得看一整张图太费劲了，它拿出一把剪刀，把一张猫的照片咔嚓咔嚓剪成 196 张正方形的小碎片。然后把这些碎片排成一队，像小兵排队一样一张张送进传送带。为了防止队伍被排乱，它还在每张碎片的背后用铅笔写上：[这是第1排第1列]、[这是第1排第2列]。

【一张完整的猫咪图 (224x224)】 【咔嚓剪成 16x16 的小方块 (Patch)】 ┌───────────────────────┐ ┌───┬───┬───┐ │ │ │ 1 │ 2 │ 3 │ ... (总共196个块) │ ( 🐱 猫咪 ) │ ───▶ ├───┼───┼───┤ │ │ │ 4 │ 5 │ 6 │ └───────────────────────┘ └───┴───┴───┘ │ ▼ 【排成一队，贴上座位号】 (块1 + 位置#1) ──▶ [线性投影层] ──▶ 向量 V1 ──┐ (块2 + 位置#2) ──▶ [线性投影层] ──▶ 向量 V2 ──┼─▶ 统一送入 Transformer (块3 + 位置#3) ──▶ [线性投影层] ──▶ 向量 V3 ──┘

补充：ViT 的核心洞察

以前图像用 CNN（卷积神经网络），CNN 有个归纳偏置（Inductive Bias）：假设相邻像素关系最紧密。ViT 去掉了这个假设，直接用 Attention 让模型自己学哪些像素块相关。
结果：数据量足够大时，ViT 比 CNN 效果更好。这印证了一个趋势——减少人工设计的"先验知识"，让模型自己学，往往效果更好。

音频处理

声音本质上是空气的震动（一维连续时间信号）。由于直接处理一维波形的计算效率极低，多模态模型通常会先给声音“拍张照”，把听觉问题转化为视觉/二维特征问题。

音频是一维的时间信号，需要先转化为频域表示（频谱图），再分帧编码为向量序列。

原理

采样与量化：将连续声波数字化，比如 CD 音质是每秒采样44,100次。
频域变换（核心步骤）：
使用短时傅里叶变换（STFT）将时域信号转化为频域信号。
梅尔频谱（Mel-Spectrogram）：为了模仿人类听觉系统（人耳对低频敏感，对高频迟钝），将频率映射到非线性的梅尔刻度上。此时，音频变成了一张“图片”（X轴是时间，Y轴是频率，颜色是能量）。
分帧（Framing）：通常以25ms为一帧。
为什么是 25ms？因为语音信号具有“短时平稳性”。在 10-30 毫秒的极短时间内，发音器官（声带、嘴型）来不及发生巨大变化，特征相对稳定；而低于 10ms 则包含的频率信息太少。
编码入模：将这些“声音切片”逐一编码为向量，按时间顺序送入模型。

简单例子:

声音是一条流淌的河流（一维波形），模型没办法一整条吞下去。于是，它拿着一把巨大的闸刀，每隔 25 毫秒（0.025秒）就狠狠切一刀！把声音切成一片片“面包片”（音频帧）。每一片面包里，都记录了这一极短瞬间里，高音有多高、低音有多低（梅尔频谱）。最后，声音变成了一张由面包片拼成的“频谱画”，模型像看画一样去“听”声音。

【持续的声波 (时域信号)】 振幅 ▲ _ _ _ │ / \/ \ / \ / \ │──/──────\───/───\───/───\───▶ 时间 (Time) │ \_/ \_/ │ 25ms │ 25ms │ 25ms │ 25ms │ 【每 25 毫秒切一刀（分帧）】 ▼ 【傅里叶变换：把每一刀切下来的声音变成频率柱状图】 频率 ▲ █ █ █ │ █ █ █ █ █ │ █ █ █ █ █ █ █ └───┴───┴───┴───┴───┴────────────┴───┴───▶ 时间 [第1帧] [第2帧] [第3帧] (转化为) (转化为) (转化为) 向量 V1 向量 V2 向量 V3

补充：为什么 25ms 一帧？

人耳对声音变化的感知有约 25ms 的时间分辨率。在这 25ms 内，即使声波已经振荡了上千次（对于高频声音），我们感知到的音色是基本相同的。所以以 25ms 为窗口进行特征提取，既能保留足够的时间精度，又能在每个窗口内捕获稳定的频率特征。

视频 = 图片帧 + 音频流

视频是信息的集大成者，但也带来了恐怖的“维度灾难”（计算量爆炸）。大语言模型处理视频，本质上是在做时空联合建模（Spatio-Temporal Modeling）。

音画同步的连环画”。看视频时，大模型左手拿着一叠连环画（图片帧），右手拿着一盘录音带（音频流）。它用一根时间的隐形线，把第 5 页连环画和第 5 秒的录音带牢牢扎在一起。
空间自注意力：帮它看清这一页画里，“手”和“杯子”在一起。
时间自注意力：帮它翻书，发现上一页手在下面，这一页手在上面，哦！这是“举杯”的动作。

原理

1. 抽帧（Temporal Downsampling）：一秒钟 30 帧的视频信息冗余度极高（相邻两帧几乎一样）。模型通常会以每秒 1-2 帧的频率进行均匀抽帧。

2. 多路编码与对齐：

视觉通路：抽出的图片帧交由 ViT 编码。
听觉通路：对应的音频段交由音频编码器。
时间戳同步：给每个向量打上绝对或相对时间戳，确保画面“嘴唇微动”和声音“发出音节”能在时序上完美重合。

3. 3D Transformer 注意力：模型不仅要计算空间关系（如第10帧画面里，人的手和杯子的关系），还要计算时间关系（第10帧的手位和第15帧的手位变化，推导出“拿起”的动作），最后融合跨模态关系。

视频文件 │ ┌──────────┴──────────┐ ▼ ▼ 图片帧序列 音频流 (每帧用 ViT 编码) (音频编码器) 帧1向量, 帧2向量, ... 音频向量序列 │ │ └──────────┬──────────┘ ▼ 按时间戳同步对齐 │ ▼ 统一时空序列向量 [指令] + [帧1] + [帧2] + ... + [音频段1] + [音频段2] + ... │ ▼ Transformer 自注意力 同时计算三种关系: - 空间关系: 同一帧内物体的关系（猫的耳朵和身体） - 时间关系: 跨帧的运动（手抬起→落下 = "挥手"） - 跨模态关系: 视觉+听觉关联（嘴唇动 + 说话声 = 这个人在讲话）

多模态对齐：对比学习

如果模型只认识文本向量和图像向量，但不建立它们的联系，就像一个聋子和一个瞎子在同一个房间里各干各的。对比学习（以 OpenAI 的 CLIP 模型为代表）是连接视觉与语言的桥梁。

对比学习（Contrastive Learning）是多模态训练的关键技术。目标：让同一事物的不同模态表示在高维空间中尽可能靠近。

原理

1. 目标：在同一个高维空间里，让语义相同的内容互相靠近（比如“猫的图片”和文本“Cat”），让无关的内容互相远离。

2. 批次训练（Batch Training）：假设我们抓取了 32,768 对（图片, 对应描述）作为一次训练数据。

正样本对（Positive Pairs）：配对的（图, 文），矩阵对角线上的元素，模型要努力最大化它们的相似度。
负样本对（Negative Pairs）：打乱的配错对的（图, 别人的文），模型要努力最小化它们的相似度。

训练数据: 猫的图片 + "一只可爱的猫正在睡觉" │ │ ▼ ▼ 图像编码器 文本编码器 │ │ ▼ ▼ 图像向量 V_img 文本向量 V_txt  对比学习目标: 拉近: 让 (猫图向量, 猫文本向量) 的距离变小 拉远: 让 (猫图向量, 狗的文本向量) 的距离变大 让 (猫图向量, 冰箱的文本向量) 的距离变大  数学形式（InfoNCE Loss）: Loss = -log( exp(sim(V_img, V_pos) / τ) ──────────────────────────────── Σ exp(sim(V_img, V_all) / τ) )  sim = 余弦相似度 τ = 温度系数（控制分布尖锐程度）

为什么需要

图像和文本是两种完全不同模态的数据。如果没有对齐，模型无法理解"图片里的猫"和"文字描述的猫"是同一个概念。对比学习通过大量图文对，在向量空间中建立跨模态的对应关系。

补充：多模态 SOTA 模型

模型	架构	特点
GPT-4o	端到端多模态	原生支持文本、图像、音频输入输出
Gemini	Decoder-Only 多模态	支持 100 万+ Token 上下文，视频理解
LLaVA	视觉编码器 + LLM	开源，用投影层连接图像和文本
Qwen-VL	通义千问多模态	支持中英双语图文理解