当前位置: 首页 > news >正文

简单学习 --> 多模态(看图听音的大模型)

核心思想:万物皆向量

无论是文本、图像、音频还是视频,人类感知世界的方式是多维度的,但计算机底层只认识数字。多模态大语言模型(Multimodal LLM)的终极奥义,就是“大一统”——建立一个统一的语义向量空间(Semantic Latent Space)。这就好比在联合国开会,各国代表(不同模态)说着不同的语言,但都需要被同声传译翻译成同一种官方语言(高维向量),然后统一送入 Transformer 这个“中央大脑”进行处理。

不管是文字、图片、音频还是视频,最终都要被转化为向量序列,统一送入 Transformer 处理。多模态的本质就是把所有数据类型翻译成同一种"语言"——向量。

概念解析

文本 ── 分词(Tokenizer) + 嵌入(Embedding) ──▶ 文本向量序列 ──┐ │ 图像 ── ViT 编码器(切块+编码) ──▶ 图像向量序列 ──┼──▶ 统一输入 Transformer │ │ 音频 ── 音频编码器(分帧+编码) ──▶ 音频向量序列 ──┘ ▼ 自注意力计算所有向量关系 │ ▼ 输出: 文本/图片/音频

核心优势:一旦所有数据变成了同维度的向量,Transformer 强大的自注意力机制就可以跨越物理介质的限制,比如直接计算“狗的图片特征”和文本单词“Dog”之间的关联度。

图像处理:ViT(Vision Transformer)

在 2020 年以前,图像处理是卷积神经网络(CNN,如 ResNet)的天下。ViT 的出现打破了这一垄断。它极其粗暴且有效:把图片当成“一句话”,把图片里的色块当成“单词”

ViT 把一张图片当成"一句话"来处理:将图片切成一个个小块(Patch),每个 Patch 就像一个"图像词汇",送入标准 Transformer 处理。

原理

  1. 分块(Patching):一张224×224像素的原始图片,按16×16像素为一个小块进行切割,总共得到14×14 = 196个 Patch。
  2. 展平与投影(Linear Projection):每个 Patch 包含 $16 \times 16 \times 3$(RGB通道)=768个像素值。通过一个全连接层(相当于词汇表的 Embedding 层),将这 768 个数字压缩映射成一个高维向量。
  3. 位置编码(Positional Encoding)这是极其关键的一步!因为图片被切碎后丢进了 Transformer,Transformer 天生没有位置概念(不知道哪个块在左上角,哪个在右下角)。加入位置编码后,向量就带上了“空间坐标”信息。
  4. 分类特征 [CLS] Token:通常会在序列最前面加上一个特殊的[CLS]向量。它的任务是在流经 Transformer 各层时,吸收所有 196 个 Patch 的信息,最终代表整张图片的全局特征

简单例子:

ViT 觉得看一整张图太费劲了,它拿出一把剪刀,把一张猫的照片咔嚓咔嚓剪成 196 张正方形的小碎片。然后把这些碎片排成一队,像小兵排队一样一张张送进传送带。为了防止队伍被排乱,它还在每张碎片的背后用铅笔写上:[这是第1排第1列][这是第1排第2列]

【一张完整的猫咪图 (224x224)】 【咔嚓剪成 16x16 的小方块 (Patch)】 ┌───────────────────────┐ ┌───┬───┬───┐ │ │ │ 1 │ 2 │ 3 │ ... (总共196个块) │ ( 🐱 猫咪 ) │ ───▶ ├───┼───┼───┤ │ │ │ 4 │ 5 │ 6 │ └───────────────────────┘ └───┴───┴───┘ │ ▼ 【排成一队,贴上座位号】 (块1 + 位置#1) ──▶ [线性投影层] ──▶ 向量 V1 ──┐ (块2 + 位置#2) ──▶ [线性投影层] ──▶ 向量 V2 ──┼─▶ 统一送入 Transformer (块3 + 位置#3) ──▶ [线性投影层] ──▶ 向量 V3 ──┘

补充:ViT 的核心洞察

以前图像用 CNN(卷积神经网络),CNN 有个归纳偏置(Inductive Bias):假设相邻像素关系最紧密。ViT 去掉了这个假设,直接用 Attention 让模型自己学哪些像素块相关。

结果:数据量足够大时,ViT 比 CNN 效果更好。这印证了一个趋势——减少人工设计的"先验知识",让模型自己学,往往效果更好

音频处理

声音本质上是空气的震动(一维连续时间信号)。由于直接处理一维波形的计算效率极低,多模态模型通常会先给声音“拍张照”,把听觉问题转化为视觉/二维特征问题。

音频是一维的时间信号,需要先转化为频域表示(频谱图),再分帧编码为向量序列。

原理

  1. 采样与量化:将连续声波数字化,比如 CD 音质是每秒采样44,100次。
  2. 频域变换(核心步骤)
  3. 使用短时傅里叶变换(STFT)将时域信号转化为频域信号。

  4. 梅尔频谱(Mel-Spectrogram):为了模仿人类听觉系统(人耳对低频敏感,对高频迟钝),将频率映射到非线性的梅尔刻度上。此时,音频变成了一张“图片”(X轴是时间,Y轴是频率,颜色是能量)。

  5. 分帧(Framing):通常以25ms为一帧。
  6. 为什么是 25ms?因为语音信号具有“短时平稳性”。在 10-30 毫秒的极短时间内,发音器官(声带、嘴型)来不及发生巨大变化,特征相对稳定;而低于 10ms 则包含的频率信息太少。

  7. 编码入模:将这些“声音切片”逐一编码为向量,按时间顺序送入模型。

简单例子:

声音是一条流淌的河流(一维波形),模型没办法一整条吞下去。于是,它拿着一把巨大的闸刀,每隔 25 毫秒(0.025秒)就狠狠切一刀!把声音切成一片片“面包片”(音频帧)。每一片面包里,都记录了这一极短瞬间里,高音有多高、低音有多低(梅尔频谱)。最后,声音变成了一张由面包片拼成的“频谱画”,模型像看画一样去“听”声音。

【持续的声波 (时域信号)】 振幅 ▲ _ _ _ │ / \/ \ / \ / \ │──/──────\───/───\───/───\───▶ 时间 (Time) │ \_/ \_/ │ 25ms │ 25ms │ 25ms │ 25ms │ 【每 25 毫秒切一刀(分帧)】 ▼ 【傅里叶变换:把每一刀切下来的声音变成频率柱状图】 频率 ▲ █ █ █ │ █ █ █ █ █ │ █ █ █ █ █ █ █ └───┴───┴───┴───┴───┴────────────┴───┴───▶ 时间 [第1帧] [第2帧] [第3帧] (转化为) (转化为) (转化为) 向量 V1 向量 V2 向量 V3

补充:为什么 25ms 一帧?

人耳对声音变化的感知有约 25ms 的时间分辨率。在这 25ms 内,即使声波已经振荡了上千次(对于高频声音),我们感知到的音色是基本相同的。所以以 25ms 为窗口进行特征提取,既能保留足够的时间精度,又能在每个窗口内捕获稳定的频率特征。

视频 = 图片帧 + 音频流

视频是信息的集大成者,但也带来了恐怖的“维度灾难”(计算量爆炸)。大语言模型处理视频,本质上是在做时空联合建模(Spatio-Temporal Modeling)

音画同步的连环画”。看视频时,大模型左手拿着一叠连环画(图片帧),右手拿着一盘录音带(音频流)。它用一根时间的隐形线,把第 5 页连环画和第 5 秒的录音带牢牢扎在一起。

  • 空间自注意力:帮它看清这一页画里,“手”和“杯子”在一起。

  • 时间自注意力:帮它翻书,发现上一页手在下面,这一页手在上面,哦!这是“举杯”的动作。

原理

1. 抽帧(Temporal Downsampling):一秒钟 30 帧的视频信息冗余度极高(相邻两帧几乎一样)。模型通常会以每秒 1-2 帧的频率进行均匀抽帧。

2. 多路编码与对齐

  • 视觉通路:抽出的图片帧交由 ViT 编码。

  • 听觉通路:对应的音频段交由音频编码器。

  • 时间戳同步:给每个向量打上绝对或相对时间戳,确保画面“嘴唇微动”和声音“发出音节”能在时序上完美重合。

3. 3D Transformer 注意力: 模型不仅要计算空间关系(如第10帧画面里,人的手和杯子的关系),还要计算时间关系(第10帧的手位和第15帧的手位变化,推导出“拿起”的动作),最后融合跨模态关系

视频文件 │ ┌──────────┴──────────┐ ▼ ▼ 图片帧序列 音频流 (每帧用 ViT 编码) (音频编码器) 帧1向量, 帧2向量, ... 音频向量序列 │ │ └──────────┬──────────┘ ▼ 按时间戳同步对齐 │ ▼ 统一时空序列向量 [指令] + [帧1] + [帧2] + ... + [音频段1] + [音频段2] + ... │ ▼ Transformer 自注意力 同时计算三种关系: - 空间关系: 同一帧内物体的关系(猫的耳朵和身体) - 时间关系: 跨帧的运动(手抬起→落下 = "挥手") - 跨模态关系: 视觉+听觉关联(嘴唇动 + 说话声 = 这个人在讲话)

多模态对齐:对比学习

如果模型只认识文本向量和图像向量,但不建立它们的联系,就像一个聋子和一个瞎子在同一个房间里各干各的。对比学习(以 OpenAI 的 CLIP 模型为代表)是连接视觉与语言的桥梁。

对比学习(Contrastive Learning)是多模态训练的关键技术。目标:让同一事物的不同模态表示在高维空间中尽可能靠近。

原理

1. 目标:在同一个高维空间里,让语义相同的内容互相靠近(比如“猫的图片”和文本“Cat”),让无关的内容互相远离。

2. 批次训练(Batch Training):假设我们抓取了 32,768 对(图片, 对应描述)作为一次训练数据。

  • 正样本对(Positive Pairs):配对的(图, 文),矩阵对角线上的元素,模型要努力最大化它们的相似度。

  • 负样本对(Negative Pairs):打乱的配错对的(图, 别人的文),模型要努力最小化它们的相似度。

训练数据: 猫的图片 + "一只可爱的猫正在睡觉" │ │ ▼ ▼ 图像编码器 文本编码器 │ │ ▼ ▼ 图像向量 V_img 文本向量 V_txt ​ 对比学习目标: 拉近: 让 (猫图向量, 猫文本向量) 的距离变小 拉远: 让 (猫图向量, 狗的文本向量) 的距离变大 让 (猫图向量, 冰箱的文本向量) 的距离变大 ​ 数学形式(InfoNCE Loss): Loss = -log( exp(sim(V_img, V_pos) / τ) ──────────────────────────────── Σ exp(sim(V_img, V_all) / τ) ) ​ sim = 余弦相似度 τ = 温度系数(控制分布尖锐程度)

为什么需要

图像和文本是两种完全不同模态的数据。如果没有对齐,模型无法理解"图片里的猫"和"文字描述的猫"是同一个概念。对比学习通过大量图文对,在向量空间中建立跨模态的对应关系。

补充:多模态 SOTA 模型

模型架构特点
GPT-4o端到端多模态原生支持文本、图像、音频输入输出
GeminiDecoder-Only 多模态支持 100 万+ Token 上下文,视频理解
LLaVA视觉编码器 + LLM开源,用投影层连接图像和文本
Qwen-VL通义千问多模态支持中英双语图文理解
http://www.jsqmd.com/news/898187/

相关文章:

  • 2026陕西玻璃钢景观雕塑“匠心之选”:从材质性能到场景落地,东宇雕塑凭硬实力定义区域标杆 - 深度智识库
  • AI产品经理必看!大神亲授成长路径与实战技巧,助你轻松拿高薪!
  • 基于FPGA的硬件在环测试:构建智能医疗设备数字孪生验证平台
  • 2026 年防爆控制箱厂家实力测评:智能防爆引领安全新高度 - 深度智识库
  • WeChatPad:打破设备限制,让手机也能享受微信平板模式的双设备登录体验
  • GEO优化:官网建设的重要性,如何铸就数字信任与增长引擎
  • TimeMoE-200M实战案例:用200M参数模型实现工业传感器数据精准预测
  • 2026广州知识产权贯标认证测评|新规审核避坑、申报流程、补贴政策、靠谱机构选型大全 - 资讯速览
  • 2026年5月河北聚氨酯保温钢管/钢套钢保温钢管/3PE防腐钢管/带颈对焊法兰厂家综合解析 - 2026年企业资讯
  • 2026导轨油实力工厂推荐排行榜:工业润滑源头厂家综合实力实测 - 变量人生001
  • 终极指南:如何用OK-WW实现鸣潮全自动后台挂机,告别重复操作
  • ChatGPT数据跨境合规红线:3大高危场景、5类处罚案例及GDPR/CCPA/《生成式AI服务管理暂行办法》三重对照表
  • 2026年安阳工业水处理设备选购指南:从电导率超标到锅炉结垢的完整解决方案 - 企业名录优选推荐
  • macOS光标自定义终极方案:用Mousecape免费打造个性化鼠标指针体验
  • 广域测量导向的电力系统动态等值与应用【附程序】
  • 贵州想学应急救援技术专业,哪家学校好?2026最新全门槛择校指南 - 深度智识库
  • 成都千恩包装:新都靠谱的木托盘定制公司选哪家 - LYL仔仔
  • 聚焦PMC计划落地 广东高胜咨询凭口碑领跑制造咨询赛道 - 互联网科技品牌测评
  • 2026空气悬浮风机厂家测评:核心技术与服务能力深度解析 - 资讯纵览
  • 终极osu!直播神器:KeyOverlay键盘可视化工具完全指南
  • 深度解析:Java 对象的内存布局与指针压缩原理
  • 2026中国B2B企业服务业GEO白皮书:从产业洞察到优化实践 - 罗兰艺境GEO
  • 2026年苏州(太仓/常熟/张家港)抖音短视频拍摄推广公司实力榜单及优选指南 - 资讯速览
  • 2026年宁波10大知名商事争议律师(权威综合版) - 资讯速览
  • AlmaLinux 同时发布 9.8 和 10.2 稳定版,新增软件包、提升安全性并支持 32 位软件
  • 产业园智慧消防为什么用海易纳一体化方案? - 资讯速览
  • 2026阜阳黄金回收行业深度测评:别再被街边小店坑了,这三家最靠谱! - 润富黄金珠宝行
  • 中古奢包回收不踩坑!深圳爱马仕香奈儿回收机构实测对比! - 奢侈品回收测评
  • 国内定制硅胶件源头厂家推荐:这几家实力工厂凭什么被采购圈反复提及? - 变量人生001
  • 杀戮尖塔2mod角色皮肤下载2026最新(手机版通用