当前位置: 首页 > news >正文

VLM (4):connector

文章目录

  • 前言
  • 1 connector 分类
  • 1.1 功能上只对齐维度
    • 1.2 压缩token 数量: token compression(token resampling)
    • 1.3 LLM 内部注入
    • 1.4 多维度融合
  • 2 connector 和 vlm
    • 2.1 linear/MLP
      • 2.1.1 典型文章
      • 2.1.2 典型结构
      • 2.1.3 LLaVA
      • 2.1.4 PaliGemma (pi0 base model 的 主要结构)
      • 2.1.5 Prismatic VLMs (openvla base model 的主要结构)
    • 2.2 Q-former
      • 2.2.1 Q-former 结构
    • 2.3 percevier adapter
    • 2.4 Cross-attention adapter
    • 2.5 multi-view / multi-frame fusion
      • 2.5.1 temporal pixel shuffle + MLP
      • 2.5.2 Spatial-Temporal Positional MLP
  • 3 优缺点

前言

我们在看大模型时 ,会有很多结构很困扰比如: projector, MLP, connector, Q-former等等. 这里对其进行总结.


1 connector 分类

按照一般论文的常见程度,和论文中描述的重要程度,我们给connector 排个排名:
第一优先级:

  1. MLP Projector:最常见, 最简单,且最有效果
  2. Q-Former: BLIP-2 的核心贡献
  3. Perceiver Resampler: Flamingo 的 核心贡献
  4. Cross-Attention Adapter: Flamingo style VLM 的 核心结构
  5. Multi-Encoder Fusion:CLIP SigLIP DINO, Prismatic, OpenVLA
  6. multi-view / multi-frame fusion:

第二优先级:

  1. Token Pruning : 推理加速, 部署优化, 代表论文: FastV
  2. Token Merging: ViT 加速常见, 代表论文: oken Merging: Your ViT But Faster
  3. Pooling Resampler: 工程落地使用多一些

第三优先级(用到再查我觉得都来得及):

  1. TokenLearner
  2. 更复杂的动态 token routing / adaptive compression

我当时看论文的时候看到很多模型很核心的是 connector的修改和改进, 有点乱, 现在做如下归纳

1.1 功能上只对齐维度

名称结构代表模型
linear projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states
MLP projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states

1.2 压缩token 数量: token compression(token resampling)

名称结构数据流
Pooling Resampleraverage pooling24 × 24 visual tokens→2 × 2 pooling→12 × 12 visual tokens
Q-Former(会有3种模式,这里简单说下)query tokens→Self-AttentionCross-Attention to image featuresFFN / MLP→updated query tokens
Perceiver Resamplervisual features X+learnable latents Z→Cross-Attention→updated latents→FFN / MLP→updated latents

1.3 LLM 内部注入

名称结构数据流
gatedCross-attention adapter因为 attention 的 Query 和 Key/Value 来自不同来源。他的流程可以这样:Image / Video→Vision Encoder→Perceiver Resampler/ visual tokenizer→visual tokens→Cross-attention adapter→LLM→answer

1.4 多维度融合

名称结构数据流
multi-view / multi-frame fusion

2 connector 和 vlm

2.1 linear/MLP

2.1.1 典型文章

(1)LLaVA(2023) 首创:
把 CLIP visual tokens 通过 projector 接入 Vicuna,开创开源 visual instruction tuning 路线.

(2)LLaVA-1.5(2023/2024) :
证明 MLP connector + 更好视觉 encoder + 数据配方就能非常强

(3)PaliGemma(2024)
SigLIP + Gemma + linear adapter,形成轻量开放 VLM transfer 路线

(4)Prismatic VLMs / OpenVLA(2024)
把这种简洁 connector 思路进一步系统化,并影响 VLA

2.1.2 典型结构

linear 就是 nn.linear, MLP 到处都是, 结构如下,就不赘述

projector=nn.Sequential(nn.Linear(vision_dim,llm_hidden_dim),nn.GELU(),nn.Linear(llm_hidden_dim,llm_hidden_dim),)

2.1.3 LLaVA

LLaVA 有一个重要的贡献:MLP Projector 被证明“简单但非常强”
这篇的业内贡献非常大,因为它改变了很多人的判断。在 BLIP-2 / Flamingo 之后,很多人会觉得 connector 必须复杂,比如:Q-Former, Perceiver Resampler, Cross-Attention Adapter

论文摘要明确说 LLaVA-1.5 通过简单修改 LLaVA(projector 从 linear 改为 MLP):使用 CLIP-ViT-L-336px with an MLP projection,再加入 academic-task-oriented VQA data 和简单 response formatting prompts,就能在 11 个 benchmarks 上建立更强 baseline;最终 13B checkpoint 只用 1.2M publicly available data,在单个 8-A100 node 上约 1 天完成训练。

所以可以见到 MLP 有这样的优点:

比 Linear 更强
比 Q-Former / Perceiver 更简单
训练和复现成本低
工程稳定

2.1.4 PaliGemma (pi0 base model 的 主要结构)

PaliGemma 的贡献点在于:用 SigLIP-So400m vision encoder 和 Gemma-2B language model 的 open VLM , 轻量级(3B) 也可以作为 强 transfer base model。继续验证了 simple projection / adapter 结构在开放 VLM 中的有效性。

2.1.5 Prismatic VLMs (openvla base model 的主要结构)

在完全相同的训练数据和参数规模下,Prism 模型的性能严格超越了当时大火的 LLaVA v1.5 和 InstructBLIP,成为了当时开源 VLM 的新标杆(State-of-the-art)。虽然这篇论文没有直接说名MLP project 怎么设计, 但这篇论文额提出了project 如何参与训练,并且做了详细的实验.
经验一:
LLaVA的做法是2stage:

Stage 1: freeze vision encoder + freeze LLM,只训练 projector
Stage 2: freeze vision encoder,训练 projector + LLM
其实直接训练 projector + LLM 就够了。

经验二:
不要轻易 finetune vision backbone

Vision Encoder: freeze
Projector: train
LLM: train / finetune

经验三:dinov2 + SigLIP 是非常强的组合
在prismatic 论文中作者没有画出如何连接的结构图,但是我读完openvla 后发现 openvla 并没有结构创新,只是打通了vision + language + action 的通路, 且 openvla是完全继承 prismatic 的工作,因此可以借鉴

从 LLaVA 之后, MLP作为connector 已经最常用最方便且性能可以的connector, 下面就属于知晓性的结构, 也许某一天能解决我们遇到的问题

2.2 Q-former

Q-Former 是 BLIP-2 提出的一个轻量 Querying Transformer,用少量 learnable query tokens 从frozen image encoder 的大量视觉特征中抽取与文本最相关的信息,再接给frozen LLM

LLaVA-style projector 的思路是:

直接把所有 image tokens 投影到 LLM hidden space

Q-Former 的思路是:

不要直接把所有 image tokens 都给 LLM。
先用一组 learnable queries 去图像特征里“问问题”,
抽出少量更有用的 visual tokens。

2者差异:

比 MLP projector 多了一个能力:知道要看图像中的什么内容

2.2.1 Q-former 结构

所以Q-Former 有三个 token:
(1)来自图像的 image token, 比如: 来自图像 encoder,例如 CLIP / ViT
(2)来自文本的 texttoken, 比如:来自真实文本,例如 caption / question / instruction
(3)来自自己的 Query token,来自模型内部的可学习参数
当有 text token 不代表 text token 一定会更新 query token。它是否影响 query,取决于 attention mask。

Qformer 非常复杂:

  1. ITC 流程 (Image-Text Contrastive Learning,图文对比学习) 用的 Mask 机制(解耦掩码 Decoupled Mask):

  2. ITM 流程 (Image-Text Matching,图文匹配) 用的 Mask 机制(双向掩码 Bi-directional Mask):

  3. ITG 流程 (Image-Text Generation,图生文/文本生成) Mask 机制(因果掩码 Causal Mask):

2.3 percevier adapter

就是Qformer 不带文本 纯做视觉.

2.4 Cross-attention adapter

前面我们讲的所有方法(MLP、Q-Former、Perceiver),不管怎样变化最后都是把视觉向量拼在文本大模型的输入端(Prompt 头部)业内叫做In-context Layering。而 Cross-Attention Adapter 不改动大模型的输入(大模型输入端只有纯文本),而是直接在大模型(LLM)内部的每一个 Transformer 层(Layer)里面硬插一个交叉注意力模块

2.5 multi-view / multi-frame fusion

在处理多视角(Multi-view,如机器人的主相机 + 腕部相机)和多帧(Multi-frame,如连续的视频帧)时, 负责多维度融合的 Connector(连接器/适配器) 是必要的.

2.5.1 temporal pixel shuffle + MLP

在 SmolVLM (2025/2026)、Qwen2-VL (Alibaba, 2024) 见到过该结构. 视频T TT帧或多视角V VV叠加时,如果不做下采样,视觉 Token 数量会呈线性爆炸。如果直接用 Pooling,又会严重丢失物体的空间网格和运动细节. 所以有了该结构.

2.5.2 Spatial-Temporal Positional MLP

OpenVLA (Stanford, 2024)、Prismatic VLMs (2024/2025) 及其 3D 具身智能扩展变体常见. 解决了MLP 本身是不具备任何时空位置概念的(它是无序的)。如果多个相机或多帧连续压扁成一条线塞进 LLM,LLM 可能会把“左相机第 1 帧的狗”和“右相机第 3 帧的狗”混淆,无法做空间 3D 建模。

3 优缺点

这里 只讨论: linear/MLP, 他的
优点 1:把 VLM 架构极大简化
在 LLaVA 之前,很多强 VLM 倾向于复杂结构:Q-Former/Perceiver Resampler/Cross-attention blocks/encoder-decoder fusion

而 Linear / MLP projector 路线证明:
强 vision encoder + 简单 projector + 强 LLM, 就可以得到非常强的多模态模型。
这直接降低了 VLM 研究门槛。

优点 2:可以低成本复现和扩展
LLaVA-1.5 证明,MLP connector 加合适数据和训练配方,在单个 8-A100 node 上大约一天就能完成 13B checkpoint 的完整训练,并在 11 个 benchmark 上达到强 baseline。

这很关键,这样可以模块化做控制变量实验:

换 vision encoder
换 LLM
换 projector
换数据
做领域微调
做医学/遥感/文档/机器人扩展

缺点:

  1. 不压缩 token
    image tokens 有多少,通常就传多少给 LLM。
  2. 不主动筛选视觉信息
    它不像 Q-Former / Perceiver 那样有 learnable query 去抽取。
  3. 对高分辨率、多图、视频、多相机场景压力大
    visual tokens 很容易爆。
  4. 空间细节可能不足
    CLIP/SigLIP 更偏语义对齐,未必保留足够几何/局部信息。
  5. 幻觉和 grounding 问题仍然明显
    简单 projector 不保证 LLM 真的精确绑定每个视觉区域。

现在业界(尤其是主流的开源和商用大模型)绝大多数都在用 MLP(多层感知机)或者单纯的线性层(Linear Layer)。其余略,用到再看.

http://www.jsqmd.com/news/1023333/

相关文章:

  • Debian滚动更新实践:Rolling Ridley混合发布架构
  • 榆林黄金回收怎么选靠谱商家 避坑实操干货 - 余生黄金回收
  • 流量监管与流量整形技术详解
  • 硬盘低级格式化工具深度解析:原理、风险与实战指南
  • 伊犁2026年6月黄金回收行情解读 正规商家辨别方法 - 余生黄金回收
  • 2026年6月昭通卖黄金不踩坑 正规回收行情与门店实测指南 - 余生黄金回收
  • 软考全攻略:从科目选择到实战技巧,助你高效备考与职业进阶
  • Gemini 3.5 Flash API 实测指南:绕过UI限制的工程化接入方法
  • 2026年6月六安卖黄金不被坑 正规回收价格与门店实测对比 - 余生黄金回收
  • 2026年北京场地电动车出租公司行业解析:电动老爷车、高尔夫球车、电动巡逻车、电动摆渡车、一站式电动观光车辆租赁、售卖及维保服务参考 - 海棠依旧大
  • 2026武汉市家用空调-中央空调等维修安装移机加氟-本地精选指南 -欧米到家 - 欧米到家
  • 自动驾驶出海新范式:技术引进与本地运营双轨落地
  • 终极XXMI启动器完整指南:一站式管理6大热门游戏模组
  • 2026:郫县(郫都)室内除异味、甲醛治理公司横向测评,为什么本地业主更认可成都肃醛环保科技有限公司 - 专注室内空气检测治理
  • 2026年6月马鞍山机械刀片厂家推荐:锯齿刀片/包装机/印刷机刀片优选指南 - 海棠依旧大
  • 2026年东戴河止锚湾海滨住宿选购指南:近海农家院、自驾亲子度假住宿解析 - 海棠依旧大
  • 2026昆明卖黄金避坑全指南 教你分辨正规回收商家与套路 - 润富黄金回收
  • 在 Claude Code 中接入讯飞 MaaS Qwen3.6 模型
  • 节省token方案
  • 三步搞定Kodi自动字幕:告别观影无字幕困扰
  • 2026年6月邢台卖黄金怎么选正规回收店实操指南 - 余生黄金回收
  • 2026年6月贵州包车游旅行社推荐:十大排名家庭包车防套路评测专业价格 - 品牌推荐
  • Product Group Reference Article 在 SAP Retail 商品主数据中的设计逻辑与落地边界
  • 榆林旧黄金回收避坑指南 看懂行情不被乱扣费 - 余生黄金回收
  • Python中%运算符的真相:模运算不是取余
  • 魔兽争霸3终极修复指南:5分钟解决现代系统兼容性问题
  • 360Controller背后的魔法:如何让Xbox控制器在macOS上获得新生
  • 2026:温江室内除异味、甲醛治理专业度横向测评,多家服务商技术与落地能力比拼,优先选择成都肃醛环保 - 专注室内空气检测治理
  • 如何在3分钟内解决iPhone USB网络共享驱动问题:终极一键安装指南
  • 合肥黄金回收:避开陷阱选对门,安心变现不踩坑 - 余生黄金回收