当前位置：首页 > news >正文

VLM (4):connector

news 2026/6/16 12:41:42

文章目录

前言
1 connector 分类
1.1 功能上只对齐维度
- 1.2 压缩token 数量: token compression(token resampling)
- 1.3 LLM 内部注入
- 1.4 多维度融合
2 connector 和 vlm
- 2.1 linear/MLP
- - 2.1.1 典型文章
  - 2.1.2 典型结构
  - 2.1.3 LLaVA
  - 2.1.4 PaliGemma (pi0 base model 的主要结构)
  - 2.1.5 Prismatic VLMs (openvla base model 的主要结构)
- 2.2 Q-former
- - 2.2.1 Q-former 结构
- 2.3 percevier adapter
- 2.4 Cross-attention adapter
- 2.5 multi-view / multi-frame fusion
- - 2.5.1 temporal pixel shuffle + MLP
  - 2.5.2 Spatial-Temporal Positional MLP
3 优缺点

前言

我们在看大模型时 ,会有很多结构很困扰比如: projector, MLP, connector, Q-former等等. 这里对其进行总结.

1 connector 分类

按照一般论文的常见程度,和论文中描述的重要程度,我们给connector 排个排名:
第一优先级：

MLP Projector:最常见, 最简单,且最有效果
Q-Former: BLIP-2 的核心贡献
Perceiver Resampler: Flamingo 的核心贡献
Cross-Attention Adapter: Flamingo style VLM 的核心结构
Multi-Encoder Fusion：CLIP SigLIP DINO, Prismatic, OpenVLA
multi-view / multi-frame fusion:

第二优先级：

Token Pruning : 推理加速, 部署优化, 代表论文: FastV
Token Merging: ViT 加速常见, 代表论文: oken Merging: Your ViT But Faster
Pooling Resampler: 工程落地使用多一些

第三优先级(用到再查我觉得都来得及)：

TokenLearner
更复杂的动态 token routing / adaptive compression

我当时看论文的时候看到很多模型很核心的是 connector的修改和改进, 有点乱, 现在做如下归纳

1.1 功能上只对齐维度

名称	结构	代表模型
linear projector		CLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states
MLP projector		CLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states

1.2 压缩token 数量: token compression(token resampling)

名称	结构	数据流
Pooling Resampler	average pooling	24 × 24 visual tokens→2 × 2 pooling→12 × 12 visual tokens
Q-Former(会有3种模式,这里简单说下)		query tokens→`Self-Attention`→`Cross-Attention to image features`→`FFN / MLP`→updated query tokens
Perceiver Resampler		visual features X+learnable latents Z→`Cross-Attention`→updated latents→`FFN / MLP`→updated latents

1.3 LLM 内部注入

名称	结构	数据流
`gated`Cross-attention adapter		因为 attention 的 Query 和 Key/Value 来自不同来源。他的流程可以这样:Image / Video→Vision Encoder→Perceiver Resampler/ visual tokenizer→visual tokens→`Cross-attention adapter`→LLM→answer

1.4 多维度融合

名称	结构	数据流
multi-view / multi-frame fusion

2 connector 和 vlm

2.1 linear/MLP

2.1.1 典型文章

(1)LLaVA(2023) 首创:
把 CLIP visual tokens 通过 projector 接入 Vicuna，开创开源 visual instruction tuning 路线.

(2)LLaVA-1.5(2023/2024) :
证明 MLP connector + 更好视觉 encoder + 数据配方就能非常强

(3)PaliGemma(2024)
SigLIP + Gemma + linear adapter，形成轻量开放 VLM transfer 路线

(4)Prismatic VLMs / OpenVLA(2024)
把这种简洁 connector 思路进一步系统化，并影响 VLA

2.1.2 典型结构

linear 就是 nn.linear, MLP 到处都是, 结构如下,就不赘述

projector=nn.Sequential(nn.Linear(vision_dim,llm_hidden_dim),nn.GELU(),nn.Linear(llm_hidden_dim,llm_hidden_dim),)

2.1.3 LLaVA

LLaVA 有一个重要的贡献:MLP Projector 被证明“简单但非常强”
这篇的业内贡献非常大，因为它改变了很多人的判断。在 BLIP-2 / Flamingo 之后，很多人会觉得 connector 必须复杂，比如：Q-Former, Perceiver Resampler, Cross-Attention Adapter

论文摘要明确说 LLaVA-1.5 通过简单修改 LLaVA(projector 从 linear 改为 MLP)：使用 CLIP-ViT-L-336px with an MLP projection，再加入 academic-task-oriented VQA data 和简单 response formatting prompts，就能在 11 个 benchmarks 上建立更强 baseline；最终 13B checkpoint 只用 1.2M publicly available data，在单个 8-A100 node 上约 1 天完成训练。

所以可以见到 MLP 有这样的优点:

比 Linear 更强
比 Q-Former / Perceiver 更简单
训练和复现成本低
工程稳定

2.1.4 PaliGemma (pi0 base model 的主要结构)

PaliGemma 的贡献点在于:用 SigLIP-So400m vision encoder 和 Gemma-2B language model 的 open VLM , 轻量级(3B) 也可以作为强 transfer base model。继续验证了 simple projection / adapter 结构在开放 VLM 中的有效性。

2.1.5 Prismatic VLMs (openvla base model 的主要结构)

在完全相同的训练数据和参数规模下，Prism 模型的性能严格超越了当时大火的 LLaVA v1.5 和 InstructBLIP，成为了当时开源 VLM 的新标杆（State-of-the-art）。虽然这篇论文没有直接说名MLP project 怎么设计, 但这篇论文额提出了project 如何参与训练,并且做了详细的实验.
经验一:
LLaVA的做法是2stage:

Stage 1: freeze vision encoder + freeze LLM，只训练 projector
Stage 2: freeze vision encoder，训练 projector + LLM
其实直接训练 projector + LLM 就够了。

经验二:
不要轻易 finetune vision backbone

Vision Encoder: freeze
Projector: train
LLM: train / finetune

经验三:dinov2 + SigLIP 是非常强的组合
在prismatic 论文中作者没有画出如何连接的结构图,但是我读完openvla 后发现 openvla 并没有结构创新,只是打通了vision + language + action 的通路, 且 openvla是完全继承 prismatic 的工作,因此可以借鉴

从 LLaVA 之后, MLP作为connector 已经最常用最方便且性能可以的connector, 下面就属于知晓性的结构, 也许某一天能解决我们遇到的问题

2.2 Q-former

Q-Former 是 BLIP-2 提出的一个轻量 Querying Transformer，用少量 learnable query tokens 从frozen image encoder 的大量视觉特征中抽取与文本最相关的信息，再接给frozen LLM。

LLaVA-style projector 的思路是:

直接把所有 image tokens 投影到 LLM hidden space

Q-Former 的思路是：

不要直接把所有 image tokens 都给 LLM。
先用一组 learnable queries 去图像特征里“问问题”，
抽出少量更有用的 visual tokens。

2者差异:

比 MLP projector 多了一个能力：知道要看图像中的什么内容

2.2.1 Q-former 结构

所以Q-Former 有三个 token:
(1)来自图像的 image token, 比如: 来自图像 encoder，例如 CLIP / ViT
(2)来自文本的 texttoken, 比如:来自真实文本，例如 caption / question / instruction
(3)来自自己的 Query token,来自模型内部的可学习参数
当有 text token 不代表 text token 一定会更新 query token。它是否影响 query，取决于 attention mask。

Qformer 非常复杂:

ITC 流程 (Image-Text Contrastive Learning，图文对比学习) 用的 Mask 机制（解耦掩码 Decoupled Mask）：
ITM 流程 (Image-Text Matching，图文匹配) 用的 Mask 机制（双向掩码 Bi-directional Mask）：
ITG 流程 (Image-Text Generation，图生文/文本生成) Mask 机制（因果掩码 Causal Mask）：

2.3 percevier adapter

就是Qformer 不带文本纯做视觉.

2.4 Cross-attention adapter

前面我们讲的所有方法（MLP、Q-Former、Perceiver），不管怎样变化最后都是把视觉向量拼在文本大模型的输入端（Prompt 头部）业内叫做In-context Layering。而 Cross-Attention Adapter 不改动大模型的输入（大模型输入端只有纯文本），而是直接在大模型（LLM）内部的每一个 Transformer 层（Layer）里面硬插一个交叉注意力模块。

2.5 multi-view / multi-frame fusion

在处理多视角（Multi-view，如机器人的主相机 + 腕部相机）和多帧（Multi-frame，如连续的视频帧）时, 负责多维度融合的 Connector（连接器/适配器）是必要的.

2.5.1 temporal pixel shuffle + MLP

在 SmolVLM (2025/2026)、Qwen2-VL (Alibaba, 2024) 见到过该结构. 视频T TT帧或多视角V VV叠加时，如果不做下采样，视觉 Token 数量会呈线性爆炸。如果直接用 Pooling，又会严重丢失物体的空间网格和运动细节. 所以有了该结构.

2.5.2 Spatial-Temporal Positional MLP

OpenVLA (Stanford, 2024)、Prismatic VLMs (2024/2025) 及其 3D 具身智能扩展变体常见. 解决了MLP 本身是不具备任何时空位置概念的（它是无序的）。如果多个相机或多帧连续压扁成一条线塞进 LLM，LLM 可能会把“左相机第 1 帧的狗”和“右相机第 3 帧的狗”混淆，无法做空间 3D 建模。

3 优缺点

这里只讨论: linear/MLP, 他的
优点 1：把 VLM 架构极大简化
在 LLaVA 之前，很多强 VLM 倾向于复杂结构：Q-Former/Perceiver Resampler/Cross-attention blocks/encoder-decoder fusion

而 Linear / MLP projector 路线证明：
强 vision encoder + 简单 projector + 强 LLM, 就可以得到非常强的多模态模型。
这直接降低了 VLM 研究门槛。

优点 2：可以低成本复现和扩展
LLaVA-1.5 证明，MLP connector 加合适数据和训练配方，在单个 8-A100 node 上大约一天就能完成 13B checkpoint 的完整训练，并在 11 个 benchmark 上达到强 baseline。

这很关键，这样可以模块化做控制变量实验:

换 vision encoder
换 LLM
换 projector
换数据
做领域微调
做医学/遥感/文档/机器人扩展

缺点:

不压缩 token
image tokens 有多少，通常就传多少给 LLM。
不主动筛选视觉信息
它不像 Q-Former / Perceiver 那样有 learnable query 去抽取。
对高分辨率、多图、视频、多相机场景压力大
visual tokens 很容易爆。
空间细节可能不足
CLIP/SigLIP 更偏语义对齐，未必保留足够几何/局部信息。
幻觉和 grounding 问题仍然明显
简单 projector 不保证 LLM 真的精确绑定每个视觉区域。

现在业界（尤其是主流的开源和商用大模型）绝大多数都在用 MLP（多层感知机）或者单纯的线性层（Linear Layer）。其余略,用到再看.

查看全文

http://www.jsqmd.com/news/1023333/