当前位置：首页 > news >正文

优化sVLM 的计算效率：轻量级注意力机制

news 2026/7/5 9:44:00

在 sVLM 中，轻量级注意力机制的核心目标不是简单把模型做小，而是减少多模态推理中最贵的部分：

1. 视觉 token 太多 2. 图像 token 进入 LLM 后参与自注意力 3. 自注意力复杂度随序列长度近似 O(N²) 4. 小模型虽然参数少，但视觉 token 会显著拉高 latency / 显存 / KV cache

标准 Transformer self-attention 在长序列下具有二次复杂度，FlashAttention 这类方法通过 IO-aware tiling 减少 GPU HBM 与 SRAM 之间的数据搬运，从而提高注意力计算效率，但它本质上仍是在优化已有注意力计算，而不是减少 token 数量。([arXiv][1])

1. sVLM 中注意力计算瓶颈在哪里？

典型 sVLM 结构：

Image │ ▼ Vision Encoder │ ▼ Projector / Connector / Pre-Fusion Adapter │ ▼ Small LLM │ ▼ Answer

真正的计算压力通常来自两部分：

视觉编码器内部 attention + 视觉 token 进入 LLM 后的 decoder self-attention

例如 LLaVA / MiniGPT-4 / MobileVLM 类模型会把图像转换为一组视觉 token，再经过 projector 输入 LLM。PruMerge 这类工作指出，Transformer 架构导致计算成本随输入 token 增长而显著增加，而视觉 token 中存在大量空间冗余，因此可以通过 token reduction 降低大多模态模型的计算和显存成本。([arXiv][2])

2. 轻量级注意力机制在 sVLM 中的主要类型

2.1 Visual Token Pruning：视觉 token 剪枝

这是当前 sVLM / LVLM 加速中最直接、最有效的一类方法。

核心思想：

不是让所有视觉 token 都进入 LLM， 而是根据重要性只保留关键 token。

流程：

Image → Vision Encoder → Visual Tokens │ ▼ Importance Scoring │ ▼ Keep Top-K Tokens │ ▼ Projector → LLM

常见重要性评分方式：

1. CLS token 对 patch token 的 attention 2. 文本 prompt 对视觉 token 的 cross-attention 3. 视觉 token 与邻近 token 的相似度 4. token saliency / gradient / activation 5. 任务相关区域，例如 ROI、OCR、bbox、mask

ATP-LLaVA 是一个典型例子，它从 token 冗余和空间建模角度做 adaptive token pruning，报告平均 token 数减少 75%，在 7 个 benchmark 上仅有约 1.9% 性能下降。([CVF Open Access][3])

适合 sVLM 的原因：

小 LLM 上下文短 视觉 token 会挤占 prompt 和回答上下文 端侧显存有限 decoder self-attention 对 token 数敏感

2.2 Visual Token Merging：视觉 token 合并

剪枝是“删除 token”，合并是“把相似 token 聚合”。

token_i + token_j + token_k → merged_token

例如货架图像里，同一排背景、相邻空白区域、重复包装区域会产生很多相似视觉 token。与其全部保留，不如合并成少量代表 token。

PruMerge 就属于 adaptive prune + merge 思路：先识别重要 token，再对冗余 token 做合并，从而减少视觉 token 数量，同时尽量保持模型性能。([arXiv][4])

对自动售货柜场景很有价值：

背景 token → 合并 货架边缘 token → 保留少量结构 token 商品主体 token → 保留 OCR 区域 token → 强制保留 遮挡区域 token → 保留

2.3 Query-Based Attention：固定查询压缩

这类方法不让 LLM 直接吃全部视觉 patch，而是用少量 learnable query 从视觉特征中抽取信息。

结构：

Visual Tokens: N 个 Learnable Query: K 个，K << N Query attends to Visual Tokens │ ▼ K 个压缩后的视觉 token │ ▼ Small LLM

伪代码：

classQueryCompressor(nn.Module):def__init__(self,dim,num_queries=32,num_heads=4):super().__init__()self.queries=nn.Parameter(torch.randn(1,num_queries,dim))self.attn=nn.MultiheadAttention(dim,num_heads,batch_first=True)self.norm=nn.LayerNorm(dim)defforward(self,visual_tokens):b=visual_tokens.size(0)q=self.queries.expand(b,-1,-1)out,_=self.attn(q,visual_tokens,visual_tokens)returnself.norm(q+out)

优点：

视觉 token 数固定 LLM 输入长度可控 适合端侧部署 适合 image caption / VQA / SKU确认

缺点：

如果 query 数太少，小目标和 OCR 容易丢 需要训练 projector / query adapter

2.4 Prompt-Aware Attention：问题感知视觉筛选

这类机制特别适合 sVLM，因为小模型不能盲目看整张图。

例如问题是：

“第二层左侧有几瓶可乐？”

就不应该平均关注整张图，而应该重点关注：

第二层 左侧区域 瓶装商品 红色包装 OCR: Coca Cola / 可口可乐

结构：

Prompt Tokens │ ▼ Text Query │ ▼ Cross-Attention over Visual Tokens │ ▼ Task-Relevant Visual Tokens │ ▼ Small LLM

公式：

A = softmax(Q_text · K_visual^T / sqrt(d)) V_selected = TopK(A · V_visual)

这种方式本质上是：

用文本问题指导视觉 token 选择。

相比普通 token pruning，它更适合 VQA、OCR 问答、区域计数、货柜验货等任务。

2.5 Local / Window Attention：局部窗口注意力

对于视觉编码器，可以不做全局 attention，而是在局部窗口内计算 attention：

全局注意力: N 个 token 两两交互 → O(N²) 窗口注意力: 每个窗口内交互 → O(W² × num_windows)

适合：

商品局部纹理 包装边缘 小目标 局部 OCR 区域 货架层级局部结构

缺点是全局关系较弱，所以通常需要配合：

少量 global token 跨窗口 pooling 层级结构 token ROI token

对自动售货柜而言，可以这样设计：

局部窗口 attention 负责商品细节 global shelf token 负责货架结构 ROI token 负责目标区域语义

2.6 Linear Attention / Additive Attention

标准 attention 复杂度近似：

O(N²D)

线性注意力希望变成：

O(ND²) 或 O(ND)

在移动视觉 Transformer 中，Mobile-Attention 明确面向移动端线性复杂度注意力设计，并强调通过小 per-head dimension 改善移动端效率；SwiftFormer 的 additive attention 则尝试避免昂贵的矩阵乘法注意力，用更轻量的方式建模全局上下文。([Proceedings of Machine Learning Research][5])

对 sVLM 的使用位置主要在：

1. 轻量视觉 encoder 2. pre-fusion adapter 3. ROI token mixer 4. 小型 query compressor

不建议一开始直接改 LLM 主干 attention，因为会影响已有权重兼容性和部署生态。

3. sVLM 中最推荐的轻量注意力组合

对小模型来说，最佳路线通常不是单独使用某一种 attention，而是组合：

视觉侧 token reduction + 轻量 pre-fusion attention + LLM 侧高效 attention kernel / KV cache

推荐结构：

Image │ ▼ Light Vision Encoder │ ▼ Visual Token Pruning / Merging │ ▼ Prompt-Aware Cross Attention │ ▼ Query Compressor / ROI Compressor │ ▼ Projector │ ▼ Small LLM + KV Cache + FlashAttention

MobileVLM 这类端侧 VLM 使用 1.4B / 2.7B 级语言模型、CLIP 风格视觉模型和 efficient projector，说明 sVLM 的效率优化并不只靠缩小 LLM，也依赖视觉编码器、跨模态连接器和训练策略的协同设计。([GitHub][6])

4. 几种机制的对比

机制	主要作用	计算收益	风险	适合 sVLM 程度
Token Pruning	删除不重要视觉 token	高	小目标/OCR 可能丢失	很高
Token Merging	合并相似视觉 token	高	细粒度差异可能被抹平	很高
Query Compressor	固定数量 query 抽取图像信息	高	query 太少会漏细节	很高
Prompt-Aware Attention	根据问题选择视觉区域	中高	依赖 prompt 质量	很高
Window Attention	降低视觉 encoder 计算量	中高	全局关系弱	高
Linear Attention	降低 attention 复杂度	中高	精度和兼容性需验证	中高
FlashAttention	优化 attention kernel	中高	需要硬件/框架支持	高
GQA / MQA	降低 KV cache 成本	中	需要 LLM 架构支持	高

8. 工程落地优先级

对 Jetson / RK3588 / Qualcomm / MNN / QNN 这类边缘部署，建议优先级如下：

第一优先级: 视觉 token pruning / merging 第二优先级: ROI-aware token selection 第三优先级: prompt-aware cross attention 第四优先级: query compressor，把视觉 token 固定压缩到 32 / 64 / 96 第五优先级: FlashAttention / xFormers / TensorRT attention plugin 第六优先级: 改 LLM 主干为 GQA / MQA / linear attention

原因是：

改 token 数量 → 收益最大，模型兼容性最好 改 projector / adapter → 风险中等，适合训练 改 LLM attention 主干 → 风险最大，部署成本最高

9. 最推荐的 sVLM 轻量注意力架构

┌─────────────────────┐ │ Image │ └──────────┬──────────┘ ▼ ┌─────────────────────┐ │ Light Vision Encoder │ └──────────┬──────────┘ ▼ ┌─────────────────────┐ │ Visual Tokens │ └──────────┬──────────┘ ▼ ┌────────────────────────────────────┐ │ ROI-aware Token Pruning / Merging │ │ - bbox token keep │ │ - mask token keep │ │ - OCR token keep │ │ - background token prune │ └──────────┬─────────────────────────┘ ▼ ┌────────────────────────────────────┐ │ Prompt-aware Lightweight Attention │ │ Text query attends to visual tokens │ └──────────┬─────────────────────────┘ ▼ ┌────────────────────────────────────┐ │ Query Compressor / Projector │ │ N visual tokens → K fused tokens │ └──────────┬─────────────────────────┘ ▼ ┌────────────────────────────────────┐ │ Small LLM + KV Cache │ └──────────┬─────────────────────────┘ ▼ Structured Answer

10. 小结

sVLM 的轻量级注意力机制可以总结为一句话：

不要让小 LLM 处理所有视觉 token，而是在进入 LLM 前，用轻量 attention、token pruning、token merging、query compression 和 ROI-aware selection，把视觉信息压缩成少量高价值 token。

参考链接:
[1]: https://arxiv.org/abs/2205.14135?utm_source=chatgpt.com “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”
[2]: https://arxiv.org/abs/2403.15388?utm_source=chatgpt.com “[2403.15388] LLaVA-PruMerge: Adaptive Token Reduction …”
[3]: https://openaccess.thecvf.com/content/CVPR2025/papers/Ye_ATP-LLaVA_Adaptive_Token_Pruning_for_Large_Vision_Language_Models_CVPR_2025_paper.pdf?utm_source=chatgpt.com “ATP-LLaVA: Adaptive Token Pruning for Large Vision …”
[4]: https://arxiv.org/html/2403.15388v6?utm_source=chatgpt.com “LLaVA-PruMerge: Adaptive Token Reduction for Efficient …”
[5]: https://proceedings.mlr.press/v235/yao24c.html?utm_source=chatgpt.com “Mobile-Friendly Linear-Attention for Vision Transformers”
[6]: https://github.com/Meituan-AutoML/MobileVLM?utm_source=chatgpt.com “MobileVLM: Vision Language Model for Mobile Devices”
[7]: https://openaccess.thecvf.com/content/CVPR2025/papers/Yang_TopV_Compatible_Token_Pruning_with_Inference_Time_Optimization_for_Fast_CVPR_2025_paper.pdf?utm_source=chatgpt.com “Compatible Token Pruning with Inference Time Optimization …”

查看全文

http://www.jsqmd.com/news/823542/