当前位置: 首页 > news >正文

Focus-Scan-Refine From Human Visual Perception to Efficient Visual Token Pruning

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Authors:Enwei Tong, Yuanchao Bai, Yao Zhu, Junjun Jiang, Xianming Liu

Deep-Dive Summary:

Focus-Scan-Refine: 从人类视觉感知到高效视觉 Token 剪枝

摘要

视觉语言模型(VLMs)通常会产生海量的视觉 Token,这显著增加了推理延迟和显存占用。虽然无需训练的 Token 剪枝提供了一种实际的解决途径,但现有的方法在极端压缩条件下仍难以平衡局部证据(local evidence)和全局上下文(global context)。本文提出了Focus-Scan-Refine (FSR)框架,这是一个受人类启发、即插即用的剪枝框架,它模拟了人类回答视觉问题的过程:首先**聚焦(Focus)关键证据,然后在需要时扫描(Scan)全局,最后通过聚合相关细节来精炼(Refine)**扫描得到的上下文。

FSR 首先结合视觉显著性和指令相关性来聚焦关键证据,避免了对视觉显著但与查询无关区域的偏见;接着,它根据已聚焦的集合扫描补充上下文,选择与聚焦证据差异最大的 Token;最后,FSR 在不增加 Token 预算的情况下,通过基于相似性的分配和分数加权合并,将附近的注入 Token 聚合到扫描锚点中。实验表明,FSR 在多个 VLM 基准测试中均显著优于现有的 SOTA 剪枝方法。

2. 相关工作

  • 基于注意力的剪枝:如 FastV、LLaVA-PruMerge 和 SparseVLM。这些方法利用跨注意力或 [CLS] 注意力来评估 Token 重要性,但容易偏向显著区域,忽略细微的全局信息。
  • 基于相似性的剪枝:如 DivPrune 和 DART。这些方法通过特征空间中的多样性选择来减少冗余,侧重于全局覆盖,但往往忽略了精确推理所需的细粒度局部细节。
  • 联合注意力-相似性剪枝:如 VisionZip 和 CDPruner。虽然它们尝试权衡两者,但在 Token 预算极度有限时,仍难以同时保留最关键的局部证据和必要的全局上下文。

4. 实验

4.1 实验设置

  • 模型:LLaVA 系列 (1.5, NeXT, Video) 以及 Qwen2.5-VL。
  • 基准:包括 VQAv2、GQA、ScienceQA、POPE、MME、MMBench 等图像任务,以及 MLVU、MVBench 等视频任务。
  • 默认参数α = 3 , β = 1 , ρ = 0.9 , κ = 1 \alpha = 3, \beta = 1, \rho = 0.9, \kappa = 1α=3,β=1,ρ=0.9,κ=1

4.2 主要结果

如下表所示,在 LLaVA-1.5-7B 上,当保留 64 个 Token(压缩掉 88.9%)时,FSR 在 MM-Vet 上的表现优于所有竞争方法,且在各基准测试中保持了最高且最稳定的平均性能。

表 1:LLaVA-1.5-7B 上不同剪枝方法的性能对比。

方法VQA V2GQAPOPEMMEAvg.
LLaVA-1.5-7B (100% tokens)78.561.985.91862100%
保留 192 Tokens
CDPruner (NIPS25)77.260.387.3178498.5%
FSR (Ours)77.460.287.1180399.1%
保留 64 Tokens
CDPruner (NIPS25)75.458.687.5171095.7%
FSR (Ours)75.458.285.7170196.1%
以下是该论文部分的中文摘要,保留了原始的 Markdown 表格格式,并确保所有数学表达式符合格式要求。

4.2.1 标准基准测试中的 FSR

我们首先在 LLaVA-1.5-7B 上评估了 FSR。表 1 展示了在三种标记预算(保留 192、128 和 64 个视觉标记,分别对应66.7 % 66.7\%66.7%77.8 % 77.8\%77.8%88.9 % 88.9\%88.9%的减少率)下不同修剪方法的性能。当保留 192 个标记时,FSR 实现了99.1 % 99.1\%99.1%的最高平均分,优于 CDPruner (98.5 % 98.5\%98.5%) 和 VisPruner (98.2 % 98.2\%98.2%)。

Table 2 Performance comparison of different pruning methods on LLaVA-NeXT-7B. Avg. represents the average relative performance maintained across all tested benchmarks compared to the unpruned baseline. The best results are highlighted in bold.

MethodVQA V2GQASQA IMG Upper Bound, AllVQA TextPOPEMMEMMBENMMBCNMMVetAvg.
LLaVA-NeXT-7B81.362.567.660.386.8188365.957.439.2100.0%
Retain 960 Tokens (↓ 66.7%)
HoloV (NIPS2025)78.961.366.257.486.9171350.942.334.491.7%
VisPruner (ICCV2025)80.062.168.260.287.1180765.858.238.599.2%
CDPruner (NIPS2025)80.562.768.559.187.1179966.957.639.099.4%
FSR80.562.668.560.387.1180666.958.341.1100.0%
Retain 640 Tokens (↓ 77.8%)
FastV (ECCV24)77.058.967.458.179.5166763.153.539.594.4%
DivPruner (CVPR25)79.361.967.857.086.9173465.857.338.097.7%
HoloV (NIPS2025)79.361.263.857.686.2176864.356.738.997.0%
VisPruner (ICCV2025)78.861.168.360.085.9182864.957.338.598.5%
CDPruner (NIPS2025)79.862.668.058.587.3180066.257.641.099.3%
FSR79.762.367.960.087.0183366.357.941.999.9%
Retain 320 Tokens (↓ 88.9%)
FastV (ECCV24)61.549.866.652.249.5130253.442.520.074.9%
DivPruner (CVPR25)77.261.167.756.284.7168763.955.734.895.2%
HoloV (NIPS2025)77.259.866.257.083.4175365.557.036.596.0%
VisPruner (ICCV2025)75.958.768.659.081.4175363.855.836.395.4%
CDPruner (NIPS2025)78.461.467.757.487.3177365.455.636.797.3%
FSR77.960.968.158.186.1178364.956.139.397.6%

在保留 64 个标记(减少88.9 % 88.9\%88.9%)的极端设置下,FSR 表现出卓越的稳定性,保留了96.1 % 96.1\%96.1%的原始性能,在 MMVet 和 MMBench-EN 等复杂推理任务中持续领先。这表明 FSR 有效平衡了显著的局部细节与背景上下文,保持了语义的完整性。

4.2.2 高分辨率输入的 FSR

我们将 FSR 应用于 LLaVA-NeXT-7B,并固定输入分辨率为672 × 672 672 \times 672672×672(共 2,880 个视觉标记)。如表 2 所示,在保留 960 个标记(减少66.7 % 66.7\%66.7%)时,FSR 达到了与全标记上限相当的性能。即使在最激进的保留 320 个标记(减少88.9 % 88.9\%88.9%)的情况下,FSR 仍以97.6 % 97.6\%97.6%的性能保持率领先。这证明 FSR 能够有效利用高分辨率图像提供的细粒度特征,在受限的标记预算下保持高精度。

4.2.3 先进架构的 FSR

我们在 Qwen2.5-VL-7B 上对 FSR 进行了评估,该模型本身支持动态分辨率和标记合并。尽管基准更强,FSR 仍实现了最佳的精度-效率权衡。在标记减少80 % 80\%80%90 % 90\%90%的情况下,FSR 分别保留了91.9 % 91.9\%91.9%84.0 % 84.0\%84.0%的原始性能,显著优于 HoloV 和 FastV。在 MMVet 和 MME 等需要综合多模态推理的基准测试上,FSR 的优势尤为明显。

4.2.4 视频理解的 FSR

在 LLaVA-Video-7B-Qwen2 上的测试显示,FSR 在50 % 50\%50%80 % 80\%80%的修剪比例下均优于 HoloV。特别是在60 % 60\%60%的修剪率下,FSR 保留了99.6 % 99.6\%99.6%的原始性能。这表明 FSR 将平衡局部证据与全局上下文的策略成功扩展到了时间维度,能够稳健地保留关键的时空线索。

4.2.5 大规模模型的 FSR

在 LLaVA-1.5-13B 和 LLaVA-NeXT-13B 上的结果如表 5 和表 6 所示。在 LLaVA-NeXT-13B 中,当保留 640 个标记(减少77.8 % 77.8\%77.8%)时,FSR 的平均得分达到101.7 % 101.7\%101.7%,甚至略高于未修剪的基准。这表明 FSR 通过过滤冗余标记减少了噪声,从而实现了更准确的推理。

Table 3 Performance comparison of different pruning methods on Qwen2.5-VL-7B. Avg. represents the average relative performance maintained across all tested benchmarks compared to the unpruned baseline. The best results are highlighted in bold.

MethodGQASQAIMGVQATextPOPEMMEMMBENMMBCNMMVetAvg.
Qwen2.5-VL-7B60.888.977.686.5232883.581.464.4100.0%
Reduction Ratio: ↓ 80%
FastV (ECCV24)56.883.170.781.0210276.875.457.492.0%
HoloV (NIPS2025)59.587.873.885.1217981.178.955.595.6%
FSR60.287.976.086.1225881.579.161.797.9%
Reduction Ratio: ↓ 60%
FastV (ECCV24)56.383.168.880.2206375.773.551.489.8%
HoloV (NIPS2025)59.087.271.984.4217779.777.852.194.2%
FSR59.987.575.185.2222780.378.557.596.4%
Reduction Ratio: ↓ 80%
FastV (ECCV24)54.282.261.077.5191572.570.044.784.6%
HoloV (NIPS2025)57.186.064.581.3200876.373.445.388.6%
FSR58.386.770.383.2208978.774.949.891.9%
Reduction Ratio: ↓ 90%
FastV (ECCV24)50.880.053.072.21794.768.265.137.178.3%
HoloV (NIPS2025)53.684.455.776.4183172.368.938.982.1%
FSR54.184.561.077.3190771.768.341.484.0%

Table 4 Performance comparison of different pruning methods on LLaVA-Video-7B-qwen2 with 32 frames per video. Avg. represents the average percentage of performance maintained. “w/o” and “w/” indicate without and with subtitles.

Method MetricMMVU valMMWorld testMLVU testMVBench testall+w/oall+w/longAvg.
Upper Bound: All Tokens (100%)
LLaVA-Video-7B-qwen244.030.050.160.862.662.451.8100%
Reduction Ratio: ↓ 50%
HoloV (NIPS2025)44.231.549.159.461.761.651.399.2%
FSR46.031.150.259.761.962.051.6100.3%
Reduction Ratio: ↓ 60%
HoloV (NIPS2025)43.430.849.159.361.461.051.398.5%
FSR44.631.150.059.461.661.552.299.6%
Reduction Ratio: ↓ 70%
HoloV (NIPS2025)43.731.048.559.060.661.251.298.2%
FSR44.631.647.659.261.361.552.098.9%
Reduction Ratio: ↓ 80%
HoloV (NIPS2025)44.032.946.558.360.460.851.698.0%
FSR43.433.346.558.560.260.952.398.2%

4.3 效率分析

在单张 NVIDIA RTX 3090 GPU 上,当仅保留 64 个标记时,FSR 显著节省了资源:FLOPs 减少了约75 % 75\%75%,KV 缓存内存压缩了近9 × 9 \times9×,预填充阶段实现了3.9 × 3.9 \times3.9×的提速。FSR 在所有对比方法中实现了最佳的精度-效率权衡,具有最低的解码延迟(22.317 ms),且引入的系统开销微乎其微。

Original Abstract:Vision-language models (VLMs) often generate massive visual tokens that greatly increase inference latency and memory footprint; while training-free token pruning offers a practical remedy, existing methods still struggle to balance local evidence and global context under aggressive compression. We propose Focus-Scan-Refine (FSR), a human-inspired, plug-and-play pruning framework that mimics how humans answer visual questions: focus on key evidence, then scan globally if needed, and refine the scanned context by aggregating relevant details. FSR first focuses on key evidence by combining visual importance with instruction relevance, avoiding the bias toward visually salient but query-irrelevant regions. It then scans for complementary context conditioned on the focused set, selecting tokens that are most different from the focused evidence. Finally, FSR refines the scanned context by aggregating nearby informative tokens into the scan anchors via similarity-based assignment and score-weighted merging, without increasing the token budget. Extensive experiments across multiple VLM backbones and vision-language benchmarks show that FSR consistently improves the accuracy-efficiency trade-off over existing state-of-the-art pruning methods. The source codes can be found at https://github.com/ILOT-code/FSR

PDF Link:2602.05809v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/350879/

相关文章:

  • XMedia Recode v3.6.2.5:免费全能视频格式转换器
  • 71、IMX6ULL驱动进阶:ioctl命令机制与platform总线
  • 2026考生必看!10大中医执医名师实战解析,跟对老师省一半时间! - 医考机构品牌测评专家
  • 留学生补习机构选购指南:根据不同学习目标选择高性价比的课程和服务 - 品牌测评鉴赏家
  • 重启解决手机信号差?别只知其一不知其二,这些细节决定成败
  • 虚拟本体:基于语义层的自然语言SQL生成系统技术深度解析 - 教程
  • Digital Folding
  • 2026口碑横评|防脱去头屑最佳的洗发水TOP6,告别头屑掉发双重内耗 - 资讯焦点
  • 开始开发网络版的APP
  • 网络版app不用担心非单机问题----错误
  • day05
  • 软考高项哪家好?通过率与性价比双顶级的十大权威机构及老师榜单 - 资讯焦点
  • 2026医美术后色素沉着修护精华品牌榜:医美专家实测6款防反黑效果好产品推荐 - 资讯焦点
  • 四大平台国际机票改签服务体验横向测评:消费者该如何选择? - 资讯焦点
  • AI关键词搜索排名优化推广服务专业测评|自研算力+万词霸屏,重构企业Ai优化|Geo优化新趋势 - 资讯焦点
  • 详细说明依赖项和配置
  • Bamtone ICT系列:PCB离子污染检测设备优选
  • 2026年好喝不上头白酒选哪款?8款纯粮发酵白酒专业实测:落口爽净不口干 - 资讯焦点
  • BYOVD漏洞研究:CVE-2026-0828内核驱动漏洞分析与安全研究
  • 研发协同平台:从孤岛到中枢的数字化跃迁
  • 第九篇:特别篇 - 给医院CIO的技术采购指南
  • Java equals与hashCode:从手动重写到Lombok自动化的完整指南
  • 中国大陆主流AIGC视频生成模型技术调研表(2026最新)
  • 19v,3.42A的笔记本电脑可以用pd诱骗器接充电宝充电吗?
  • 什么是PD快充诱骗芯片?以及它是如何从充电器取电5V9V12V15V20V
  • 埃里克森国际MCC大师课:《高管教练》开启深度对话与可持续影响力之旅 - 资讯焦点
  • Marek and Matching (hard version) 题解
  • AI Agent革命:从“嘴炮王“到“行动派“的效率跨越
  • 高温验质,精准赋能——陶瓷材料高温电阻率测试的隐形力量
  • “上网课时微信弹出‘老婆’的消息,全班都看见了...” 录屏不设防,社死在现场!