当前位置: 首页 > news >正文

字节:早阶段视觉令牌剪枝EvoPrune

📖标题:EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs
🌐来源:arXiv, 2603.03681v1

🌟摘要

多模态大语言模型(MLLM)在视觉-语言任务中表现出了强大的性能,但其推理效率受到高分辨率图像和视频等复杂场景中视觉标记指数级增长的严重限制。现有的视觉标记剪枝方法主要在视觉编码之后运行,忽略了编码阶段产生的大量计算成本。为了解决这个问题,我们提出了EvoPrune,这是一种针对MLLM的早期视觉标记剪枝方法,在视觉编码期间直接执行剪枝。具体来说,EvoPrune采用了由标记相似性、多样性和基于注意力的重要性指导的分层剪枝策略,以在选定的编码层保留最具信息性的视觉标记。图像和视频基准测试的广泛实验验证了EvoPrune的有效性。特别是,在VideoMME数据集上,EvoPrune实现了2倍的推理加速,性能下降不到1%,展示了其对延迟敏感的MLLM部署的潜力。

🛎️文章简介

🔸研究问题:如何在多模态大语言模型(MLLMs)中高效减少高分辨率图像和视频带来的视觉令牌爆炸问题,同时避免现有方法仅在视觉编码后剪枝导致的编码阶段计算瓶颈?
🔸主要贡献:论文提出EvoPrune,首个在视觉编码器内部、前向传播过程中即进行分层引导式视觉令牌剪枝的方法,实现端到端推理加速与信息保留的统一。

📝重点思路

🔸设计早阶段剪枝范式,将令牌合并操作嵌入视觉编码器的多个Transformer层中,而非仅在编码完成之后。
🔸采用层-wise剪枝预算分配策略,支持灵活配置各层剪枝数量(如Skip、First、Last等模式),并实证选择交替层(Skip)为最优方案。
🔸提出三因素融合的打分机制:基于余弦相似度的语义吸引项、基于局部密度估计的多样性惩罚项、以及基于多头注意力权重平均的重要性保留项。
🔸引入临界令牌比(CTR)动态保护高重要性令牌,通过设置负无穷权重禁止其参与合并,确保关键视觉-语义信息不被破坏。
🔸采用二部图软匹配策略,在token分组间定向筛选合并对,兼顾结构一致性与计算可控性。

🔎分析总结

🔸在VideoMME上实现2×端到端加速且性能下降<1%,显著优于所有基线方法,验证早阶段剪枝对视频理解任务的强适配性。
🔸消融实验表明,同时移除注意力保留与多样性惩罚会导致平均准确率下降1.8个百分点,证明二者互补且不可或缺。
🔸相比基线方法(如FasterVLM、VisPruner),EvoPrune在视觉编码阶段即获得1.8×加速,中间模块5×加速,LLM阶段约2×加速,全面缓解全链路瓶颈。
🔸在极端压缩下(90.5%令牌削减),仍保持95.8%相对准确率,说明其在高压缩率下具备鲁棒的信息保留能力。
🔸Skip策略在精度-延迟权衡中表现最优,既避免早期过度剪枝导致特征坍塌,又防止晚期集中剪枝带来计算冗余。

💡个人观点

论文将剪枝视为编码过程的一部分,从根源上削减计算负载;其多准则打分机制兼具可解释性与有效性,无需微调、即插即用,为MLLM边缘部署提供了切实可行的技术路径。

🧩附录


http://www.jsqmd.com/news/476628/

相关文章:

  • 2026这些中式服装加盟品牌排前列,值得关注,知名的中式服装加盟推荐排行优质企业盘点及核心优势详细解读 - 品牌推荐师
  • LabVIEW程序打包实战:从EXE生成到安装包部署的完整指南
  • 【解刊】中科院2区计算机期刊新动态:39天快速录用,国人友好投稿全攻略
  • 探索2026客厅背景墙装修设计,开启美学与实用融合新思路,大平层设计/独立设计师/整案设计,装修设计公司推荐排行 - 品牌推荐师
  • 2026年看这里!重磅别墅设计蓝图实现成本优化与品质平衡,设计/大平层设计/室内空间设计,别墅设计推荐口碑推荐榜 - 品牌推荐师
  • JVM垃圾回收机制-全面详解
  • C语言课后作业练习1
  • 揭秘!目前评价好的文化石供应商——河北仁石贸易有限公司,砌墙石/文化石/石材/地铺石/天然石/贴墙石,文化石品牌有哪些 - 品牌推荐师
  • 【PHP类型安全新纪元】:从8.0到8.9,6个被低估的类型系统breaking change及平滑过渡checklist
  • 2026年初,如何选择靠谱的防水检测服务商? - 2026年企业推荐榜
  • 2026年3月,选不锈钢管?先看口碑好的厂家圆钢零切评测,不锈钢酸洗管/不锈钢方管,不锈钢管各种切割焊接加工找哪家 - 品牌推荐师
  • ESP32-S2 AT固件Wi-Fi配网与TCP/IP实战指南
  • 【MySQL】Go操作MySQL从入门到实战:环境搭建+语法+CRUD全解析
  • 2026年3月光伏用传感器供应商口碑排行,值得关注,电压互感器/互感器/电流互感器/漏电传感器,传感器定制排行 - 品牌推荐师
  • 如何集成单点登录和设计子系统的权限管理二
  • 南大复试 - 软工真题
  • 从霍尔信号到六步换向:有霍尔BLDC电机驱动实战解析
  • 【AI改变未来】从技术突破到行业重塑,我们正站在智能革命的奇点上
  • BUUCTF [GWCTF 2019] 数据库的秘密:CVE-2018-12613漏洞实战解析
  • STM32CubeMx 配置三相互补PWM + 死区时间计算
  • 一、JavaScript 获取系统时间
  • 初始Python篇(10)—— 初识 类与对象
  • HTML5的结构、概述、优势
  • 基于Zabbix 6.4与Helm 3的Kubernetes 1.28集群监控实战指南
  • OpenClaw 生成测试用例
  • 前端工程化实践:前端项目打包命名策略全解析
  • 从对接构象到稳定轨迹:氧合血红素cpdI复合物Amber/Gromacs模拟全流程解析
  • Highcharts React v4.2.1 正式发布:更自然的React开发体验,更清晰的数据处理
  • 2026年性价比轿车托运服务商深度评测与选购指南 - 2026年企业推荐榜
  • No.905 S7-200 PLC和组态王组态温度PID控制加热 S7-200 PLC和组态王...