当前位置：首页 > news >正文

CVPR 2026 | 浙大阿里新框架：只看图片就能学会压缩Token！压缩率90%

news 2026/5/9 20:25:50

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

MetaCompress团队投稿凹非寺
转载自：量子位（QbitAI）

多轮视觉问答，正在成为LVLM推理效率的“照妖镜”。

第一轮关注人物，第二轮追问背景，第三轮讨论构图，但现有压缩方法在多轮场景下集体翻车。

为应对这一挑战，浙江大学宋明黎教授团队与阿里巴巴集团安全部联合提出了MetaCompress——

一套面向多轮视觉问答的学习式Token压缩框架，被CVPR 2026录用。

研究背景

视觉Token带来的算力爆炸

当前主流LVLM如LLaVA-NeXT，通过多尺度视觉输入实现了极强的细粒度视觉理解能力，但也伴随视觉Token数量的指数级增长。

而Transformer中多头注意力的计算复杂度与序列长度呈平方关系，海量视觉Token直接导致：

Token生成延迟显著升高，实时交互体验极差
显存占用与计算量居高不下，难以在端侧、资源受限设备上部署
多轮对话中，KV缓存的复用成本随Token数量线性增长，对话轮次越多，效率越低

单轮→多轮：现有方法的核心失效场景

现有Token压缩技术虽已取得不少进展，但都只针对单轮视觉问答场景设计。

在单轮问答中，模型只需回答一次性问题，因此可以“贪婪地”只保留与当前问题相关的Token，丢弃其余信息。

但在真实的人机交互场景中，团队与模型的对话大多是多轮视觉问答模式。

在这种对话里，模型无法预判用户的后续提问，问题可能指向图片中的任意区域：

第一轮对话，用户或许只关注画面前景的人物；

到了第二轮，就会追问背景里的建筑细节；

第三轮甚至会问到整张图片的色调与构图风格。

正是这种开放式的对话特性，让现有的两类主流Token压缩方法直接陷入了困境：

Prompt依赖型方法（如FastV）：
仅根据首轮文本Prompt筛选Token，天然偏向初始问题，极易丢弃后续轮次需要的关键视觉信息，直接导致多轮对话里模型性能断崖式下跌
Prompt无关型方法（如PruMerge）：
仅基于视觉Token之间的相似性信息做压缩，理论上可适配多轮视觉问答场景，但完全依赖人工先验设计的启发式准则（如注意力分数），缺乏理论指导

注意力分数，真的是Token压缩的最优指引吗？

基于Prompt无关型方法可以适配多轮场景，团队重新审视Prompt无关型方法的Token压缩准则。

现有绝大多数Prompt无关型方法都把“对CLS token或者文本Prompt Token的注意力分数”作为视觉Token保留的核心依据——

注意力分数越高，视觉Token越重要。

但这个被广泛沿用的启发式设计，真的符合多轮视觉问答的需求吗？

研究成果

关键洞察：启发式注意力指引，本质是次优的

团队首先进行底层的理论范式统一：

所有Token操作，无论是剪枝（Token Pruning）还是合并（Token Merging），都可以被公式化为一个可学习的压缩映射优化问题。

简单来说，视觉Token缩减的核心目标，就是找到一个最优的压缩矩阵P，将原始n个视觉Token压缩为m个（m≪n），使得压缩前后，LVLMs对文本Prompt输入的响应分布差异最小。

基于这个统一的公式化定义，团队为每张图片单独学习了最优压缩矩阵，再分析“最优策略保留的Token”与“启发式注意力分数”之间的关联。

上图中（a）为最优压缩矩阵训练的整体Pipeline；（b）为最优压缩保留的Token与所有Token对CLS Token的注意力分布；（c）为最优压缩保留的Token与所有Token对文本Prompt Token的注意力分布

实验结果显示，绝大多数被最优压缩策略保留的Token，与注意力分数没有明显相关性。

即便有少量高注意力Token被保留，占比也仅为1.71%。

这个核心发现，说明了依赖人工先验的启发式注意力分数准则，在多轮对话场景下并非最优Token保留策略。

团队最终确定，必须跳出人工设计的桎梏，用数据驱动的方式，学习通用的最优Token压缩映射。

MetaCompress：面向多轮视觉问答的学习式Token压缩框架

基于上述洞察，团队提出了MetaCompress。

核心设计目标非常明确：仅根据输入图像本身，生成最优的压缩映射，在大幅缩减Token数量的同时，完整保留应对未知多轮提问的通用视觉信息。

△（左）MetaCompress整体架构图；

（右）MetaCompress整体训练Pipeline

当前主流的LVLMs普遍采用多尺度视觉塔来提升细粒度理解能力，输入图片的分辨率会动态变化，对应的视觉Token数量也不固定，这给压缩策略的生成带来了核心挑战：

固定的人工压缩规则，根本无法适配灵活多变的输入。

为此，团队设计了一个轻量级元生成器来解决这一痛点——无论输入图片的分辨率是多少、对应多少个视觉Token，它都能自适应生成匹配当前输入的最优压缩映射，可兼容LLaVA-NeXT等主流多尺度LVLMs架构。

元生成器的核心逻辑分为三点：

多尺度适配：通过自适应下采样实现灵活匹配不同视觉Token数量，兼容主流LVLMs多尺度架构，同时强化Token的空间位置信息，避免压缩时过度破坏图像的空间结构
自适应生成压缩策略：通过轻量化的特征投影，自主学习视觉Token的重要程度，全程靠数据驱动找到最优压缩方案，不用人工预设的规则来判断Token的取舍
轻量化架构：整体仅由少量线性投影层构成，额外计算开销几乎可忽略，在压缩Token降本提速的同时，完全不影响模型原本的推理速度

实验验证

团队在多个多轮视觉问答基准上，覆盖了多款主流LVLM架构的不同规模模型，完成了全面的实验验证。

结果显示：

精度表现：即使在70%和90% Token的高压缩率下，MetaCompress效果远优于现有主流Token压缩方法
推理效率：Token生成延迟、端到端推理耗时、显存占用等核心指标与等距下采样方法持平，几乎不会产生额外的推理开销
泛化能力：在未参与训练的评测基准、跨数据集及视频问答任务中，无需额外微调，效果仍优于对比方法，展现出良好的跨场景迁移性

△Token压缩方法在不同压缩率下MT-GQA数据集的平均精度对比曲线图

这项工作针对多轮视觉问答场景下LVLMs的视觉Token压缩问题，提供了一套数据驱动的解决方案。

MetaCompress面向多轮视觉问答的学习式Token压缩框架，无需依赖人工先验和启发式准则，可实现端到端的压缩映射学习。

同时仅需少量训练数据与算力开销，即可在Token压缩率与模型精度之间实现良好的平衡。

作者简介

本文第一作者为浙江大学计算机科学与技术学院博士生王毅，研究方向为多模态大模型及其加速。

其导师为浙江大学宋明黎教授，导师组成员包括宋杰副教授、张皓飞研究员。

主要合作者为来自阿里巴巴集团安全部的汪维、金炫。

论文链接：https://arxiv.org/abs/2603.21701
代码仓库：https://github.com/MArSha1147/MetaCompress

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.jsqmd.com/news/785076/

claude code用户如何通过taotoken解决封号与token不足困扰

node-redis性能调优终极指南：内存使用、网络延迟、CPU占用优化

构建编译型知识图谱：为AI智能体打造持久化记忆中枢

大连本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心

如何用AI深度研究打造个性化影视推荐系统：终极指南 [特殊字符]

陕西暖众居散热器厂家：品质筑暖，家装与工程优选品牌 - GrowthUME

终极指南：NHSE - 深度解析《动物森友会》存档编辑器的技术实现与实战应用

CANN/shmem编译构建指南

CANN/TensorFlow性能调优指南

Docker-Mailserver安全审计终极指南：10个关键步骤实现漏洞扫描与安全加固

如何在Docker-Stacks中配置Bitbucket Pipelines环境变量：完整指南

Z-score本质：数据标准化的底层逻辑与工程实践

TensorFlow-Course：Colab云端开发终极指南

INPAQ佳邦原装一级代理分销经销ESD EGA10402V05AH 0402 5V 0.2P

Hypnos-i1-8B参数详解：Temperature=0.3时数学解题准确率提升实测

Docker-Mailserver终极邮件加密指南：端到端安全与隐私保护完全教程

泉州本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心

XAI赋能老年健康应用体验评估：从数据洞察到界面优化的实践指南

CATLASS FlashAttention推理示例

sd-webui-oldsix-prompt自定义词库教程：打造你的专属提示词库

负责任AI实践指南：公平性、可解释性与隐私安全的技术落地

南昌本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心

如何成为全栈Web开发者：HTML/CSS/JavaScript三件套终极入门指南 [特殊字符]

抢不到票却想拿干货？SITS2026同期活动90%参会者不知道的3种“影子参与”路径，附实操清单

AI学习持久性研究：社会归属感与编程信心如何影响学生坚持

Transformer与2D超图像在医学影像分割与预后预测中的融合应用

nli-MiniLM2-L6-H768快速上手：start.sh一键启动与API调用指南

CANN ops-math ChunkCat算子

ComfyUI节点冲突实战指南：5种方法彻底解决自定义节点类型重复问题

全球优选，冷暖赋能——国际地源热泵知名品牌盘点 - GrowthUME

MetaCompress团队 投稿 凹非寺转载自：量子位（QbitAI）