当前位置: 首页 > news >正文

Seeing Beyond Redundancy Task Complexity‘s Role in Vision Token Specialization in VLLMs

Seeing Beyond Redundancy: Task Complexity’s Role in Vision Token Specialization in VLLMs

Authors:Darryl Hannan, John Cooper, Dylan White, Yijing Watkins

Deep-Dive Summary:

论文总结:超越冗余——任务复杂度在 VLLM 视觉 Token 特化中的作用

摘要

视觉大语言模型(VLLMs)在视觉能力上始终滞后于其语言能力。研究表明,VLLM 在处理细粒度视觉信息或空间推理任务时表现不佳。本文旨在探究视觉信息在模型中的处理方式及被丢弃的规律。研究引入了一个合成基准数据集和一套衡量视觉冗余的指标,分析了不同复杂度的任务对视觉压缩的影响。研究发现,任务复杂度与视觉压缩之间存在紧密联系:高复杂度的视觉数据对于改变 VLLM 的视觉表示分布并提升其在复杂任务上的性能至关重要。

2. 背景与相关工作

视觉大语言模型 (VLLMs):与对比学习模型(如 CLIP)不同,VLLM 通过自回归方式预测下一个 Token。模型通常将图像嵌入E ( i ) ∈ R N i × d \mathbf{E}^{(i)} \in \mathbb{R}^{N_{i} \times d}E(i)RNi×d与文本嵌入E ( t ) ∈ R N t × d \mathbf{E}^{(t)} \in \mathbb{R}^{N_{t} \times d}E(t)RNt×d连接后通过解码器处理。

视觉 Token 压缩与冗余:现有研究表明 VLLM 并不需要所有的视觉 Token。例如,在 LlaVA 中随机删除 95% 的 Token 对性能影响极小。本文不仅利用这种冗余,还通过研究 Molmo 和 Llama 3.2 等最新模型,探索视觉信息如何在模型中传播。

4. 实验

4.1 零样本分析 (Zero-shot Analyses)

研究选取了 Molmo 和 Llama 3.2。两者架构略有不同:Molmo 采用全模态联合注意力,而 Llama 3.2 采用交叉注意力。

数据集:

  • 合成数据集:在白色背景上放置不同形状、颜色、大小的 2D 物体,数量从 1 到 200 不等,以便精确控制复杂度。
  • MSCOCO 子集:使用真实世界图像验证趋势。

Token 压缩分析:

  • 在 Molmo 中,早期层将能量分散在大量视觉 Token 中,中间层重新浓缩信息,末尾层再次分散以丢弃冗余信息(见图 1)。
  • 物体数量与低压缩率强相关(见图 2),表明拥挤的场景需要更多 Token 来表示。
  • 在 COCO 数据集上(见图 3),物体类别的多样性和大小差异是降低视觉压缩的主要特征。


图 3:Molmo 在 COCO 数据集上压缩指标与视觉属性之间的 Spearman 相关性。

探测实验 (Probes):

  • 信息转移:实验发现文本 Token 能够高度预测视觉属性(见图 4),表明视觉信息在第一层之后就迅速整合到了文本空间中。
  • 冗余性:几乎所有 Token 位置都能准确预测物体数量,这表明模型中存在极高的视觉冗余。
  • 特征分化:某些特征(如“主色调”或 COCO 中的“主超级类别”)在不同层表现出不同的预测能力,说明模型在不同阶段侧重于不同的视觉特征。


图 4:Molmo 在合成数据集上对各种视觉属性的线性探测性能。


图 5:Molmo 在 COCO 数据集上对各种视觉属性的线性探测性能。

Original Abstract:Vision capabilities in vision large language models (VLLMs) have consistently lagged behind their linguistic capabilities. In particular, numerous benchmark studies have demonstrated that VLLMs struggle when fine-grained visual information or spatial reasoning is required. However, we do not yet understand exactly why VLLMs struggle so much with these tasks relative to others. Some works have focused on visual redundancy as an explanation, where high-level visual information is uniformly spread across numerous tokens and specific, fine-grained visual information is discarded. In this work, we investigate this premise in greater detail, seeking to better understand exactly how various types of visual information are processed by the model and what types of visual information are discarded. To do so, we introduce a simple synthetic benchmark dataset that is specifically constructed to probe various visual features, along with a set of metrics for measuring visual redundancy, allowing us to better understand the nuances of their relationship. Then, we explore fine-tuning VLLMs on a number of complex visual tasks to better understand how redundancy and compression change based upon the complexity of the data that a model is trained on. We find that there is a connection between task complexity and visual compression, implying that having a sufficient ratio of high complexity visual data is crucial for altering the way that VLLMs distribute their visual representation and consequently improving their performance on complex visual tasks. We hope that this work will provide valuable insights for training the next generation of VLLMs.

PDF Link:2602.06914v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/361681/

相关文章:

  • 聊聊佛山GEO推广优化方案,深圳光合道值得推荐 - 工业品网
  • 【大模型部署】零成本体验私有化部署llama3.1
  • 2026年河北永磁磁选机大型厂家年度排名,哪家性价比高? - mypinpai
  • Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
  • 2026年无锡口碑好的工作服老牌厂家推荐,专业工装工作服制作企业全解析 - 工业推荐榜
  • 剖析深圳有名的婚纱摄影专业公司,了解优势再做决定 - 工业推荐榜
  • 超大模型部署无压力!一键运行 Llama 3.1 405B 和 Mistral Large 2
  • 探寻全国做抖音培训的人物,铭泽国际实战经验丰富 - myqiye
  • ico多个尺寸用PNG,BMP哪个更小
  • 分析南通团体服源头厂家选择,哪家口碑比较靠谱 - 工业设备
  • 真心不骗你 10个AI论文平台深度测评,专科生毕业论文写作必备工具推荐!
  • 2026年常州工作服制造厂选哪家好,十大靠谱厂家排行榜揭晓 - 工业品牌热点
  • SPARC Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
  • 单采PBMC白细胞专业供应商+单采中外籍PBMC白细胞优质供应商,中外籍供体合规优选 - 品牌推荐大师1
  • RAG可以不用向量库?来围观一下这是怎么回事呢
  • 智能电子孵化箱温控计设计
  • 编写空调省电助手,根据室内温度,室外温度,人数,推荐空调最佳温度和模式,(制冷/制热,除湿),实时监控空调耗电量,生成省电报告,节省电费。
  • Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering
  • 2026年2月混凝土抗裂添加剂工厂推荐,工程抗裂配方与应用指南 - 品牌鉴赏师
  • 2026 昆明英语雅思培训教育机构推荐、雅思培训课程中心权威口碑榜单 - 老周说教育
  • 培训直播平台哪个好?2026实测不踩坑
  • 2026年比较好的柑橘水溶肥/中量元素水溶肥厂家用户好评推荐 - 行业平台推荐
  • 2.9—寒假第一阶段小结
  • 2026南美(巴西、哥伦比亚)出海新选择:专业EOR服务商如何助力企业合规雇佣 - 品牌2025
  • DNS解析
  • 高性能封装材料需求增,铝碳化硅(AlSiC)预计六年CAGR为6.5%
  • 微信小程序 路演中 演出报名投票系统的设计与实现
  • 【AI学术写作工具】哪个好?2026年实测4款科研神器指南,拒绝文献造假与逻辑硬伤! - 沁言学术
  • 分析AGV灭火设备制造商哪家性价比高,价格费用如何 - 工业设备
  • 合规驱动增长:2026年北美(美国、加拿大、墨西哥)海外人力资源服务优选指南 - 品牌2025