当前位置: 首页 > news >正文

清华突破:AI图像描述实现55%计算减量性能不降反升

这项由清华大学与ModelBest联合开展的研究,以预印本形式于2026年5月9日发布于arXiv平台,编号为arXiv:2605.08985。感兴趣的读者可通过该编号直接检索原始论文。

**一场关于"看图"效率的革命**

手机里的AI助手越来越聪明了——你拍一张菜单,它帮你翻译;你上传一页合同,它帮你找出关键条款;你发一张数学题的照片,它帮你一步步推导答案。这些能力背后,有一类被称为"多模态大语言模型"的技术在默默支撑,它们既能理解文字,又能理解图像,是当下AI领域最热门的研究方向之一。

然而,这类模型有一个鲜为人知的烦恼:每当它们处理一张高清大图时,计算机内部要做的"数学题"会多到令人咋舌。分辨率越高、图片越大,计算量就呈爆炸式增长,速度变慢、耗电量飙升,甚至需要更昂贵的硬件支撑。研究人员们为此绞尽脑汁,试图找到一种既快又好的处理方式。

清华大学的这支团队决定从根子上重新审视这个问题。他们发现,整个行业长期以来都在沿用一种"看起来合理、实际上可以做得更好"的处理流程。通过两个关键改变,他们让模型处理高清图片的计算量直接减少了55.8%,同时在多项权威测试上的表现不仅没有下降,甚至在某些任务上还略有提升。这个系统被命名为LLaVA-UHD v4。

**一、AI是怎么"看图"的?先搞清楚这个问题**

要理解这项研究的突破,先得搞清楚AI处理图片的流程,就像了解一个工厂的生产线一样重要。

现有的多模态AI系统处理图片时,大致经过两个关键环节。第一个环节是"视觉编码",可以把它理解为图片进入AI大脑后的"预处理"阶段——负责这个工作的是一个叫做"视觉编码器"(Vision Transformer,简称ViT)的组件,它把图片分成很多小格子(称为"图块"或"token"),然后让每个小格子都和其他所有小格子互相"交流",从而理解图片的内容。第二个环节是"语言理解",经过视觉编码器处理后,这些小格子的信息被送入语言大模型,语言模型把视觉信息和文字问题结合起来,给出最终的回答。

问题恰恰出在第一个环节。当图片很大、很清晰时,被切成的小格子数量就会非常多。而视觉编码器在处理这些格子时,要让每个格子都和其他所有格子互相交流——这个过程的计算量,会随着格子数量的增加呈**平方级增长**。格子数量翻一倍,计算量就变成原来的四倍;格子数量增加三倍,计算量就变成原来的九倍。这就是"高清图片处理效率瓶颈"的根本所在。

当前业界的主流做法是在视觉编码器完成全部计算之后,再用一个"压缩器"把大量格子合并压缩,减少送入语言模型的信息量。这样做确实减轻了语言模型的负担,但视觉编码器内部那海量的计算已经发生了,无法追回。这就好比一家餐厅,厨房已经把一百道菜全部做完了,才意识到其实顾客只需要二十道——食材和时间都已经消耗掉,无法挽回。

清华团队的核心洞察是:**问题要在源头解决**。他们从两个方向同时入手——重新审视图片送进编码器之前的处理方式,以及在编码器内部更早地完成压缩工作。

**二、一个被业界忽视的直觉:切片比整体更好**

当一张高清大图需要被AI处理时,通常有两种策略。第一种叫"全局编码":把整张图片直接塞进视觉编码器,让它一次性处理所有内容。第二种叫"切片编码":把大图切成若干个小块,让编码器分别处理每个小块,再把结果合并。

直觉上,全局编码听起来更好——毕竟编码器能看到完整的图片,所有区域之间都能互相"交流",没有信息损失。切片编码则像是蒙住了编码器的大部分视野,只让它一次看一小块,似乎会丢失跨区域的整体信息。正因如此,业界许多领先的多模态模型(包括一些知名商业产品背后的技术方案)都倾向于使用全局编码。

然而,清华团队通过严格的对比实验发现,这个直觉是错的。在使用相同的视觉编码器、相同的语言模型、相同的训练数据量,以及相同的最终压缩比例的条件下,切片编码在几乎所有测试中都优于全局编码,有时差距还相当显著。

研究团队在一系列涵盖数学推理、文字识别、图表理解、视觉问答等多种类型的八项权威测试上进行了系统比较,分别测试了4倍压缩和16倍压缩两种设置,以及400万和800万两种规模的训练数据,总计四种组合。在所有四种组合中,切片编码的平均得分均高于全局编码,优势幅度从0.5分到1.7分不等。

尤其值得关注的是文字识别类任务(OCRBench测试)。在这类任务中,AI需要识别图片中的小字、表格数字、文档内容等细节,对"局部精度"要求极高。切片编码在这类任务上的优势最为突出,在四种测试设置中分别领先3.6到5.5分——这是一个相当显著的差距。

为了确保这个结论不是偶然,团队还用另一个视觉编码器(MoonViT,一个专门针对原始高分辨率图像训练的模型)重复了实验,结果切片编码依然保持了约1.5分的平均优势;当他们把切片的分辨率进一步提升(使用更大的切片方案)时,优势进一步扩大到超过2分,而且没有出现饱和的迹象。

为什么切片编码反而更好?研究团队给出的解释颇有意思。关键不在于全局信息的"有无",而在于注意力资源的"分配方式"。全局编码时,编码器要同时处理整张大图的所有内容,一张复杂文档图片里,文字区域的细节要和图片背景、装饰元素争夺同等的计算资源。而切片编码时,每个小块内的注意力资源是高度集中的,编码器能更充分地挖掘每个区域内部的精细结构——比如密密麻麻的小字、表格中的数字格式、图表的局部标注。这种"局部专注"的特性,恰好契合了高清图片处理中最难也最重要的需求:对细节的精准感知。

**三、压缩器的选择:简单的结构往往赢过复杂的结构**

确定了切片编码更优之后,团队还需要回答另一个问题:视觉编码器输出的大量格子,在送入语言模型之前,用哪种方式压缩效果最好?

目前业界主要有两类方案。一类叫"重采样器",原理是让一批预先设定好数量的"学习查询"(可以理解为一批"代言人"),通过类似投票的方式,从大量视觉格子中汇集信息,把成百上千个格子的内容压缩到几十个"代言人"身上。这种方法在Flamingo、BLIP-2等知名模型中被广泛使用。另一类叫"MLP压缩器",原理更直接:把相邻的几个格子合并成一个,把它们的特征信息拼在一起,再经过一个简单的神经网络映射,完成压缩。

研究团队在相同条件下对两者进行了对比。结果是MLP压缩器在所有测试设置中都优于重采样器,在压缩比例较低(4倍压缩)时优势最为明显,领先幅度达到3.3到6.7分。随着压缩比例增大(16倍压缩)、训练数据规模增加,差距有所收窄,但MLP始终保持领先。

背后的原因其实并不复杂。MLP压缩器是把相邻的格子直接合并——合并后的每个新格子,仍然对应图片中一个明确的局部区域,空间位置信息被完整保留。重采样器则是通过学习的方式动态汇聚信息,输出的"代言人"不再和图片中的固定位置对应,空间结构被打乱了。对于需要理解图片局部细节和空间关系的视觉任务,这种空间结构的保留至关重要,而重采样器恰恰在这一点上天然处于劣势。

有趣的是,重采样器的参数量通常更大(在低压缩比设置下尤为明显),但参数多并不能弥补空间信息丢失的短板。由此,团队确立了以切片编码加MLP压缩器作为基准方案,并开始攻克真正的核心难题。

**四、在"流水线最前端"动刀:LLaVA-UHD v4的核心创新**

切片编码和MLP压缩器组合在一起,已经是一个相当不错的方案。但有一个根本性的效率问题仍然没有解决:无论压缩器多高效,视觉编码器内部的计算量依然没有减少。编码器还是要把每张切片的所有格子走完全部计算流程之后,压缩器才能介入。

清华团队问了一个简单而关键的问题:**为什么不把压缩的时间点提前到编码器内部呢?**

这个想法看似自然,实际操作却充满风险。视觉编码器通常是在海量图片数据上预先训练好的复杂系统,其内部每一层都对前一层输出的特征有精确的"期望"——就像一条精密的流水线,每道工序都依赖上一道工序产出特定规格的半成品。如果贸然在中途插入一个随机初始化的压缩模块,输出的格子数量突然减少,特征分布也随之改变,后续各层就会接收到与预期完全不符的输入,轻则性能大幅下降,重则整个系统崩溃。修复这种损伤需要大量额外的训练,而且不一定能完全恢复原来的性能水平。

团队设计了一套精妙的解决方案,并为它起名叫"参数复用早期压缩器"(intra-ViT early compressor,简称D)。这个压缩器的核心设计遵循三条原则:它必须插在编码器内部(而非外部),必须尽可能靠前(以最大化节省后续层的计算量),以及必须不破坏编码器已经学到的特征表示体系。

压缩器D的内部结构由两个步骤构成。第一步叫"窗口注意力":在压缩之前,先让每个格子和它相邻的三个格子(组成一个2×2的小窗口)互相交流、相互融合,让每个格子都能感知到自己周围的上下文。这一步很重要,因为接下来要把这四个格子合并成一个,在合并之前先让它们充分交流,信息损失就会小得多。第二步叫"下采样融合":把这个2×2窗口里的四个格子直接合并成一个,通道维度变为原来的四倍,再经过一个轻量级的神经网络映射回原来的维度,完成压缩。经过这两步,原本N个格子变成了N/4个格子,序列长度缩短为原来的四分之一。

然而,如何初始化这个压缩器,才是解决"破坏原有特征体系"问题的关键所在。团队采用了一个极其聪明的策略:**直接复用压缩器插入位置前一层的预训练权重来初始化D**。

具体来说,窗口注意力部分的参数直接拷贝自相邻的编码器层,只是把原本的全局注意力换成了局部的2×2窗口注意力(注意力机制的权重本身不变)。融合MLP部分的参数则被构造成:模拟"把前一层的前馈网络独立应用于窗口内每个格子,然后取平均"的操作——这在数学上是可以通过特定的权重矩阵构造实现的。这样一来,在训练刚开始的第一步,这个压缩器的行为就已经非常接近于"先走一遍相邻层的计算,再做平均合并",而不是随机噪声。系统从一个接近合理的起点开始微调,而不是从一片混乱中重新摸索。

团队经过实验确定,将压缩器插入在编码器第6层之后(SigLIP 2编码器共有若干层),是效果和效率的最优平衡点。插得太早(比如第3层之后)会导致灾难性的性能崩溃——平均得分从约70分跌落到不足40分,因为编码器前几层刚刚开始处理图片的原始像素信息,尚未形成有语义意义的特征,此时强行合并等于直接销毁原始信息。插在第9层或第15层之后则效果略低于第6层,而且节省的计算量也更少(因为越靠后,前面已经走完的层就越多)。第6层恰好处于一个"甜蜜点":编码器已经积累了足够的语义特征,格子之间的合并是安全的;而后续还有大量计算层需要走完,将它们的格子数量压缩到四分之一所节省的计算量极为可观。

整个LLaVA-UHD v4的完整流程如下:一张高清图片先被切分成缩略图加若干高清切片,分别送入视觉编码器;编码器走完前6层之后,压缩器D将每张切片的格子数量压缩为四分之一;编码器剩余的层在这个四分之一的格子数量上继续计算;编码器输出后,MLP压缩器再次将格子数量压缩到原来的四分之一;最终送入语言模型的格子数量是初始格子总数的十六分之一,而视觉编码器内部后续各层的计算量也降低到了原来的约四分之一。

**五、实验结果:数字说话**

研究团队用五种不同规模的训练数据(从400万到6400万样本)对LLaVA-UHD v4和"仅用编码器后压缩"的基准方案进行了系统比较,评测在八项标准测试上展开。

计算量方面的改善非常直观。处理一张切片所需的视觉编码计算量,从基准方案的3555G FLOPs降低到1573G FLOPs(FLOPs是衡量计算量的单位),降幅达55.75%。换句话说,完成同样的视觉编码任务,只需要原来不到一半的计算资源。

性能方面的表现同样令人满意。在五个训练规模设置下,LLaVA-UHD v4的平均得分与基准方案的差距始终在±0.8分以内,平均偏差仅为-0.29分——几乎可以忽略不计。随着训练数据从400万扩大到6400万,两个系统都在持续进步,LLaVA-UHD v4从67.4分提升到75.6分,基准方案从68.2分提升到76.2分,彼此的差距并没有随着训练规模扩大而系统性地拉大,说明这种压缩设计不会在更大规模训练下变成短板。

具体到各项测试,两个系统互有胜负。LLaVA-UHD v4在数学视觉推理(MathVista)测试上,用6400万数据训练时反而略高于基准方案(76.9对76.3);在中文多模态理解(MMBenchCN)测试上,用6400万数据训练时二者基本持平(86.5对86.4)。基准方案在某些通用视觉问答测试上略有优势,但差距普遍很小。

团队还对压缩器的各种设计变体做了详细对比。仅仅使用最简单的平均池化方法(直接把四个格子的值取平均合并)插入编码器内部,平均得分会从70.6分降到69.6分;稍复杂一些的随机初始化MLP压缩器可以恢复到69.8分,但依然低于基准方案。只加入参数复用初始化(不加窗口注意力)能提升到69.9分;只加入窗口注意力(不做参数复用,随机初始化MLP)可以提升到70.1分。当两者同时使用时,得分达到70.7分,不仅回到了基准方案的水平,还略微超过了它。研究团队把这个现象描述为"超加法效应":两种机制合在一起的效果,超过了各自单独效果的简单叠加。原因在于,窗口注意力让相邻格子在合并前充分交流,而参数复用初始化让合并后的格子恰好处于后续编码器层所"期待"的特征空间中——两者缺一不可,单独使用任何一个都不能充分解决"压缩之后特征不兼容"的问题。

**六、研究的局限与未来方向**

这支研究团队对自己工作的局限也有清醒的认识,并在论文中坦诚地列出了几点值得注意的地方。

当前的压缩器对图片所有区域一视同仁,以固定的比例进行压缩,无论某个区域是密密麻麻的文字还是纯色的背景。更理想的方案应该能根据内容的复杂程度动态调整——对信息密集的区域保留更多格子,对信息稀疏的区域更激进地合并。这种"按需分配"的动态压缩是一个值得探索的方向。

此外,压缩器插入的最佳位置(第6层)是专门针对SigLIP 2这个特定的视觉编码器测试得出的结论,换用其他结构不同或层数更多的编码器时,可能需要重新确定这个参数。

切片编码虽然在细节感知上表现出色,但它天然地把图片切成了若干独立处理的块,不同切片之间的空间关系主要靠一张低分辨率的缩略图来"兜底"。对于某些需要跨越大范围区域才能理解的视觉问题,这种方式仍然存在一定的信息损失。

归根结底,这项研究最重要的贡献,或许不仅仅在于LLaVA-UHD v4这个具体系统,而在于它通过严谨的实验证明了两件让业界重新思考的事情:那个被默认为"更好"的全局编码方案,实际上未必比切片编码更优;以及,那个被视为"难以逾越"的视觉编码器内部压缩难题,通过参数复用初始化的巧妙设计是可以安全解决的。当处理高清图片所需的计算量可以砍去一半以上,而效果几乎不打折扣,这意味着未来AI助手在手机上实时分析高清照片、在低功耗设备上理解复杂文档,都变得更加可期。算力不再是拦路虎,细节感知的极限也可以持续向前推进。

Q&A

Q1:切片编码和全局编码有什么本质区别,为什么切片编码反而更好?

A:全局编码是把整张图片一次性送入视觉编码器处理,所有区域在同一个注意力空间里相互竞争计算资源。切片编码则把大图分成若干小块分别处理,编码器在每个小块内能更集中地挖掘局部细节。实验表明,对于文字识别、文档理解等需要精细感知的任务,这种"局部专注"的方式比全局注意力更有效,在OCRBench测试中领先差距可达3.6到5.5分。

Q2:LLaVA-UHD v4的参数复用初始化具体是怎么做的?

A:在视觉编码器第6层之后插入压缩模块时,该模块的全部参数都直接从相邻的第6层预训练权重复制而来,而非随机初始化。窗口注意力部分直接拷贝第6层的注意力权重,融合MLP部分则被构造成模拟"对窗口内四个格子各跑一次第6层前馈网络然后取平均"的数学等效操作。这样训练一开始,压缩模块的行为就接近合理状态,不会破坏后续编码器层所依赖的特征分布。

Q3:LLaVA-UHD v4减少的55.75%计算量具体体现在哪里?

A:减少的计算量主要来自视觉编码器内部。压缩模块在编码器第6层之后就把格子数量降低到四分之一,编码器后续的所有层都只需要处理原来四分之一数量的格子。由于编码器内部的计算量和格子数量的平方成正比,格子数量变为四分之一后,后续各层的计算量大约降低到原来的十六分之一,整体下来视觉编码的总计算量从3555G FLOPs降至1573G FLOPs,降幅为55.75%。

http://www.jsqmd.com/news/829692/

相关文章:

  • Pine Script V6实战:从社区代码库到专业交易策略开发
  • Prometheus外置抓取器:扩展监控能力与复杂场景适配方案
  • 阿里Qwen3.6系列实测
  • Winhance中文版:Windows系统优化与定制的终极指南
  • 毕业设计精选【芳芯科技】51单片机的16x16点阵汉字运动(74HC595)
  • 廊坊山美供应链管理:性价比高的廊坊库存货架厂家 - LYL仔仔
  • JavaOOP第一阶段总结
  • 2026年语音转写做总结:如何让程序员告别“无效加班”
  • B站视频下载终极指南:免费获取4K大会员高清视频
  • 邮件安全网关怎么选?三种类型网关和功能对比全面解析
  • Memoria-智能影记创新实训博客(八):本地优先设计下的隐私保护与云端大模型协同
  • 基于ARM Cortex-A53核心板的智能运动控制系统设计与实践
  • 使用taotoken后c语言服务调用大模型api的延迟与稳定性实测观感
  • 淡化眼角鱼尾纹的护肤品推荐 熟龄肌闭眼入|CA逆时光抗皱不踩雷 - 全网最美
  • 别再死记硬背递推公式了!‘爬楼梯’这道题,我用动画和现实例子帮你彻底搞懂递归
  • 植物表型分析系统产品介绍和厂家推荐 - 品牌推荐大师
  • 构建反测试剧场防线:识别脆弱测试与提升软件质量实践
  • Linux硬件监控终极指南:如何用lm-sensors守护你的系统健康
  • TSL2561高精度光照传感器在可穿戴设备中的集成与应用指南
  • 汽车嵌入式软件自动化测试:从ISO 26262到HIL的实战指南
  • 本地AI助手集成开发环境:多模型管理与提示词工程实践
  • 文档怎么转PDF?2026常用转换方法和软件对比 - 软件小管家
  • 从Vivado到上电启动:手把手教你用Petalinux 2022.1为Zynq Nano板卡制作可启动SD卡
  • 别慌!Pygame里time.sleep()报错?用Clock.tick()轻松搞定(附完整代码示例)
  • 植物水势测量仪产品介绍和厂家推荐 - 品牌推荐大师
  • OpenCrow分布式爬虫调度系统:从架构设计到部署实战
  • 基础分析仪:N9020B| 是德科技Keysight
  • PDF怎么转Word?2026年免费转换工具对比|在线转换方案全面测评 - 软件小管家
  • Prompt工程实战:从技巧到系统化工作流设计
  • Vivado 2021.2之后,System Generator去哪了?手把手教你用Vitis Model Composer找回它