当前位置：首页 > news >正文

清华突破：AI图像描述实现55%计算减量性能不降反升

news 2026/5/16 18:13:06

这项由清华大学与ModelBest联合开展的研究，以预印本形式于2026年5月9日发布于arXiv平台，编号为arXiv:2605.08985。感兴趣的读者可通过该编号直接检索原始论文。

**一场关于"看图"效率的革命**

手机里的AI助手越来越聪明了——你拍一张菜单，它帮你翻译；你上传一页合同，它帮你找出关键条款；你发一张数学题的照片，它帮你一步步推导答案。这些能力背后，有一类被称为"多模态大语言模型"的技术在默默支撑，它们既能理解文字，又能理解图像，是当下AI领域最热门的研究方向之一。

然而，这类模型有一个鲜为人知的烦恼：每当它们处理一张高清大图时，计算机内部要做的"数学题"会多到令人咋舌。分辨率越高、图片越大，计算量就呈爆炸式增长，速度变慢、耗电量飙升，甚至需要更昂贵的硬件支撑。研究人员们为此绞尽脑汁，试图找到一种既快又好的处理方式。

清华大学的这支团队决定从根子上重新审视这个问题。他们发现，整个行业长期以来都在沿用一种"看起来合理、实际上可以做得更好"的处理流程。通过两个关键改变，他们让模型处理高清图片的计算量直接减少了55.8%，同时在多项权威测试上的表现不仅没有下降，甚至在某些任务上还略有提升。这个系统被命名为LLaVA-UHD v4。

**一、AI是怎么"看图"的？先搞清楚这个问题**

要理解这项研究的突破，先得搞清楚AI处理图片的流程，就像了解一个工厂的生产线一样重要。

现有的多模态AI系统处理图片时，大致经过两个关键环节。第一个环节是"视觉编码"，可以把它理解为图片进入AI大脑后的"预处理"阶段——负责这个工作的是一个叫做"视觉编码器"（Vision Transformer，简称ViT）的组件，它把图片分成很多小格子（称为"图块"或"token"），然后让每个小格子都和其他所有小格子互相"交流"，从而理解图片的内容。第二个环节是"语言理解"，经过视觉编码器处理后，这些小格子的信息被送入语言大模型，语言模型把视觉信息和文字问题结合起来，给出最终的回答。

问题恰恰出在第一个环节。当图片很大、很清晰时，被切成的小格子数量就会非常多。而视觉编码器在处理这些格子时，要让每个格子都和其他所有格子互相交流——这个过程的计算量，会随着格子数量的增加呈**平方级增长**。格子数量翻一倍，计算量就变成原来的四倍；格子数量增加三倍，计算量就变成原来的九倍。这就是"高清图片处理效率瓶颈"的根本所在。

当前业界的主流做法是在视觉编码器完成全部计算之后，再用一个"压缩器"把大量格子合并压缩，减少送入语言模型的信息量。这样做确实减轻了语言模型的负担，但视觉编码器内部那海量的计算已经发生了，无法追回。这就好比一家餐厅，厨房已经把一百道菜全部做完了，才意识到其实顾客只需要二十道——食材和时间都已经消耗掉，无法挽回。

清华团队的核心洞察是：**问题要在源头解决**。他们从两个方向同时入手——重新审视图片送进编码器之前的处理方式，以及在编码器内部更早地完成压缩工作。

**二、一个被业界忽视的直觉：切片比整体更好**

当一张高清大图需要被AI处理时，通常有两种策略。第一种叫"全局编码"：把整张图片直接塞进视觉编码器，让它一次性处理所有内容。第二种叫"切片编码"：把大图切成若干个小块，让编码器分别处理每个小块，再把结果合并。

直觉上，全局编码听起来更好——毕竟编码器能看到完整的图片，所有区域之间都能互相"交流"，没有信息损失。切片编码则像是蒙住了编码器的大部分视野，只让它一次看一小块，似乎会丢失跨区域的整体信息。正因如此，业界许多领先的多模态模型（包括一些知名商业产品背后的技术方案）都倾向于使用全局编码。

然而，清华团队通过严格的对比实验发现，这个直觉是错的。在使用相同的视觉编码器、相同的语言模型、相同的训练数据量，以及相同的最终压缩比例的条件下，切片编码在几乎所有测试中都优于全局编码，有时差距还相当显著。

研究团队在一系列涵盖数学推理、文字识别、图表理解、视觉问答等多种类型的八项权威测试上进行了系统比较，分别测试了4倍压缩和16倍压缩两种设置，以及400万和800万两种规模的训练数据，总计四种组合。在所有四种组合中，切片编码的平均得分均高于全局编码，优势幅度从0.5分到1.7分不等。

尤其值得关注的是文字识别类任务（OCRBench测试）。在这类任务中，AI需要识别图片中的小字、表格数字、文档内容等细节，对"局部精度"要求极高。切片编码在这类任务上的优势最为突出，在四种测试设置中分别领先3.6到5.5分——这是一个相当显著的差距。

为了确保这个结论不是偶然，团队还用另一个视觉编码器（MoonViT，一个专门针对原始高分辨率图像训练的模型）重复了实验，结果切片编码依然保持了约1.5分的平均优势；当他们把切片的分辨率进一步提升（使用更大的切片方案）时，优势进一步扩大到超过2分，而且没有出现饱和的迹象。

为什么切片编码反而更好？研究团队给出的解释颇有意思。关键不在于全局信息的"有无"，而在于注意力资源的"分配方式"。全局编码时，编码器要同时处理整张大图的所有内容，一张复杂文档图片里，文字区域的细节要和图片背景、装饰元素争夺同等的计算资源。而切片编码时，每个小块内的注意力资源是高度集中的，编码器能更充分地挖掘每个区域内部的精细结构——比如密密麻麻的小字、表格中的数字格式、图表的局部标注。这种"局部专注"的特性，恰好契合了高清图片处理中最难也最重要的需求：对细节的精准感知。

**三、压缩器的选择：简单的结构往往赢过复杂的结构**

确定了切片编码更优之后，团队还需要回答另一个问题：视觉编码器输出的大量格子，在送入语言模型之前，用哪种方式压缩效果最好？

目前业界主要有两类方案。一类叫"重采样器"，原理是让一批预先设定好数量的"学习查询"（可以理解为一批"代言人"），通过类似投票的方式，从大量视觉格子中汇集信息，把成百上千个格子的内容压缩到几十个"代言人"身上。这种方法在Flamingo、BLIP-2等知名模型中被广泛使用。另一类叫"MLP压缩器"，原理更直接：把相邻的几个格子合并成一个，把它们的特征信息拼在一起，再经过一个简单的神经网络映射，完成压缩。

研究团队在相同条件下对两者进行了对比。结果是MLP压缩器在所有测试设置中都优于重采样器，在压缩比例较低（4倍压缩）时优势最为明显，领先幅度达到3.3到6.7分。随着压缩比例增大（16倍压缩）、训练数据规模增加，差距有所收窄，但MLP始终保持领先。

背后的原因其实并不复杂。MLP压缩器是把相邻的格子直接合并——合并后的每个新格子，仍然对应图片中一个明确的局部区域，空间位置信息被完整保留。重采样器则是通过学习的方式动态汇聚信息，输出的"代言人"不再和图片中的固定位置对应，空间结构被打乱了。对于需要理解图片局部细节和空间关系的视觉任务，这种空间结构的保留至关重要，而重采样器恰恰在这一点上天然处于劣势。

有趣的是，重采样器的参数量通常更大（在低压缩比设置下尤为明显），但参数多并不能弥补空间信息丢失的短板。由此，团队确立了以切片编码加MLP压缩器作为基准方案，并开始攻克真正的核心难题。

**四、在"流水线最前端"动刀：LLaVA-UHD v4的核心创新**

切片编码和MLP压缩器组合在一起，已经是一个相当不错的方案。但有一个根本性的效率问题仍然没有解决：无论压缩器多高效，视觉编码器内部的计算量依然没有减少。编码器还是要把每张切片的所有格子走完全部计算流程之后，压缩器才能介入。

清华团队问了一个简单而关键的问题：**为什么不把压缩的时间点提前到编码器内部呢？**

这个想法看似自然，实际操作却充满风险。视觉编码器通常是在海量图片数据上预先训练好的复杂系统，其内部每一层都对前一层输出的特征有精确的"期望"——就像一条精密的流水线，每道工序都依赖上一道工序产出特定规格的半成品。如果贸然在中途插入一个随机初始化的压缩模块，输出的格子数量突然减少，特征分布也随之改变，后续各层就会接收到与预期完全不符的输入，轻则性能大幅下降，重则整个系统崩溃。修复这种损伤需要大量额外的训练，而且不一定能完全恢复原来的性能水平。

团队设计了一套精妙的解决方案，并为它起名叫"参数复用早期压缩器"（intra-ViT early compressor，简称D）。这个压缩器的核心设计遵循三条原则：它必须插在编码器内部（而非外部），必须尽可能靠前（以最大化节省后续层的计算量），以及必须不破坏编码器已经学到的特征表示体系。

压缩器D的内部结构由两个步骤构成。第一步叫"窗口注意力"：在压缩之前，先让每个格子和它相邻的三个格子（组成一个2×2的小窗口）互相交流、相互融合，让每个格子都能感知到自己周围的上下文。这一步很重要，因为接下来要把这四个格子合并成一个，在合并之前先让它们充分交流，信息损失就会小得多。第二步叫"下采样融合"：把这个2×2窗口里的四个格子直接合并成一个，通道维度变为原来的四倍，再经过一个轻量级的神经网络映射回原来的维度，完成压缩。经过这两步，原本N个格子变成了N/4个格子，序列长度缩短为原来的四分之一。

然而，如何初始化这个压缩器，才是解决"破坏原有特征体系"问题的关键所在。团队采用了一个极其聪明的策略：**直接复用压缩器插入位置前一层的预训练权重来初始化D**。

具体来说，窗口注意力部分的参数直接拷贝自相邻的编码器层，只是把原本的全局注意力换成了局部的2×2窗口注意力（注意力机制的权重本身不变）。融合MLP部分的参数则被构造成：模拟"把前一层的前馈网络独立应用于窗口内每个格子，然后取平均"的操作——这在数学上是可以通过特定的权重矩阵构造实现的。这样一来，在训练刚开始的第一步，这个压缩器的行为就已经非常接近于"先走一遍相邻层的计算，再做平均合并"，而不是随机噪声。系统从一个接近合理的起点开始微调，而不是从一片混乱中重新摸索。

团队经过实验确定，将压缩器插入在编码器第6层之后（SigLIP 2编码器共有若干层），是效果和效率的最优平衡点。插得太早（比如第3层之后）会导致灾难性的性能崩溃——平均得分从约70分跌落到不足40分，因为编码器前几层刚刚开始处理图片的原始像素信息，尚未形成有语义意义的特征，此时强行合并等于直接销毁原始信息。插在第9层或第15层之后则效果略低于第6层，而且节省的计算量也更少（因为越靠后，前面已经走完的层就越多）。第6层恰好处于一个"甜蜜点"：编码器已经积累了足够的语义特征，格子之间的合并是安全的；而后续还有大量计算层需要走完，将它们的格子数量压缩到四分之一所节省的计算量极为可观。

整个LLaVA-UHD v4的完整流程如下：一张高清图片先被切分成缩略图加若干高清切片，分别送入视觉编码器；编码器走完前6层之后，压缩器D将每张切片的格子数量压缩为四分之一；编码器剩余的层在这个四分之一的格子数量上继续计算；编码器输出后，MLP压缩器再次将格子数量压缩到原来的四分之一；最终送入语言模型的格子数量是初始格子总数的十六分之一，而视觉编码器内部后续各层的计算量也降低到了原来的约四分之一。

**五、实验结果：数字说话**

研究团队用五种不同规模的训练数据（从400万到6400万样本）对LLaVA-UHD v4和"仅用编码器后压缩"的基准方案进行了系统比较，评测在八项标准测试上展开。

计算量方面的改善非常直观。处理一张切片所需的视觉编码计算量，从基准方案的3555G FLOPs降低到1573G FLOPs（FLOPs是衡量计算量的单位），降幅达55.75%。换句话说，完成同样的视觉编码任务，只需要原来不到一半的计算资源。

性能方面的表现同样令人满意。在五个训练规模设置下，LLaVA-UHD v4的平均得分与基准方案的差距始终在±0.8分以内，平均偏差仅为-0.29分——几乎可以忽略不计。随着训练数据从400万扩大到6400万，两个系统都在持续进步，LLaVA-UHD v4从67.4分提升到75.6分，基准方案从68.2分提升到76.2分，彼此的差距并没有随着训练规模扩大而系统性地拉大，说明这种压缩设计不会在更大规模训练下变成短板。

具体到各项测试，两个系统互有胜负。LLaVA-UHD v4在数学视觉推理（MathVista）测试上，用6400万数据训练时反而略高于基准方案（76.9对76.3）；在中文多模态理解（MMBenchCN）测试上，用6400万数据训练时二者基本持平（86.5对86.4）。基准方案在某些通用视觉问答测试上略有优势，但差距普遍很小。

团队还对压缩器的各种设计变体做了详细对比。仅仅使用最简单的平均池化方法（直接把四个格子的值取平均合并）插入编码器内部，平均得分会从70.6分降到69.6分；稍复杂一些的随机初始化MLP压缩器可以恢复到69.8分，但依然低于基准方案。只加入参数复用初始化（不加窗口注意力）能提升到69.9分；只加入窗口注意力（不做参数复用，随机初始化MLP）可以提升到70.1分。当两者同时使用时，得分达到70.7分，不仅回到了基准方案的水平，还略微超过了它。研究团队把这个现象描述为"超加法效应"：两种机制合在一起的效果，超过了各自单独效果的简单叠加。原因在于，窗口注意力让相邻格子在合并前充分交流，而参数复用初始化让合并后的格子恰好处于后续编码器层所"期待"的特征空间中——两者缺一不可，单独使用任何一个都不能充分解决"压缩之后特征不兼容"的问题。

**六、研究的局限与未来方向**

这支研究团队对自己工作的局限也有清醒的认识，并在论文中坦诚地列出了几点值得注意的地方。

当前的压缩器对图片所有区域一视同仁，以固定的比例进行压缩，无论某个区域是密密麻麻的文字还是纯色的背景。更理想的方案应该能根据内容的复杂程度动态调整——对信息密集的区域保留更多格子，对信息稀疏的区域更激进地合并。这种"按需分配"的动态压缩是一个值得探索的方向。

此外，压缩器插入的最佳位置（第6层）是专门针对SigLIP 2这个特定的视觉编码器测试得出的结论，换用其他结构不同或层数更多的编码器时，可能需要重新确定这个参数。

切片编码虽然在细节感知上表现出色，但它天然地把图片切成了若干独立处理的块，不同切片之间的空间关系主要靠一张低分辨率的缩略图来"兜底"。对于某些需要跨越大范围区域才能理解的视觉问题，这种方式仍然存在一定的信息损失。

归根结底，这项研究最重要的贡献，或许不仅仅在于LLaVA-UHD v4这个具体系统，而在于它通过严谨的实验证明了两件让业界重新思考的事情：那个被默认为"更好"的全局编码方案，实际上未必比切片编码更优；以及，那个被视为"难以逾越"的视觉编码器内部压缩难题，通过参数复用初始化的巧妙设计是可以安全解决的。当处理高清图片所需的计算量可以砍去一半以上，而效果几乎不打折扣，这意味着未来AI助手在手机上实时分析高清照片、在低功耗设备上理解复杂文档，都变得更加可期。算力不再是拦路虎，细节感知的极限也可以持续向前推进。

Q&A

Q1：切片编码和全局编码有什么本质区别，为什么切片编码反而更好？

A：全局编码是把整张图片一次性送入视觉编码器处理，所有区域在同一个注意力空间里相互竞争计算资源。切片编码则把大图分成若干小块分别处理，编码器在每个小块内能更集中地挖掘局部细节。实验表明，对于文字识别、文档理解等需要精细感知的任务，这种"局部专注"的方式比全局注意力更有效，在OCRBench测试中领先差距可达3.6到5.5分。

Q2：LLaVA-UHD v4的参数复用初始化具体是怎么做的？

A：在视觉编码器第6层之后插入压缩模块时，该模块的全部参数都直接从相邻的第6层预训练权重复制而来，而非随机初始化。窗口注意力部分直接拷贝第6层的注意力权重，融合MLP部分则被构造成模拟"对窗口内四个格子各跑一次第6层前馈网络然后取平均"的数学等效操作。这样训练一开始，压缩模块的行为就接近合理状态，不会破坏后续编码器层所依赖的特征分布。

Q3：LLaVA-UHD v4减少的55.75%计算量具体体现在哪里？

A：减少的计算量主要来自视觉编码器内部。压缩模块在编码器第6层之后就把格子数量降低到四分之一，编码器后续的所有层都只需要处理原来四分之一数量的格子。由于编码器内部的计算量和格子数量的平方成正比，格子数量变为四分之一后，后续各层的计算量大约降低到原来的十六分之一，整体下来视觉编码的总计算量从3555G FLOPs降至1573G FLOPs，降幅为55.75%。

查看全文

http://www.jsqmd.com/news/829692/