当前位置：首页 > news >正文

【ICLR26-Oral Paper-马普所】AnyUp：通用特征上采样

news 2026/3/27 1:51:06

文章：AnyUp: Universal Feature Upsampling

代码：https://github.com/wimmerth/anyup

单位：马克斯·普朗克信息学研究所、苏黎世联邦理工学院、谷歌、慕尼黑工业大学

视觉特征上采样的核心需求，是把低分辨率特征图精准放大到高分辨率，同时保留原特征的语义和细节信息，适配各类下游视觉任务。但在此之前，主流的两类方法都各有致命问题：

传统无学习方法：如双线性插值、最近邻插值，虽能适配任意特征模型、任意分辨率，却会让放大后的特征图过度模糊，丢失大量细节，导致下游任务效果大打折扣；
现有有学习方法：如FeatUp、LoftUp、JAFAR，虽提升了上采样质量，但模型绑定性极强，换一个特征提取模型就需要重新训练，不仅耗费大量算力，对最新的大视觉模型而言，重新训练甚至难以实现。同时部分方法还受限于固定的放大比例、特定的下游任务，灵活性极差。

简单来说，此前的方法要么“通用但效果差”，要么“效果好但不通用”，行业急需一个能兼顾通用性、高质量、高灵活性的特征上采样方法。

为了解决上述痛点，研究团队提出了AnyUp通用特征上采样模型，核心实现了一次训练，全场景适配，其创新点主要集中在四个核心设计，从底层架构到训练策略全方位优化：

特征无关层：这是AnyUp实现“万能适配”的核心，能将任意模型、任意维度的输入特征，转换成统一的规范格式处理，从根源上解决了传统方法需要绑定特定特征提取模型的问题；
局部窗口注意力机制：摒弃了传统的全局注意力，让模型仅关注每个像素周围的局部区域，避免放大时参考图片中无关的远区域信息，既提升了上采样的精准度，又降低了计算量，让模型更高效；
基于图片局部裁剪的训练策略：无需在超大分辨率图片上做训练（既慢又费算力），而是随机截取图片的局部区域进行训练，大幅提升训练效率和内存利用率，同时保证训练效果；
双重一致性正则化：训练时加入自一致性和输入一致性正则化，不仅让模型对噪声和图像增强更鲁棒，还能最大程度保留原特征的空间分布，避免语义信息失真。

整体而言，AnyUp的架构轻量、参数少，既保留了有学习方法的高上采样质量，又具备了无学习方法的全场景通用性。

研究团队在ImageNet数据集上训练AnyUp，并在语义分割、深度估计、表面法向量估计等多个主流视觉任务上做了全面测试，对比了双线性插值、FeatUp、LoftUp、JAFAR等主流方法，结果表现亮眼：

下游任务效果领先：在COCO、ADE20k、PASCAL VOC等数据集的语义分割任务中，AnyUp的mIoU和像素准确率均为最优；在NYUv2等数据集的深度、表面法向量估计中，误差更低、预测准确率更高，细节保留更完整；
任意分辨率放大表现优异：无论调整输入特征的分辨率和目标放大比例，AnyUp在各比例下的表现均碾压或持平其他方法，完全摆脱了固定放大比例的限制；
特征分布保留最佳：用低分辨率特征训练的任务模型，直接用到AnyUp放大的高分辨率特征上，无需微调即可高效运行，而其他方法要么效果暴跌，要么完全无法适配；
泛化能力超强：用DINOv2训练的AnyUp，直接迁移到SigLIP 2、DINOv3、ResNet等从未训练过的特征模型上，效果居然和专门用这些模型训练的其他方法持平甚至更优，真正实现了跨模型的零成本适配。

同时可视化结果显示，AnyUp放大后的特征图边缘更锐利、细节更丰富，无过度平滑、特征偏移等问题，而其他方法均存在不同程度的失真。