当前位置: 首页 > news >正文

【ICLR26-Oral Paper-马普所】AnyUp:通用特征上采样


文章:AnyUp: Universal Feature Upsampling

代码:https://github.com/wimmerth/anyup

单位:马克斯·普朗克信息学研究所、苏黎世联邦理工学院、谷歌、慕尼黑工业大学


一、问题背景

视觉特征上采样的核心需求,是把低分辨率特征图精准放大到高分辨率,同时保留原特征的语义和细节信息,适配各类下游视觉任务。但在此之前,主流的两类方法都各有致命问题:

  1. 传统无学习方法:如双线性插值、最近邻插值,虽能适配任意特征模型、任意分辨率,却会让放大后的特征图过度模糊,丢失大量细节,导致下游任务效果大打折扣;

  2. 现有有学习方法:如FeatUp、LoftUp、JAFAR,虽提升了上采样质量,但模型绑定性极强,换一个特征提取模型就需要重新训练,不仅耗费大量算力,对最新的大视觉模型而言,重新训练甚至难以实现。同时部分方法还受限于固定的放大比例、特定的下游任务,灵活性极差。

简单来说,此前的方法要么“通用但效果差”,要么“效果好但不通用”,行业急需一个能兼顾通用性、高质量、高灵活性的特征上采样方法。

二、方法创新

为了解决上述痛点,研究团队提出了AnyUp通用特征上采样模型,核心实现了一次训练,全场景适配,其创新点主要集中在四个核心设计,从底层架构到训练策略全方位优化:

  1. 特征无关层:这是AnyUp实现“万能适配”的核心,能将任意模型、任意维度的输入特征,转换成统一的规范格式处理,从根源上解决了传统方法需要绑定特定特征提取模型的问题;

  2. 局部窗口注意力机制:摒弃了传统的全局注意力,让模型仅关注每个像素周围的局部区域,避免放大时参考图片中无关的远区域信息,既提升了上采样的精准度,又降低了计算量,让模型更高效;

  3. 基于图片局部裁剪的训练策略:无需在超大分辨率图片上做训练(既慢又费算力),而是随机截取图片的局部区域进行训练,大幅提升训练效率和内存利用率,同时保证训练效果;

  4. 双重一致性正则化:训练时加入自一致性和输入一致性正则化,不仅让模型对噪声和图像增强更鲁棒,还能最大程度保留原特征的空间分布,避免语义信息失真。

整体而言,AnyUp的架构轻量、参数少,既保留了有学习方法的高上采样质量,又具备了无学习方法的全场景通用性。

三、实验结果

研究团队在ImageNet数据集上训练AnyUp,并在语义分割、深度估计、表面法向量估计等多个主流视觉任务上做了全面测试,对比了双线性插值、FeatUp、LoftUp、JAFAR等主流方法,结果表现亮眼:

  1. 下游任务效果领先:在COCO、ADE20k、PASCAL VOC等数据集的语义分割任务中,AnyUp的mIoU和像素准确率均为最优;在NYUv2等数据集的深度、表面法向量估计中,误差更低、预测准确率更高,细节保留更完整;

  2. 任意分辨率放大表现优异:无论调整输入特征的分辨率和目标放大比例,AnyUp在各比例下的表现均碾压或持平其他方法,完全摆脱了固定放大比例的限制;

  3. 特征分布保留最佳:用低分辨率特征训练的任务模型,直接用到AnyUp放大的高分辨率特征上,无需微调即可高效运行,而其他方法要么效果暴跌,要么完全无法适配;

  4. 泛化能力超强:用DINOv2训练的AnyUp,直接迁移到SigLIP 2、DINOv3、ResNet等从未训练过的特征模型上,效果居然和专门用这些模型训练的其他方法持平甚至更优,真正实现了跨模型的零成本适配。

同时可视化结果显示,AnyUp放大后的特征图边缘更锐利、细节更丰富,无过度平滑、特征偏移等问题,而其他方法均存在不同程度的失真。

四、优势与局限

核心优势

  1. 全维度通用:适配任意特征提取模型、任意输入输出分辨率、任意下游视觉任务,一次训练即可全场景使用,大幅降低算力和开发成本;

  2. 高上采样质量:相比传统方法,保留更多特征细节和语义信息,相比现有有学习方法,下游任务效果更优;

  3. 高效易用:模型轻量,训练效率高(单张NVIDIA H100 GPU仅需5小时),且作者已公开代码和预训练权重,可直接开箱即用;

  4. 特征保留性好:最大程度维持原特征的空间分布和语义信息,无需对下游任务模型做微调,适配成本极低。

现存局限

  1. 暂未结合特征去噪功能,无法处理特征图中的位置编码伪影,不过该功能可后续简单集成到AnyUp的流程中;

  2. 其核心放大逻辑是通过低分辨率特征的线性组合生成高分辨率特征,若想提取更精细的子像素级信息,需要设计更复杂的模型架构。

五、一句话总结

AnyUp作为首个推理时特征无关的通用视觉特征上采样模型,通过特征无关层、局部窗口注意力等创新设计,实现了任意特征、任意分辨率、任意任务的全场景适配,既保证了顶尖的上采样质量和特征保留能力,又具备轻量高效、开箱即用的特性,为各类需要高分辨率视觉特征的计算机视觉任务提供了全新的通用解决方案。

http://www.jsqmd.com/news/380034/

相关文章:

  • Fish Speech 1.5实战:为视频创作添加多语言旁白
  • 2026年防火监控塔厂家推荐:工艺避雷塔/景区监控塔/森林防火监控塔/监控铁塔/瞭望监控塔/装饰避雷塔/角钢监控塔/选择指南 - 优质品牌商家
  • 基于Moondream2的零售商品识别系统
  • 造相-Z-Image-Turbo亚洲美女LoRA:5分钟快速生成高质量动漫风格图片
  • DeepSeek-OCR-2实战:古籍文献数字化处理技巧
  • Qwen3-ASR-1.7B一文详解:17亿参数模型的量化部署(INT4/FP16)实践
  • Ubuntu系统优化:为浦语灵笔2.5-7B模型部署做准备
  • AI研究助手DeerFlow:快速生成PPT和播客教程
  • 思科:动态NAT在企业网络负载均衡中的实战配置
  • Retinaface+CurricularFace与计算机网络:分布式人脸识别系统设计
  • Git-RSCLIP端口配置与外部访问完整指南
  • Qwen3-ASR-1.7B体验:长语音转文字的完美解决方案
  • GLM-Image与SpringBoot微服务:企业级图像生成平台
  • 大数据领域数据架构的Hive数据仓库应用
  • Magma智能体模型:快速上手的5个技巧
  • OFA模型一键部署教程:VSCode远程开发环境配置
  • Qwen3-TTS-Tokenizer-12Hz语音克隆伦理:合规使用指南
  • 黑马大模型RAG与Agent智能体实战教程LangChain提示词——20、RAG开发——理解Runnable接口(ChatTongyi继承自RunnableSerializable基类、MRO顺序)
  • ANIMATEDIFF PRO医疗应用:MRI影像动态可视化系统
  • BGE-Large-Zh+STM32嵌入式设备上的轻量化部署
  • DOCX转LaTeX工具:零代码配置实现格式无损转换
  • 2026年伦茨减速机厂家最新推荐:科尔摩根无框电机/科尔摩根电机/科尔摩根维修/科尔摩根驱动器/伦茨PLC/伦茨伺服/选择指南 - 优质品牌商家
  • BGE-M3效果展示:跨境电商独立站多语言产品页语义SEO优化实践案例
  • 老旧Mac升级受限?OpenCore Legacy Patcher突破限制实现系统焕新体验
  • LightOnOCR-2-1B从零部署教程:免配置镜像+16GB显存适配+多语言OCR落地
  • 语言教学新工具:用Qwen3-ForcedAligner制作发音时间轴教程
  • Pi0控制中心实战:用自然语言教机器人完成复杂任务
  • 从嘈杂到清晰:ClearerVoice-Studio语音增强案例展示
  • PDF-Parser-1.0效果实测:高精度识别PDF内容
  • Linux命令结合Qwen3-ASR-0.6B实现语音控制服务器