当前位置: 首页 > news >正文

TPAMI 2026 | 线性复杂度全局建模!ATD-U 多尺度变体攻克图像去噪与 JPEG 去伪影难题

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

在图像超分辨率、去噪、JPEG去块等底层视觉任务中,Transformer凭借强大的长程依赖建模能力成为主流架构,但始终绕不开一个核心难题:自注意力的二次计算复杂度,迫使多数方法将注意力限制在局部窗口,导致感受野有限、性能难以突破。近期发表的ATD(Adaptive Token Dictionary)模型,为解决这一痛点提供了全新思路——通过引入自适应令牌字典,以线性复杂度实现全局依赖建模,在多个图像复原任务中刷新SOTA,还兼顾了计算效率!

论文信息

题目: ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration
基于自适应令牌字典改进的图像复原Transformer
作者: Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu

一、痛点直击:现有Transformer为何"力不从心"?

图像复原的核心是从退化图像中重建高质量内容,而Transformer的自注意力本是捕捉图像自相似性的利器,但二次计算复杂度让它陷入两难:

  • 局部窗口注意力:把注意力限制在小窗口内,虽降低计算量,却只能捕捉局部特征,面对复杂纹理、重复结构的图像,无法利用全局相似信息;

  • 扩大窗口/稀疏注意力:扩大窗口会导致计算量暴增,稀疏注意力虽实现全局交互,却易丢失特征相关性,难以平衡性能与效率。

传统字典学习方法虽能挖掘图像先验,但无法与Transformer架构高效融合。ATD的核心巧思,正是将字典学习与Transformer注意力机制结合,既引入外部先验,又实现全局高效建模。

二、ATD核心框架:全局建模的关键设计

先来看ATD的整体架构(图2),无论是面向超分辨率的ATD基础版,还是面向去噪/去块的ATD-U(U-Net变体),都遵循"浅层特征提取-深层特征提取-图像重建"三阶段设计,核心亮点集中在深层特征提取的ATD Transformer层,包含令牌字典交叉注意力(TDCA)、自适应类别化多头自注意力(AC-MSA)、类别感知前馈网络(CFFN)三大核心模块,且全程保持线性计算复杂度。

图2:ATD(左)与ATD-U(右)整体架构图,前者为残差中的残差结构,后者为U型编码器-解码器结构,均集成核心注意力模块

1. 令牌字典交叉注意力(TDCA):引入外部图像先验

不同于传统自注意力只关注图像内部特征,ATD先构建一个可学习的令牌字典——这个字典就像"图像结构百科",从海量训练数据中学习典型的图像结构模式,作为外部先验知识。

TDCA让输入图像特征与令牌字典做交叉注意力交互:通过余弦相似度计算输入特征与字典条目的相关性,筛选出最匹配的字典条目来增强输入特征。为解决注意力权重稀释问题,ATD还对缩放因子做了对数缩放优化,让模型能精准聚焦最相关的字典条目(图4),就像查字典时只锁定与目标最匹配的词条,而非模糊匹配。

图4:TDCA注意力权重可视化,优化后注意力值区分度显著提升,模型能精准聚焦最相关字典条目

2. 自适应类别化多头自注意力(AC-MSA):全局聚合相似特征

有了令牌字典的"类别指引",ATD不再按空间坐标划分注意力窗口,而是根据输入特征与字典条目的相关性,将特征分成不同类别——同一类别的特征对应图像中结构相似的区域,哪怕这些区域分布在图像的不同位置(图5)。

图5:AC-MSA类别划分流程,先按字典相关性分大类,再均分小子类,实现全局相似特征聚合

这种"内容感知"的分组方式,让注意力能跨局部窗口,全局聚合相似特征。对比传统窗口注意力(图6b),AC-MSA的注意力组遍布整个图像(图6c/d),哪怕是建筑纹理、文字图案这类跨区域重复的结构,也能被精准捕捉,彻底突破局部感受野的限制。

图6:不同自注意力机制对比,(b)窗口注意力局限于局部,(c/d)AC-MSA实现全局相似特征聚集

3. 类别感知前馈网络(CFFN):自适应融合先验与特征

为了让外部字典先验更好地融入特征变换,ATD将每个输入特征对应的最相关字典条目作为"类别信息",嵌入到前馈网络中。这样一来,网络能根据不同类别的特征,自适应调整变换方式,进一步强化特征融合效果,让复原后的图像细节更精准。

三、实验结果:多任务刷新SOTA,效率性能双优

ATD团队针对图像超分辨率、去噪、JPEG去块三大任务做了全面验证,无论是定量指标还是视觉效果,都展现出显著优势。

1. 图像超分辨率:性能与效率兼得

  • 定量表现:ATD在Urban100、Manga109等经典数据集上全面超越HAT、MambaIRv2等SOTA方法,轻量级版本ATD-light也在轻量模型中登顶(表1/表2);

  • 计算效率:对比同类方法,ATD的GPU内存占用比HAT少30%,推理速度比MambaIRv2快25-50%,FLOPs仅小幅增加20%,却能实现最高0.35dB的性能提升(表3);

  • 视觉效果:面对高频细节严重退化的图像(如图7),ATD能重建出更清晰的纹理和几何结构,而其他方法易出现模糊、伪影问题。

图7:超分辨率视觉对比,ATD能精准恢复高频细节,优于MambaIRv2、HAT等方法

2. 去噪与JPEG去块:全局建模显威力

针对图像去噪(表7/表8)和JPEG压缩伪影去除(表9)任务,基于U-Net的ATD-U变体表现同样亮眼:

  • 去噪任务:在彩色/灰度图像去噪的多个数据集、不同噪声水平下,ATD-U均优于ART、MambaIR等方法,尤其在高分辨率图像上提升更明显;

  • JPEG去块:在Classic5、Urban100数据集上,ATD-U在低质量因子(如q=10)下仍能有效去除压缩伪影,恢复清晰纹理(图8/9/10)。

图8:图像去噪视觉对比,ATD-U有效去除噪声,恢复清晰边缘和纹理

图9:JPEG去块视觉对比,ATD-U能消除压缩伪影,还原图像细节

图10:高分辨率图像去块效果,ATD-U在复杂纹理区域表现更优

3. 消融实验:核心模块缺一不可

消融实验(表4)验证了TDCA、AC-MSA、CFFN的有效性:TDCA引入外部先验,AC-MSA实现全局建模,CFFN强化特征融合,三者结合让模型达到最佳性能;同时,字典大小、子类别大小等超参数的调优(表5/表6),也进一步平衡了性能与计算开销。

四、总结:为图像复原Transformer开辟新方向

ATD的核心贡献,在于将传统字典学习与Transformer注意力机制深度融合,通过自适应令牌字典实现了"外部先验引入-全局特征聚合-自适应特征融合"的全流程优化,既突破了局部窗口注意力的限制,又保持了线性计算复杂度。

无论是超分辨率的ATD/ATD-light,还是多任务的ATD-U,都在多个基准测试中证明了自身的优越性,为图像复原任务提供了更高效、更精准的解决方案。未来,这一思路还可拓展到更多底层视觉任务,甚至为其他Transformer架构的效率优化提供参考——毕竟,在追求高性能的同时,兼顾实用性,才是算法落地的关键。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

http://www.jsqmd.com/news/560481/

相关文章:

  • IDC 数据中心工程师面试题汇总
  • 网安实验系列六:.svn源代码泄露
  • 别光看手册了!手把手教你用MDIO工具调试PHY寄存器(附实战案例)
  • 对于对话中的用户长期兴趣建模,OpenClaw 的序列推荐方法?
  • 网络通信优化:确保Pixel Dream Workshop云端API的高可用与低延迟
  • 如何快速部署和使用Kafka Connect UI:完整配置指南
  • 在职想要快速出分,怎么选托福机构?实测记住这几点就好 - 速递信息
  • 从魔搭社区到本地服务:保姆级教程在Ubuntu上跑通阿里通义千问(vLLM推理引擎详解)
  • 5个问题带你解锁Audacity:这款开源音频神器如何重塑你的声音创作?
  • 深入解析MII、RMII、GMII、RGMII接口:硬件设计中的关键选择与优化
  • springboot+vue基于web的蜜蜂养殖场管理系统的设计与实现
  • 双系统党必看:Ubuntu22.04和Win11在联想Yoga上的和平共处方案
  • 2026年杭州会计师事务所推荐:高新科技企业研发费用审计高性价比选择指南 - 十大品牌推荐
  • 终极太吾绘卷Mod安装指南:从零开始的完整教程
  • 别再死记硬背了!用一张图+生活例子,彻底搞懂BLE蓝牙协议栈(附GAP/GATT核心概念解析)
  • OpenCV实战:用Python+SIFT特征匹配,5分钟搞定基础矩阵F的计算与可视化
  • 如何快速清理Windows 11系统:完整免费优化方案
  • PaddleOCR实战:5分钟搞定批量图片文字识别并导出TXT(附完整代码)
  • SOONet模型Keil5嵌入式开发联动:定位调试过程中的关键事件视频
  • 油头狂喜!洗1次撑5天不油,发根直接立起来❗️ - 新闻快传
  • 音频编辑成本高且操作复杂?用Audacity开源工具实现专业级音频处理效率提升
  • Javase(一) 基础语法篇
  • Audio Pixel Studio环境部署:Conda虚拟环境隔离音频依赖避免版本冲突
  • UltraISO虚拟光驱加载失败?Win7虚拟机下5分钟快速修复指南
  • 跨时代兼容:在64位Windows系统中激活16位程序的完整方案
  • BepInEx完全指南:游戏扩展开发的4个实战维度
  • HARMONYOS应用实例248:立体几何展开与折叠演示
  • 全自动浇筑硅碳棒熔样机哪个品牌好?优质品牌深度评测 - 品牌推荐大师
  • 基于映翰通IG502的智能低压配电联网解决方案
  • CLIP-GmP-ViT-L-14图文匹配工具部署教程:Ubuntu 22.04 + Python 3.10 完整环境配置