当前位置：首页 > news >正文

TPAMI 2026 | 线性复杂度全局建模！ATD-U 多尺度变体攻克图像去噪与 JPEG 去伪影难题

news 2026/6/13 17:30:38

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达

在图像超分辨率、去噪、JPEG去块等底层视觉任务中，Transformer凭借强大的长程依赖建模能力成为主流架构，但始终绕不开一个核心难题：自注意力的二次计算复杂度，迫使多数方法将注意力限制在局部窗口，导致感受野有限、性能难以突破。近期发表的ATD（Adaptive Token Dictionary）模型，为解决这一痛点提供了全新思路——通过引入自适应令牌字典，以线性复杂度实现全局依赖建模，在多个图像复原任务中刷新SOTA，还兼顾了计算效率！

论文信息

题目： ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

基于自适应令牌字典改进的图像复原Transformer

作者： Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu

一、痛点直击：现有Transformer为何"力不从心"？

图像复原的核心是从退化图像中重建高质量内容，而Transformer的自注意力本是捕捉图像自相似性的利器，但二次计算复杂度让它陷入两难：

局部窗口注意力：把注意力限制在小窗口内，虽降低计算量，却只能捕捉局部特征，面对复杂纹理、重复结构的图像，无法利用全局相似信息；
扩大窗口/稀疏注意力：扩大窗口会导致计算量暴增，稀疏注意力虽实现全局交互，却易丢失特征相关性，难以平衡性能与效率。

传统字典学习方法虽能挖掘图像先验，但无法与Transformer架构高效融合。ATD的核心巧思，正是将字典学习与Transformer注意力机制结合，既引入外部先验，又实现全局高效建模。

二、ATD核心框架：全局建模的关键设计

先来看ATD的整体架构（图2），无论是面向超分辨率的ATD基础版，还是面向去噪/去块的ATD-U（U-Net变体），都遵循"浅层特征提取-深层特征提取-图像重建"三阶段设计，核心亮点集中在深层特征提取的ATD Transformer层，包含令牌字典交叉注意力（TDCA）、自适应类别化多头自注意力（AC-MSA）、类别感知前馈网络（CFFN）三大核心模块，且全程保持线性计算复杂度。

图2：ATD（左）与ATD-U（右）整体架构图，前者为残差中的残差结构，后者为U型编码器-解码器结构，均集成核心注意力模块

1. 令牌字典交叉注意力（TDCA）：引入外部图像先验

不同于传统自注意力只关注图像内部特征，ATD先构建一个可学习的令牌字典——这个字典就像"图像结构百科"，从海量训练数据中学习典型的图像结构模式，作为外部先验知识。

TDCA让输入图像特征与令牌字典做交叉注意力交互：通过余弦相似度计算输入特征与字典条目的相关性，筛选出最匹配的字典条目来增强输入特征。为解决注意力权重稀释问题，ATD还对缩放因子做了对数缩放优化，让模型能精准聚焦最相关的字典条目（图4），就像查字典时只锁定与目标最匹配的词条，而非模糊匹配。

图4：TDCA注意力权重可视化，优化后注意力值区分度显著提升，模型能精准聚焦最相关字典条目

2. 自适应类别化多头自注意力（AC-MSA）：全局聚合相似特征

有了令牌字典的"类别指引"，ATD不再按空间坐标划分注意力窗口，而是根据输入特征与字典条目的相关性，将特征分成不同类别——同一类别的特征对应图像中结构相似的区域，哪怕这些区域分布在图像的不同位置（图5）。

图5：AC-MSA类别划分流程，先按字典相关性分大类，再均分小子类，实现全局相似特征聚合

这种"内容感知"的分组方式，让注意力能跨局部窗口，全局聚合相似特征。对比传统窗口注意力（图6b），AC-MSA的注意力组遍布整个图像（图6c/d），哪怕是建筑纹理、文字图案这类跨区域重复的结构，也能被精准捕捉，彻底突破局部感受野的限制。

图6：不同自注意力机制对比，(b)窗口注意力局限于局部，(c/d)AC-MSA实现全局相似特征聚集

3. 类别感知前馈网络（CFFN）：自适应融合先验与特征

为了让外部字典先验更好地融入特征变换，ATD将每个输入特征对应的最相关字典条目作为"类别信息"，嵌入到前馈网络中。这样一来，网络能根据不同类别的特征，自适应调整变换方式，进一步强化特征融合效果，让复原后的图像细节更精准。

三、实验结果：多任务刷新SOTA，效率性能双优

ATD团队针对图像超分辨率、去噪、JPEG去块三大任务做了全面验证，无论是定量指标还是视觉效果，都展现出显著优势。

1. 图像超分辨率：性能与效率兼得

定量表现：ATD在Urban100、Manga109等经典数据集上全面超越HAT、MambaIRv2等SOTA方法，轻量级版本ATD-light也在轻量模型中登顶（表1/表2）；
计算效率：对比同类方法，ATD的GPU内存占用比HAT少30%，推理速度比MambaIRv2快25-50%，FLOPs仅小幅增加20%，却能实现最高0.35dB的性能提升（表3）；
视觉效果：面对高频细节严重退化的图像（如图7），ATD能重建出更清晰的纹理和几何结构，而其他方法易出现模糊、伪影问题。

图7：超分辨率视觉对比，ATD能精准恢复高频细节，优于MambaIRv2、HAT等方法

2. 去噪与JPEG去块：全局建模显威力

针对图像去噪（表7/表8）和JPEG压缩伪影去除（表9）任务，基于U-Net的ATD-U变体表现同样亮眼：

去噪任务：在彩色/灰度图像去噪的多个数据集、不同噪声水平下，ATD-U均优于ART、MambaIR等方法，尤其在高分辨率图像上提升更明显；
JPEG去块：在Classic5、Urban100数据集上，ATD-U在低质量因子（如q=10）下仍能有效去除压缩伪影，恢复清晰纹理（图8/9/10）。

图8：图像去噪视觉对比，ATD-U有效去除噪声，恢复清晰边缘和纹理

图9：JPEG去块视觉对比，ATD-U能消除压缩伪影，还原图像细节

图10：高分辨率图像去块效果，ATD-U在复杂纹理区域表现更优

3. 消融实验：核心模块缺一不可

消融实验（表4）验证了TDCA、AC-MSA、CFFN的有效性：TDCA引入外部先验，AC-MSA实现全局建模，CFFN强化特征融合，三者结合让模型达到最佳性能；同时，字典大小、子类别大小等超参数的调优（表5/表6），也进一步平衡了性能与计算开销。

四、总结：为图像复原Transformer开辟新方向

ATD的核心贡献，在于将传统字典学习与Transformer注意力机制深度融合，通过自适应令牌字典实现了"外部先验引入-全局特征聚合-自适应特征融合"的全流程优化，既突破了局部窗口注意力的限制，又保持了线性计算复杂度。

无论是超分辨率的ATD/ATD-light，还是多任务的ATD-U，都在多个基准测试中证明了自身的优越性，为图像复原任务提供了更高效、更精准的解决方案。未来，这一思路还可拓展到更多底层视觉任务，甚至为其他Transformer架构的效率优化提供参考——毕竟，在追求高性能的同时，兼顾实用性，才是算法落地的关键。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

查看全文

http://www.jsqmd.com/news/560481/