【RT-DETR实战】029、注意力机制改进:Transformer Encoder增强实战笔记
一、从一次深夜调试说起
上周三凌晨两点,产线视觉检测突然报错——产线上快速移动的小尺寸元件开始漏检。排查发现,当目标尺寸小于32×32像素时,RT-DETR的检测置信度会从0.8骤降到0.3以下。
打开热力图可视化,发现Encoder层对微小目标的注意力响应几乎散成了噪声。
问题定位在标准Transformer Encoder的全局注意力机制上:
当输入特征图分辨率较高时(如H/8 × W/8),每个像素都要和所有其他像素计算注意力,小目标的关键特征容易被背景噪声稀释。更麻烦的是,产线要求实时处理,直接增加Encoder层数会突破延迟预算。
二、注意力机制的三个实战改进方向
局部敏感注意力(LS-Attention)
标准自注意力的计算复杂度是O(N²),在640×640输入下,仅Encoder第一层的注意力矩阵就接近6400×6400。
我们尝试了滑动窗口注意力,但发现边界目标性能下降明显——窗口边缘的目标部分信息被截断。
最终采用的方案是重叠分块注意力:
classOverlapWindowAttention(nn