YOLO11/12/26/DEIM/RTDETR:选择性频率残差门控SFRG(自研独家),通过“低频看全局、高频看细节”的互补共振,把小目标成倍放大、把遮挡部分用全局语义补齐、抑背景噪声。
大家平时接触的工业缺陷检测、安防监控画面、卫星遥感影像中,普遍存在 "特征分布极度不均" 的问题:大面积无意义的背景区域占据了绝大多数像素,而真正需要关注的微小划痕、远处行人、细小地物等关键目标只占画面极小部分;同时,不同区域的特征频率差异巨大 —— 光滑金属表面、天空背景属于低频区域,缺陷纹理、目标轮廓属于中频区域,而传感器噪声、压缩伪影则集中在高频区域。传统卷积神经网络对所有区域一视同仁地进行相同强度的特征提取,导致大量算力浪费在无用背景上,关键小目标的特征反而被淹没;残差连接虽然缓解了梯度消失问题,但不加区分地传递所有特征,会将背景噪声和冗余信息也一并传递到深层网络;注意力机制虽然能聚焦重要区域,但计算复杂度与特征图尺寸呈平方关系,在高分辨率工业检测和遥感任务中难以部署。在这样的行业痛点下,借鉴信号处理中的频率分解理论和残差学习思想设计的 SFRG 选择性频率残差门控模块应运而生,最初为解决高分辨率工业缺陷检测中的小目标漏检问题而提出,现已通用化到目标检测、图像分割、图像增强等几乎所有计算机视觉任务。
一、SFRG 研究背景
SFRG 全称 Selective Frequency Residual Gating,常规 CNN 使用固定的卷积核和残差连接,无法根据不同区域的频率特性动态调整特征提取强度,导致低频背景特征过度提取而高频细节特征提取不足;大核卷积网络虽然扩大了感受野,但全图使用相同的卷积权重,无法实现像素级的自适应特征筛选;频域卷积网络需要进行复杂的傅里叶变换和逆变换,不仅增加了计算开销,还容易在变换过程中丢失空间细节信息;注意力机制虽然能够自适应地分配权重,但计算复杂度高,且在高分辨率特征图上显存占用急剧增加。研究者结合频率分解与残差门控技术,提出了 SFRG 模块,通过将特征图分解为不同频率分量,再利用可学习的门控机制选择性地传递和增强有用频率分量,同时抑制无用频率分量,在保持极低计算复杂度的前提下,实现了像素级的自适应特征提取。
二、SFRG 核心原理
SFRG 的卓越性能来源于以下四个核心创新点:
自适应谱分解(Adaptive Spectral Partition):摆脱固定核的连续多尺度
传统的视觉模块(如 ConvNeXt 的大核卷积或 Inception 的多分支)往往使用固定的多尺度卷积核来捕获不同频率的信息。SFRG 认为,固定的核大小限制了尺度的连续调节。因此,它引入了可学习的谱分解路径:
低频通路(低通):利用平均池化下采样降低分辨率(过滤高频),经过深度卷积(DWConv)局部平滑后,再双线性插值恢复,并配以可学习的缩放因子 scale。
高频通路(高通):直接用原始输入减去低频分量(残差思想),得到细节和边缘特征,同样配以可学习的缩放因子 scale_high。
这样,网络可以根据任务目标,自动且连续地调节低频和高频的解耦强度。
共振门控机制(Resonance Gating):跨谱场的能量驱动
在解耦出低频和高频特征后,它们不应该是独立演进或简单相加的。SFRG 提出了“共振耦合”:
低频能量高时(背景或大块结构明确)rightarrow产生强门控信号去激发高频路径,使其更加关注边缘细节(共振激发);
高频能量高时(边缘或纹理丰富)rightarrow反向产生门控信号去增强低频路径,稳定其空间结构(共振锚定)。
这种双向交叉门控(通过 1x1 卷积与 Sigmoid 激活实现)使得高低频特征在融合前实现了深度的协同增强。
双残差两条龙拓扑(Double-Residual Cascade):空间与通道独立精炼
SFRG 采用了先空间、后通道的串联双残差架构(类似于 Transformer 中 Transformer Block 内部先自注意力、后 MLP 的级联方式)。
分支 1(空间分支):专门负责在空间维度上,利用大核深度卷积和方向可分离卷积分别增强低频和高频场的空间分布。
分支 2(通道分支):复用谱分解思想(代码中保留了演进拓扑),采用门控通道混合机制(Gated Channel Mixing,即利用 SiLU( 的多门控交互)来实现跨通道的非线性特征交互。
规范化与稳定化技术(Normalization & Scaling)
模块在空间和通道分支的尾部均嵌入了全局响应归一化(GRN),用以抑制通道间的特征饱和与竞争,提升特征的动态范围。同时,引入LayerScale(层缩放,即 gamma_dw 和 gamma_pw)技术,在残差加和前初始化为一个极小的值(如 10^{-6}),极大地稳定了深层网络的训练初期。
三、SFRG 模块内部结构
阶段 1:空间分支(Branch 1)
层归一化:输入特征图首先通过
norm_dw(GroupNorm,默认最大分组 32)进行通道规范化。送入核心 SFU(谱场单元):
分解:特征图被
AdaptiveSpectralPartition分解为低频特征 Low和高频特征 High。共振:Low输入
gate_l2h生成高频门控权重,去乘以 High;同时 High输入gate_h2l生成低频门控权重,去乘以 Low。完成双向共振调制。独立空间增强:调制后的低频特征通过 7x7 和 5x5 的大核深度卷积捕获大范围的宏观结构;高频特征则通过串联的 1x7 和 7x1方向可分离卷积显式捕捉水平和垂直的边缘方向。
投影融合:增强后的高低频特征拼接(
cat)在一起,通过 1x1 卷积fuse_proj压缩回原始通道数,并与 SFU 的初始输入通过可学习的混合权重 fuse_alpha进行自适应残差融合。
激活与非线性规范:SFU 的输出依次通过
GELU激活函数和GRN(全局响应归一化)层。层缩放与残差聚合:特征图乘以空间层缩放系数 gamma_dw,通过
DropPath随机深度机制后,与最原始的输入 X相加,得到空间分支的阶段性输出 X。
阶段 2:通道分支(Branch 2)
层归一化:阶段性特征 X通过 GroupNorm进行规范化。
通道放大与多通路拆分:利用 1x1点卷积
pw_in将通道数放大到扩展维度(通常为 C),并在通道维度均匀切分为两路:控制支 u和特征支v。门控通道混合(Gated Mixing):
特征支 v通过一个轻量级的 3x3深度卷积(
dw_v)捕获局部的通道空间上下文。控制支u经过
SiLU激活函数,与更新后的 v进行逐元素相乘(门控混合)。
通道重投影与规范化:通过 1x1点卷积
pw_out将通道数压缩回原始的 C,随后再次送入GRN规范化层。最终残差聚合:乘以通道层缩放系数 gamma_pw,通过
DropPath之后,与阶段性输入 X 相加,得到最终的输出特征图 Y。
三、 参数与计算效率总结
尽管 SFRG 设计了复杂的空间与通道解耦机制,但它在计算效率上进行了巧妙的优化:
彻底的深度卷积化:无论是低通平滑、空间大核增强、高频方向增强,还是通道分支的空间微调,内部所有涉及 $3\times3, 5\times5, 7\times7, 1\times7$ 的空间卷积全部为纯深度卷积(DWConv),开销极低。
门控压缩:在共振门控层(
ResonanceGate)中,引入了num_groups(默认 4)将通道大幅度压缩降维后计算门控,随后再通过 $1 \times 1$ 卷积恢复,这使得两层复杂的空间注意力所需的参数量缩减了 4 倍。参数量对齐:其整体参数量与传统的 ConvNeXt 块或标准的 FFN 模块完全相当,但其对特征的频域表达和跨模态增强能力要强大得多。
四、横向对比现有主流卷积模块
| 模块类型 | 计算复杂度 | 自适应能力 | 细节保留能力 | 背景抑制能力 | 部署难度 |
|---|---|---|---|---|---|
| 标准卷积 | 低 | 无 | 一般 | 差 | 极易 |
| 残差块 | 低 | 无 | 一般 | 差 | 极易 |
| 大核卷积 | 中 | 无 | 较好 | 一般 | 容易 |
| 注意力模块 | 高 | 强 | 好 | 好 | 困难 |
| 频域卷积 | 中 | 一般 | 差 | 较好 | 中等 |
| SFRG 模块 | 极低 | 强 | 极好 | 极好 | 极易 |
五、SFRG 应用在目标检测的优势
嵌入检测器主干、颈部、检测头后,针对检测任务中小目标漏检、背景误检、多尺度目标检测精度不均衡等痛点优势突出。依托多频率分量分解和选择性残差传递机制,SFRG 模块能够精准地提取小目标的中频轮廓特征,同时抑制大面积背景的低频冗余信息和高频噪声,显著提高小目标的检测精度;在大目标检测方面,模块能够自适应地调整感受野大小,融合多尺度特征,确保大目标的语义信息完整;同时,SFRG 模块的计算复杂度极低,仅比标准残差块增加不到 5% 的参数量和计算量,在提升检测精度的同时,几乎不会影响模型的推理速度,既能用在云端高精度检测模型,也能完美适配工业相机、边缘计算盒子等资源受限的嵌入式设备。
六、SFRG 应用在图像分割的优势
应用于语义分割、实例分割、工业缺陷分割、医疗影像分割等场景时,完美解决了分割任务中 "全局语义与局部细节难以兼顾" 的核心难点。依靠精准的频率分解能力,SFRG 模块能够有效地保留物体边缘的中频细节信息,同时抑制背景噪声和伪影,显著改善分割边缘模糊、同类像素粘连的问题;通过自适应门控融合机制,模块能够在大片同语义区域降低特征提取强度,减少计算量,而在包含多个目标的复杂区域提高特征提取强度,确保分割精度;此外,SFRG 模块能够有效地缓解分割任务中常见的 "小目标分割缺失" 和 "大目标内部空洞" 问题,在不明显增加显存开销的前提下,大幅提升全图像素分割准确率和物体轮廓完整度。
总结
最开始 SFRG 设计用于高分辨率工业表面缺陷检测任务,解决了传统方法在微小缺陷检测中漏检率高、误检率高的问题。凭借其优秀的通用性和轻量化特性,SFRG 模块现已成功拓展到众多工业落地场景:工业缺陷检测、安防监控目标检测、卫星遥感地物分割、医疗影像病灶分割、自动驾驶环境感知五大落地方向。SFRG 模块兼顾了高精度与低算力的双重特性,不仅能够显著提升各种视觉任务的性能,还能够轻松部署在各种资源受限的嵌入式设备上,是一款具有极高理论价值和工程落地价值的新型卷积特征模块。
知乎:一勺汤
公众号:AI改进工坊
哔站:一勺AI帅汤
CSDN:一勺汤
YOLO11代码:YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve
YOLO12代码:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve
YOLO26代码:tgf123/YOLOv8_improve
视频讲解:YOLO11/12/26/DEIM/RTDETR:选择性频率残差门控SFRG(自研独家),通过“低频看全局、高频看细节”的互补共振,提小目标、遮挡精度_哔哩哔哩_bilibili
一勺AI帅汤的个人空间-一勺AI帅汤个人主页-哔哩哔哩视频
DEIM:超越 YOLO,快准双绝!DEIM:让 DETR 告别慢收敛,开启实时检测新纪元_哔哩哔哩_bilibili
YOLO11改进介绍和代码
YOLO12改进介绍和代码
YOLO26改进介绍和代码
