当前位置：首页 > news >正文

即插即用系列 | CVPR 2025 FDConv：频域动态卷积，打破密集预测任务的参数效率瓶颈

news 2026/6/30 3:48:57

论文标题：Frequency Dynamic Convolution for Dense Image Prediction

论文原文 (Paper)：https://openaccess.thecvf.com/content/CVPR2025/html/Chen_Frequency_Dynamic_Convolution_for_Dense_Image_Prediction_CVPR_2025_paper.html
代码 (code)：https://github.com/Linwei-Chen/FDConv

GitHub 仓库链接（包含论文解读及即插即用代码）：https://github.com/AITricks/AITricks
哔哩哔哩视频讲解：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

- - 1. 核心思想
  - 2. 背景与动机
  - - 2.1 文本背景总结
    - 2.2 动机图解分析
  - 3. 主要创新点
  - 4. 方法细节
  - - 4.1 整体网络架构
    - 4.2 核心创新模块详解
    - 4.3 理念与机制总结
    - 4.4 图解总结
  - 5. 即插即用模块的作用
  - 6. 实验部分简单分析
  - 7. 获取即插即用代码关注【AI即插即用】

1. 核心思想

本文针对现有动态卷积（Dynamic Convolution, 如 CondConv, ODConv）存在的参数冗余和核相似性高的问题，提出了一种名为FDConv (Frequency Dynamic Convolution)的新型算子。其核心思想是将卷积核的生成过程转移到傅里叶频域进行。通过在频域中学习一个固定的参数预算（Parameter Budget），并利用核空间调制 (KSM)和频带调制 (FBM)两种机制动态调整频率响应，最后通过逆傅里叶变换（IFFT）还原为空间卷积核。这种方法在大幅降低参数量的同时，显著提升了卷积核的频率多样性和表达能力。

2. 背景与动机

2.1 文本背景总结

动态卷积（Dynamic Conv）通过根据输入图像动态聚合多个并行卷积核（Experts），显著提升了模型的容量。然而，现有方法面临两个主要痛点：

参数爆炸：参数量随卷积核数量K KK线性增长（K × P a r a m s K \times ParamsK×Params），导致模型臃肿。
核同质化（High Similarity）：研究发现，训练好的多个动态核在空间上往往非常相似，这意味着大量的参数被浪费在了重复的特征提取上，并未真正提供多样性的“专家知识”。

2.2 动机图解分析

看图说话与痛点分析：

现有方法的局限性（左图）：传统的 DY-Conv 直接在空间域学习K KK个完整的卷积核。可视化显示，这些核的频率响应（频谱图）非常相似，说明它们都在关注类似的图像成分（比如都只看低频轮廓），缺乏互补性。
FDConv 的突破（右图）：FDConv 不直接存储空间核，而是存储频域系数。它将频域划分为不同的频带组（Frequency Groups），每个组负责不同的频率成分（互不相交）。通过组合这些正交的频率成分，FDConv 能够以极低的代价构建出形态各异、功能互补的空间卷积核，完美解决了“同质化”问题。

3. 主要创新点

频域参数预算 (Frequency Parameter Budget)：首创性地在频域定义卷积参数，利用傅里叶变换的性质，通过学习少量的频域系数来重构复杂的空间卷积核。
正交频率分组：将频域预算划分为互不相交的组（Disjoint Indices），确保生成的不同基核（Basis Kernels）在频谱上是正交互补的，最大化了特征提取的多样性。
双重调制机制：
- 核空间调制 (KSM)：在空间域动态调整卷积核的幅度。
- 频带调制 (FBM)：在频域动态调整不同频段的权重。两者协同工作，赋予了卷积核强大的自适应能力。
极致的参数效率：在保持甚至超越 SOTA 性能（如 ODConv）的前提下，参数量仅为传统动态卷积的1/K甚至更低。

4. 方法细节

4.1 整体网络架构

数据流详解：
FDConv 是一个可以直接替换nn.Conv2d的即插即用模块，其内部数据流如下：

输入 (Input)：特征图X XX。
注意力生成 (Attention Generation)：
- 利用全局平均池化（GAP）和全连接层（FC），从输入X XX中预测出两组动态系数：空间调制系数α \alphaα和频带调制系数β \betaβ。
频域核构建 (Frequency Kernel Construction)：
- 预定义一个可学习的频域张量W f W_fWf（Parameter Budget）。
- FBM 调制：利用系数β \betaβ对W f W_fWf的不同频带进行加权增强或抑制。
逆傅里叶变换 (IFFT)：
- 将调制后的频域张量通过 IFFT 变换回空间域，得到一组基卷积核（Basis Kernels）。
空间核聚合与调制 (Spatial Aggregation & KSM)：
- KSM 调制：利用系数α \alphaα对基卷积核进行空间层面的动态加权。
- 将加权后的核聚合为一个最终的动态卷积核W d y n a m i c W_{dynamic}Wdynamic。
卷积操作：使用W d y n a m i c W_{dynamic}Wdynamic对输入X XX进行标准卷积，输出结果。

4.2 核心创新模块详解

模块 A：频域权重生成与分组 (Frequency Weight Generation)

设计理念：利用 DFT 的共轭对称性，只需要存储一半的频域系数即可还原实数卷积核，节省一半参数。
分组策略：将总的参数预算切分为G GG组，每组只负责频谱中的一部分（例如一组负责低频，一组负责高频）。这强制每个“专家”核专注于不同的纹理特征。

模块 B：双重调制 (KSM & FBM)

KSM (Kernel Spatial Modulation)：
- 作用于空间域。
- 类似于 SE-Net 的通道注意力，但这里是对卷积核本身进行加权。它决定了“使用哪个基核”。
FBM (Frequency Band Modulation)：
- 作用于频域。
- 这是一个细粒度的控制。它允许网络根据输入图像的模糊程度或噪声水平，动态地增强高频（细节）或抑制高频（去噪）。
协同工作：FBM 调整核的“内涵”（频率成分），KSM 调整核的“强度”（组合方式），两者实现了对卷积核性质的全方位控制。

4.3 理念与机制总结

FDConv 的核心理念是“频域稀疏性与正交性”。

机制：它认为在空间域学习N NN个相似的3 × 3 3 \times 33×3矩阵是浪费的。不如在频域学习几个正交的“波”，然后通过组合这些波来生成千变万化的卷积核。
公式解读：W = IFFT ( FBM ( W f ) ) ⊙ α W = \text{IFFT}(\text{FBM}(W_f)) \odot \alphaW=IFFT(FBM(Wf))⊙α。

4.4 图解总结

回到动机图解：

IFFT 机制解决了参数爆炸问题，因为频域参数通常比空间域参数更紧凑且易于压缩。
频率分组解决了核同质化问题。由于每组基核来源于不同的频带，它们在物理上就不可能相似，从而保证了特征提取的多样性（Diversity）。

5. 即插即用模块的作用

FDConv 设计为通用的卷积算子，具有极广的适用性：

适用场景：
- 密集预测任务：语义分割、目标检测、深度估计。这些任务对多尺度和多频率特征非常敏感。
- 底层视觉任务：图像去噪、去雨、超分辨率。FBM 能够动态调节滤波器的通带，非常适合处理频率相关的退化。
具体应用：
- 替换 ResNet/Swin 中的 Conv：将 ResNet 中的3 × 3 3 \times 33×3卷积替换为 FDConv，可以直接获得精度提升。
- 轻量化模型设计：在 MobileNet 或 EfficientNet 中使用 FDConv，可以在不增加参数量的前提下，大幅提升模型的表达能力（Capacity）。

6. 实验部分简单分析

论文在ADE20K (分割),COCO (检测),SIDD (去噪)等多个数据集上进行了验证。

语义分割 (Semantic Segmentation)：
- 在 ADE20K 上，使用 ResNet-50 作为 Backbone，FDConv 相比标准的 ResNet 提升了+3.4 mIoU，相比 ODConv 提升了+1.2 mIoU。
- 关键点：FDConv 的参数量仅为 ODConv 的1/4甚至更少，实现了“少马跑快车”。
目标检测 (Object Detection)：
- 在 COCO 数据集上，FDConv 在 Mask R-CNN 框架下带来了显著的 AP 提升，证明了其在实例级任务上的有效性。
图像去噪 (Image Denoising)：
- 在 SIDD 数据集上，FDConv 展现了强大的频率适应能力，PSNR 指标优于传统的动态卷积方法。
- 可视化：去噪后的图像纹理保留更好，说明 FBM 成功地在去噪（低通滤波）和保边（高频保留）之间找到了动态平衡。