当前位置: 首页 > news >正文

即插即用系列 | CVPR 2025 FDConv:频域动态卷积,打破密集预测任务的参数效率瓶颈

论文标题:Frequency Dynamic Convolution for Dense Image Prediction

论文原文 (Paper):https://openaccess.thecvf.com/content/CVPR2025/html/Chen_Frequency_Dynamic_Convolution_for_Dense_Image_Prediction_CVPR_2025_paper.html
代码 (code):https://github.com/Linwei-Chen/FDConv


GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景总结
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
        • 4.4 图解总结
      • 5. 即插即用模块的作用
      • 6. 实验部分简单分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文针对现有动态卷积(Dynamic Convolution, 如 CondConv, ODConv)存在的参数冗余核相似性高的问题,提出了一种名为FDConv (Frequency Dynamic Convolution)的新型算子。其核心思想是将卷积核的生成过程转移到傅里叶频域进行。通过在频域中学习一个固定的参数预算(Parameter Budget),并利用核空间调制 (KSM)频带调制 (FBM)两种机制动态调整频率响应,最后通过逆傅里叶变换(IFFT)还原为空间卷积核。这种方法在大幅降低参数量的同时,显著提升了卷积核的频率多样性和表达能力。


2. 背景与动机

2.1 文本背景总结

动态卷积(Dynamic Conv)通过根据输入图像动态聚合多个并行卷积核(Experts),显著提升了模型的容量。然而,现有方法面临两个主要痛点:

  1. 参数爆炸:参数量随卷积核数量K KK线性增长(K × P a r a m s K \times ParamsK×Params),导致模型臃肿。
  2. 核同质化(High Similarity):研究发现,训练好的多个动态核在空间上往往非常相似,这意味着大量的参数被浪费在了重复的特征提取上,并未真正提供多样性的“专家知识”。
2.2 动机图解分析

看图说话与痛点分析

  • 现有方法的局限性(左图):传统的 DY-Conv 直接在空间域学习K KK个完整的卷积核。可视化显示,这些核的频率响应(频谱图)非常相似,说明它们都在关注类似的图像成分(比如都只看低频轮廓),缺乏互补性。
  • FDConv 的突破(右图):FDConv 不直接存储空间核,而是存储频域系数。它将频域划分为不同的频带组(Frequency Groups),每个组负责不同的频率成分(互不相交)。通过组合这些正交的频率成分,FDConv 能够以极低的代价构建出形态各异、功能互补的空间卷积核,完美解决了“同质化”问题。

3. 主要创新点

  1. 频域参数预算 (Frequency Parameter Budget):首创性地在频域定义卷积参数,利用傅里叶变换的性质,通过学习少量的频域系数来重构复杂的空间卷积核。
  2. 正交频率分组:将频域预算划分为互不相交的组(Disjoint Indices),确保生成的不同基核(Basis Kernels)在频谱上是正交互补的,最大化了特征提取的多样性。
  3. 双重调制机制
    • 核空间调制 (KSM):在空间域动态调整卷积核的幅度。
    • 频带调制 (FBM):在频域动态调整不同频段的权重。两者协同工作,赋予了卷积核强大的自适应能力。
  4. 极致的参数效率:在保持甚至超越 SOTA 性能(如 ODConv)的前提下,参数量仅为传统动态卷积的1/K甚至更低。

4. 方法细节

4.1 整体网络架构

数据流详解
FDConv 是一个可以直接替换nn.Conv2d的即插即用模块,其内部数据流如下:

  1. 输入 (Input):特征图X XX
  2. 注意力生成 (Attention Generation)
    • 利用全局平均池化(GAP)和全连接层(FC),从输入X XX中预测出两组动态系数:空间调制系数α \alphaα频带调制系数β \betaβ
  3. 频域核构建 (Frequency Kernel Construction)
    • 预定义一个可学习的频域张量W f W_fWf(Parameter Budget)。
    • FBM 调制:利用系数β \betaβW f W_fWf的不同频带进行加权增强或抑制。
  4. 逆傅里叶变换 (IFFT)
    • 将调制后的频域张量通过 IFFT 变换回空间域,得到一组基卷积核(Basis Kernels)。
  5. 空间核聚合与调制 (Spatial Aggregation & KSM)
    • KSM 调制:利用系数α \alphaα对基卷积核进行空间层面的动态加权。
    • 将加权后的核聚合为一个最终的动态卷积核W d y n a m i c W_{dynamic}Wdynamic
  6. 卷积操作:使用W d y n a m i c W_{dynamic}Wdynamic对输入X XX进行标准卷积,输出结果。
4.2 核心创新模块详解

模块 A:频域权重生成与分组 (Frequency Weight Generation)

  • 设计理念:利用 DFT 的共轭对称性,只需要存储一半的频域系数即可还原实数卷积核,节省一半参数。
  • 分组策略:将总的参数预算切分为G GG组,每组只负责频谱中的一部分(例如一组负责低频,一组负责高频)。这强制每个“专家”核专注于不同的纹理特征。

模块 B:双重调制 (KSM & FBM)

  • KSM (Kernel Spatial Modulation)
    • 作用于空间域
    • 类似于 SE-Net 的通道注意力,但这里是对卷积核本身进行加权。它决定了“使用哪个基核”。
  • FBM (Frequency Band Modulation)
    • 作用于频域
    • 这是一个细粒度的控制。它允许网络根据输入图像的模糊程度或噪声水平,动态地增强高频(细节)或抑制高频(去噪)。
  • 协同工作:FBM 调整核的“内涵”(频率成分),KSM 调整核的“强度”(组合方式),两者实现了对卷积核性质的全方位控制。
4.3 理念与机制总结

FDConv 的核心理念是“频域稀疏性与正交性”

  • 机制:它认为在空间域学习N NN个相似的3 × 3 3 \times 33×3矩阵是浪费的。不如在频域学习几个正交的“波”,然后通过组合这些波来生成千变万化的卷积核。
  • 公式解读W = IFFT ( FBM ( W f ) ) ⊙ α W = \text{IFFT}(\text{FBM}(W_f)) \odot \alphaW=IFFT(FBM(Wf))α
4.4 图解总结

回到动机图解

  • IFFT 机制解决了参数爆炸问题,因为频域参数通常比空间域参数更紧凑且易于压缩。
  • 频率分组解决了核同质化问题。由于每组基核来源于不同的频带,它们在物理上就不可能相似,从而保证了特征提取的多样性(Diversity)。

5. 即插即用模块的作用

FDConv 设计为通用的卷积算子,具有极广的适用性:

  • 适用场景
    • 密集预测任务:语义分割、目标检测、深度估计。这些任务对多尺度和多频率特征非常敏感。
    • 底层视觉任务:图像去噪、去雨、超分辨率。FBM 能够动态调节滤波器的通带,非常适合处理频率相关的退化。
  • 具体应用
    • 替换 ResNet/Swin 中的 Conv:将 ResNet 中的3 × 3 3 \times 33×3卷积替换为 FDConv,可以直接获得精度提升。
    • 轻量化模型设计:在 MobileNet 或 EfficientNet 中使用 FDConv,可以在不增加参数量的前提下,大幅提升模型的表达能力(Capacity)。

6. 实验部分简单分析

论文在ADE20K (分割),COCO (检测),SIDD (去噪)等多个数据集上进行了验证。

  1. 语义分割 (Semantic Segmentation)

    • 在 ADE20K 上,使用 ResNet-50 作为 Backbone,FDConv 相比标准的 ResNet 提升了+3.4 mIoU,相比 ODConv 提升了+1.2 mIoU
    • 关键点:FDConv 的参数量仅为 ODConv 的1/4甚至更少,实现了“少马跑快车”。
  2. 目标检测 (Object Detection)

    • 在 COCO 数据集上,FDConv 在 Mask R-CNN 框架下带来了显著的 AP 提升,证明了其在实例级任务上的有效性。
  3. 图像去噪 (Image Denoising)

    • 在 SIDD 数据集上,FDConv 展现了强大的频率适应能力,PSNR 指标优于传统的动态卷积方法。
    • 可视化:去噪后的图像纹理保留更好,说明 FBM 成功地在去噪(低通滤波)和保边(高频保留)之间找到了动态平衡。

总结:FDConv 是一篇极具洞察力的论文。它跳出了空间域“堆参数”的内卷怪圈,利用经典的信号处理理论(FFT)为深度学习算子注入了新的活力。对于追求极致效率和模型性能的 CV 工程师来说,这绝对是一个值得尝试的“黑科技”算子。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

http://www.jsqmd.com/news/155910/

相关文章:

  • Markdown甘特图规划PyTorch项目开发进度
  • 雪中小山村
  • 【毕业设计】基于springboot的大学生英语学习平台(源码+文档+远程调试,全bao定制等)
  • C++ 基本的输入输出
  • 身份威胁检测与响应(上)
  • 服务定位器模式
  • SSH免密码登录配置:提升PyTorch镜像操作效率
  • Jupyter Notebook版本控制实践:配合Git管理代码
  • SOAP Header 元素
  • 【毕业设计】基于springboot的宾馆客房管理系统客房管理 房型配置: 标准间、套房等类型的名称、价格、床型(源码+文档+远程调试,全bao定制等)
  • LC.855 | 考场就座 | 有序集合 | set的应用
  • PyTorch混合精度训练AMP实战:节省显存提升速度
  • 082300141 吴昕昀团队工作汇报
  • 大宋历史传
  • XLink 总结
  • LC.2353 | 设计食物评分系统 | 有序集合 | 负分数排序实现“最高分优先 + 字典序优先”
  • 【课程设计/毕业设计】基于Springboot的在线英语阅读平台的设计与实现基于springboot的大学生英语学习平台【附源码、数据库、万字文档】
  • 基于VUE的白告水果店[VUE]-计算机毕业设计源码+LW文档
  • Python3 日期和时间处理详解
  • 【课程设计/毕业设计】基于 SpringBoot+Vue+Java 实现酒店客房管理系统基于springboot的宾馆客房管理系统【附源码、数据库、万字文档】
  • 史上最强X3D CPU!9950X3D2首次曝光:双3D V-Cache、192MB缓存
  • 2025年哈尔滨正规的地铁广告价格,公交广告/户外led大屏广告/广播电台广告/地铁广告/电视台广告地铁广告公司排行榜单 - 品牌推荐师
  • MATLAB仿真与建模基础实战教程(从入门到实操,附完整可运行案例)
  • 8.8英寸“大手机”!华为MatePad Mini官降300元:2999元起 全系麒麟旗舰芯
  • GPU算力使用审计日志系统建设方案
  • 抖音运营资源合集
  • 卷积神经网络反向传播过程图解(PyTorch实现)
  • YOLO训练任务排队系统上线,资源公平调度
  • 2025年市场口碑好的层板货架制造厂家排行榜,阁楼货架/重型货架/仓储货架/层板货架/横梁货架,层板货架生产商排行榜 - 品牌推荐师
  • Conda环境导出为yml文件:共享PyTorch配置的最佳方式