当前位置: 首页 > news >正文

YOLOv11 改进 - 采样 _ ICCV 顶会技术:WaveletPool 小波池化强化采样,保留小目标细节

# 前言
本文介绍了基于小波变换的池化方法——Wavelet Pooling,作为传统最大池化与平均池化的有效替代方案。该方法通过两级小波分解丢弃高频子带,保留更具代表性的低频特征,从而在减少信息丢失的同时提升模型的正则化能力。我们将 Wavelet Pool 和 UnPool 成功集成进 YOLOv11,替代原有的下采样与上采样模块,实现更高效的特征提取与恢复。实验证明,YOLOv11-WaveletPool 在多个分类与检测任务中均取得优异表现,展现了小波池化在深度学习中的广泛应用前景。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总-CSDN博客

专栏链接: YOLOv11改进专栏

@

目录
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理:
      • 小波变换的基本原理
      • 论文的方法
  • 核心代码
  • 实验
    • 脚本
    • 结果

介绍

image-20241124212318344

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)持续推动着二维和三维图像分类及目标识别技术的发展。然而,为了维持这一快速进展,有必要对神经网络中的基础构件进行持续的评估与改进。当前主流的网络正则化方法大多侧重于卷积操作本身,而对池化层的设计选择关注不足。

为此,我们提出了一种新的池化策略——小波池化(Wavelet Pooling),作为传统邻域池化方法(如最大池化和平均池化)的有效替代方案。该方法通过将特征分解为多层小波子带,并舍弃第一层级的高频子带来实现下采样,从而有效降低特征维度。与最大池化中常见的过拟合问题不同,小波池化在降维过程中保留了更多结构信息,具备更强的泛化能力。此外,相比于基于固定邻域的池化方式,小波池化在结构上实现了更紧凑、高效的特征压缩。

我们在四个标准图像分类数据集上进行了系统实验,结果表明:所提出的小波池化方法在性能上显著优于或与最大池化、平均池化、混合池化以及随机池化等主流方法相当,验证了其作为通用池化策略的潜力。

文章链接

论文地址:论文地址

代码地址:代码地址

论文地址:论文地址

基本原理:

首先,池化是一种通过舍弃信息实现正则化效果的操作。然而,传统的池化方法存在一些不足:

  • Max pooling:当重要特征的幅度值低于不重要特征时,重要特征会被忽略。
  • Average pooling:同时接纳幅值大和幅值小的特征,容易稀释关键特征。

为了解决这些问题,该论文提出基于小波变换的池化操作,具体思路如下:


小波变换的基本原理

小波变换可将输入特征图划分为低频子带(LL)和高频子带(LH、HL、HH)。其数学公式为:

  • 一级小波变换:
    $$
    LL1, LH1, HL1, HH1 = DWT(I)
    $$
    逆变换:
    $$
    I = IDWT(LL1, LH1, HL1, HH1)
    $$

  • 二级小波变换:
    $$
    LL2, LH2, HL2, HH2 = DWT(LL1)
    $$
    逆变换:
    $$
    LL1 = IDWT(LL2, LH2, HL2, HH2)
    $$

小波变换通过下采样将特征图尺寸缩小一半,逆变换可完美重建原始图像。


论文的方法

该论文方法流程如下:

  1. 对输入图像 $I$ 进行两次小波变换,得到:
    $$
    LL2, (LH2, HL2, HH2), (LH1, HL1, HH1) = DWT(DWT(I))
    $$
  2. 舍弃最高频子带 $(LH1, HL1, HH1)$,保留低频子带 $(LL2, LH2, HL2, HH2)$。
  3. 对保留的二级小波系数进行逆变换,重建池化后的图像:
    $$
    I' = IDWT(LL2, LH2, HL2, HH2)
    $$

核心代码

class WaveletPool(nn.Module):def __init__(self):super(WaveletPool, self).__init__()ll = np.array([[0.5, 0.5], [0.5, 0.5]])lh = np.array([[-0.5, -0.5], [0.5, 0.5]])hl = np.array([[-0.5, 0.5], [-0.5, 0.5]])hh = np.array([[0.5, -0.5], [-0.5, 0.5]])filts = np.stack([ll[None,::-1,::-1], lh[None,::-1,::-1],hl[None,::-1,::-1], hh[None,::-1,::-1]],axis=0)self.weight = nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)def forward(self, x):C = x.shape[1]filters = torch.cat([self.weight,] * C, dim=0)y = F.conv2d(x, filters, groups=C, stride=2)return yclass WaveletUnPool(nn.Module):def __init__(self):super(WaveletUnPool, self).__init__()ll = np.array([[0.5, 0.5], [0.5, 0.5]])lh = np.array([[-0.5, -0.5], [0.5, 0.5]])hl = np.array([[-0.5, 0.5], [-0.5, 0.5]])hh = np.array([[0.5, -0.5], [-0.5, 0.5]])filts = np.stack([ll[None, ::-1, ::-1], lh[None, ::-1, ::-1],hl[None, ::-1, ::-1], hh[None, ::-1, ::-1]],axis=0)self.weight = nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)def forward(self, x):C = torch.floor_divide(x.shape[1], 4)filters = torch.cat([self.weight, ] * C, dim=0)y = F.conv_transpose2d(x, filters, groups=C, stride=2)return y

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':
#     修改为自己的配置文件地址model = YOLO('/root/ultralytics-main/ultralytics/cfg/models/11/yolov11-WaveletPool.yaml')
#     修改为自己的数据集地址model.train(data='/root/ultralytics-main/ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,  # 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='SGD',# amp=True,project='runs/train',name='WaveletPool',)

结果

image-20241124215705211

http://www.jsqmd.com/news/349939/

相关文章:

  • 延安市英语雅思培训机构推荐;2026权威测评出国雅思辅导机构口碑榜单 - 老周说教育
  • 2026最新!自考必备的AI论文软件 —— 千笔·专业学术智能体
  • 小白入门必看!2025年国产AI大模型排行榜及使用建议
  • 2026年电子称生产厂排名,哪家更值得选看这里 - 工业品牌热点
  • 忻州市英语雅思培训辅导机构推荐:2026权威出国雅思课程中心学校口碑排行榜 - 苏木2025
  • 计算机毕业设计springboot沧州交通学院教师趣味竞赛管 基于SpringBoot的沧州交通学院教师文体活动竞赛平台理系统 沧州交通学院教师团建赛事一站式管理系统
  • 2026年振泰电缆靠不靠谱,选择前必看的费用分析 - 工业设备
  • YOLOv11 改进 - 基础知识 C2PSA模块详解:从结构原理、源码实现到模型配置,看着一篇就够了
  • YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
  • 2026 学术工具实测:AI 论文生成软件权威榜单,功能 + 性价比全解析
  • YOLOv11 改进 - 注意力机制 ESC (Emulating Self-attention with Convolution) 卷积模拟自注意力:增强小目标与密集场景检测
  • 2026年安徽新华电脑专修学院品牌排名,文凭与报名费用情况大揭秘 - mypinpai
  • 忻州市英语雅思培训辅导机构推荐-2026权威出国雅思课程中心学校口碑排行榜 - 苏木2025
  • YOLOv11 改进 - 注意力机制 LRSA局部区域自注意力( Local-Region Self-Attention) 轻量级局部上下文建模弥补长程依赖细节不足 CVPR2025
  • 付费社群管理:高留存率的技术社区运营
  • 70.最小栈
  • 2026最新SATA连接器/音频连接器/轻触开关/Micro连接器/微动开关编码器推荐!国内优质精密连接器权威榜单发布,助力多场景智能互联 - 品牌推荐2026
  • YOLOv11 改进 - 注意力机制 Mask Attention掩码注意力,专门为低分辨率图像分割设计,高效捕捉全局关联 2025 预印
  • ‌线上研讨会主持:测试主题演讲的筹备与执行
  • 梯度投影法(GPSR)MATLAB源代码实现与解析
  • 公众号排版工具测评:多款对比后,发现一款AI微信编辑器神器,让我排版提效80% - peipei33
  • 2026年江苏常州汽车发动机维修服务排名发布,这些品牌口碑超棒 - 工业推荐榜
  • Linux 配置 acmd.sh 自动申请并部署SSL证书
  • 2026年深度剖析:邵氏硬度计检定装置选购要点与实用建议 - 品牌推荐大师
  • 龙骨
  • 2026年选购PE板,沧州盛亮作为低价优质厂家,质量有保障吗? - 工业品网
  • 一个 PhD 学生的两周 Agentic Workflow 压力测试报告
  • 2026年涂塑钢管推荐制造商选购指南,靠谱的有哪些 - myqiye
  • YOLOv11 改进 - 注意力机制 DiffAttention差分注意力:轻量级差分计算实现高效特征降噪,提升模型抗干扰能力
  • 2026最新DC插座推荐!国内优质DC插座权威榜单发布,适配多场景助力智能设备稳定运行DC插座推荐 - 品牌推荐2026