当前位置: 首页 > news >正文

YOLO26改进 - 采样 ICCV 顶会技术:WaveletPool 小波池化强化采样,保留小目标细节

# 前言
本文介绍了基于小波变换的池化方法——Wavelet Pooling,作为传统最大池化与平均池化的有效替代方案。该方法通过两级小波分解丢弃高频子带,保留更具代表性的低频特征,从而在减少信息丢失的同时提升模型的正则化能力。我们将 Wavelet Pool 和 UnPool 成功集成进 YOLO26,替代原有的下采样与上采样模块,实现更高效的特征提取与恢复。实验证明,YOLO26-WaveletPool 在多个分类与检测任务中均取得优异表现,展现了小波池化在深度学习中的广泛应用前景。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

@

目录
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理:
      • 小波变换的基本原理
      • 论文的方法
  • 核心代码
  • 实验
    • 脚本
    • 结果

介绍

image-20241124212318344

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)持续推动着二维和三维图像分类及目标识别技术的发展。然而,为了维持这一快速进展,有必要对神经网络中的基础构件进行持续的评估与改进。当前主流的网络正则化方法大多侧重于卷积操作本身,而对池化层的设计选择关注不足。

为此,我们提出了一种新的池化策略——小波池化(Wavelet Pooling),作为传统邻域池化方法(如最大池化和平均池化)的有效替代方案。该方法通过将特征分解为多层小波子带,并舍弃第一层级的高频子带来实现下采样,从而有效降低特征维度。与最大池化中常见的过拟合问题不同,小波池化在降维过程中保留了更多结构信息,具备更强的泛化能力。此外,相比于基于固定邻域的池化方式,小波池化在结构上实现了更紧凑、高效的特征压缩。

我们在四个标准图像分类数据集上进行了系统实验,结果表明:所提出的小波池化方法在性能上显著优于或与最大池化、平均池化、混合池化以及随机池化等主流方法相当,验证了其作为通用池化策略的潜力。

文章链接

论文地址:论文地址

代码地址:代码地址

论文地址:论文地址

基本原理:

首先,池化是一种通过舍弃信息实现正则化效果的操作。然而,传统的池化方法存在一些不足:

  • Max pooling:当重要特征的幅度值低于不重要特征时,重要特征会被忽略。
  • Average pooling:同时接纳幅值大和幅值小的特征,容易稀释关键特征。

为了解决这些问题,该论文提出基于小波变换的池化操作,具体思路如下:


小波变换的基本原理

小波变换可将输入特征图划分为低频子带(LL)和高频子带(LH、HL、HH)。其数学公式为:

  • 一级小波变换:
    $$
    LL1, LH1, HL1, HH1 = DWT(I)
    $$
    逆变换:
    $$
    I = IDWT(LL1, LH1, HL1, HH1)
    $$

  • 二级小波变换:
    $$
    LL2, LH2, HL2, HH2 = DWT(LL1)
    $$
    逆变换:
    $$
    LL1 = IDWT(LL2, LH2, HL2, HH2)
    $$

小波变换通过下采样将特征图尺寸缩小一半,逆变换可完美重建原始图像。


论文的方法

该论文方法流程如下:

  1. 对输入图像 $I$ 进行两次小波变换,得到:
    $$
    LL2, (LH2, HL2, HH2), (LH1, HL1, HH1) = DWT(DWT(I))
    $$
  2. 舍弃最高频子带 $(LH1, HL1, HH1)$,保留低频子带 $(LL2, LH2, HL2, HH2)$。
  3. 对保留的二级小波系数进行逆变换,重建池化后的图像:
    $$
    I' = IDWT(LL2, LH2, HL2, HH2)
    $$

核心代码

class WaveletPool(nn.Module):def __init__(self):super(WaveletPool, self).__init__()ll = np.array([[0.5, 0.5], [0.5, 0.5]])lh = np.array([[-0.5, -0.5], [0.5, 0.5]])hl = np.array([[-0.5, 0.5], [-0.5, 0.5]])hh = np.array([[0.5, -0.5], [-0.5, 0.5]])filts = np.stack([ll[None,::-1,::-1], lh[None,::-1,::-1],hl[None,::-1,::-1], hh[None,::-1,::-1]],axis=0)self.weight = nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)def forward(self, x):C = x.shape[1]filters = torch.cat([self.weight,] * C, dim=0)y = F.conv2d(x, filters, groups=C, stride=2)return yclass WaveletUnPool(nn.Module):def __init__(self):super(WaveletUnPool, self).__init__()ll = np.array([[0.5, 0.5], [0.5, 0.5]])lh = np.array([[-0.5, -0.5], [0.5, 0.5]])hl = np.array([[-0.5, 0.5], [-0.5, 0.5]])hh = np.array([[0.5, -0.5], [-0.5, 0.5]])filts = np.stack([ll[None, ::-1, ::-1], lh[None, ::-1, ::-1],hl[None, ::-1, ::-1], hh[None, ::-1, ::-1]],axis=0)self.weight = nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)def forward(self, x):C = torch.floor_divide(x.shape[1], 4)filters = torch.cat([self.weight, ] * C, dim=0)y = F.conv_transpose2d(x, filters, groups=C, stride=2)return y

实验

脚本

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':
#     修改为自己的配置文件地址model = YOLO('./ultralytics/cfg/models/26/yolo26-WaveletPool.yaml')
#     修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,  # 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='MuSGD',  # optimizer='SGD',amp=False,project='runs/train',name='yolo26-WaveletPool',)

结果

image-20260125212930968

http://www.jsqmd.com/news/347296/

相关文章:

  • YOLO26改进 - 特征融合 融合Hyper-YOLO混合聚合网络MANet(Mixed Aggregation Network)通过多路径设计实现高效特征学习与模型适应性提升
  • YOLO26改进 - 注意力机制 多扩张通道细化器MDCR 通过通道划分与异构扩张卷积提升小目标定位能力
  • YOLO26改进 - 注意力机制 HAT混合注意力变换器:超分重建能力迁移,提升小目标特征清晰度与检测精度
  • YOLO26改进 - 卷积Conv 融合Diverse Branch Block (DBB) 多样分支块的多尺度卷积路径,丰富特征空间实现即插即用性能增益
  • AI原生应用领域可解释性:助力企业数字化转型
  • YOLO26改进 - 注意力机制 双层路由注意力BRA(Bi-Level Routing Attention)增强小目标特征捕获
  • 基于机器学习的A_B测试结果预测模型构建
  • 基于Matlab的直流电机转速电流PI双闭环控制matlab仿真模型(仿真+设计文档+参考文献)
  • Excel倍数进位大师CEILING函数:从时间计费到物流计重的智能舍入方案
  • YOLO26改进 - 卷积Conv 融合MogaNet中的ChannelAggregationFFN(通道聚合前馈网络),优化通道维度的特征
  • 大数据时代半结构化数据的存储性能优化
  • 基于非洲秃鹫优化算法的图像分割附Matlab代码
  • YOLO26改进 - 卷积Conv SAConv可切换空洞卷积:自适应融合多尺度特征,优化小目标与遮挡目标感知
  • YOLO26改进 - 卷积Conv _ 引入线性可变形卷积LDConv(Linear Deformable Convolution)增强不规则目标特征捕获能力
  • 开题报告qq信管黄莹
  • Flink Watermark机制:解决大数据流处理中的乱序问题
  • YOLO26改进 - 注意力机制 Deformable-LKA 可变形大核注意力:自适应采样网格优化特征捕捉,提升不规则目标感知
  • YOLO26改进 - 卷积Conv SCConv空间和通道重建卷积:轻量化设计助力复杂场景与小目标检测
  • 揭秘国家级卫星超级工厂!年产能150颗、产值破500亿的商业航天“新质生产力“范本(WORD)
  • 【无人机路径规划】无人机结构巡检飞行规划系统,核心用于针对已知三维结构(通过 STL 文件导入)完成无人机观测点生成、路径优化(基于 TSP 问题)、能耗分析、重叠率分析及轨迹可视化附Matlab代码
  • YOLO26改进 - 卷积Conv SPD-Conv空间深度转换卷积优化空间信息编码,攻克小目标检测难题
  • 实现ai循环中插入用户对话的方法
  • 【DVMCNN诊断网络】基于离散韦格纳分布DWVD结合MCNN多尺度卷积神经网络的故障诊断研究附matlab代码
  • YOLO26改进 - 卷积Conv 加权卷积wConv2D:无损替换标准卷积,增强空间建模与特征提取质量 arXiv 2025
  • YOLO26涨点改进 | 独家创新、Neck特征融合改进篇 | ICLR 2025 | 引入FMoM频率调制融合模块,实现空间与频率的协同特征增强,助力多模态融合、小目标检测、遥感目标检测有效涨点
  • 【AAAI 2026即插即用】Mamba模块篇 | MUB曼巴上采样模块,特别适用于图像恢复、图像超分辨率、图像恢复、暗光增强、遥感任务、目标检测、图像分割 和 医学影像分析等CV任务通用,涨点起飞
  • YOLO26改进 - 卷积Conv 注入多阶门控聚合机制:Multi-Order Gated Aggregation 突破表示瓶颈,增强复杂场景目标感知能力
  • 沙丘猫算法+哈里斯鹰+鲸鱼+黏菌算法+蝴蝶算法优化ELMAN神经网络回归预测附Matlab代码
  • 开题报告vb酒店客房部
  • 【无人机三维路径规划】基于启发式算法的无人机三维路径规划动态避障算法附Matlab代码