当前位置：首页 > news >正文

yolov26改进 | Conv/卷积篇 | SPD-Conv空间深度转换卷积独家二次创新SPPF（附创新后的网络结构图，独家首发）

news 2026/5/10 0:26:50

开始讲解之前推荐一下我的专栏，本专栏的内容支持(分类、检测、分割、追踪、关键点检测),专栏目前为限时折扣，欢迎大家订阅本专栏，本专栏每周更新3-5篇最新机制，更有包含我所有改进的文件和交流群提供给大家。

一、本文介绍

本文给大家带来的改进内容是SPD-Conv（空间深度转换卷积）技术。SPD-Conv是一种创新的空间编码技术，它通过更有效地处理图像数据来改善深度学习模型的表现。SPD-Conv的基本概念：它是一种将图像空间信息转换为深度信息的技术，从而使得卷积神经网络（CNN）能更加有效地学习图像特征。这种方法通过减少信息损失和提高特征提取的准确性，优化了模型对小物体和低分辨率图像的处理能力。我在YOLOv26中利用SPD-Conv被用于替换传统的步长卷积和池化层，在不牺牲精确度的情况下减少计算复杂度（精度甚至略有提升）。本文后面会有SPD-Conv的代码和二次创新SPDSPPF的使用方法，手把手教你添加到自己的网络结构中。

专栏链接：YOLOv26有效涨点专栏包含：Conv、注意力机制、主干/Backbone、损失函数、优化器、后处理等改进机制

一、本文介绍

二、SPD-Conv构建块原理

2.1 SPD-Conv的基本原理

2.1.1替换步长卷积和池化层

2.1.2 空间到深度（SPD）层

2.1.3 非步长卷积层

2.2 检测效果

三、核心代码

四、手把手教你添加SPD-Conv

4.1 修改一

4.2 修改二

4.3 修改三

4.4 修改四

4.5 修改五

4.6 修改六

五、正式训练

5.1 yaml文件

5.1.1 yaml文件1

5.1.2 yaml文件2

5.2 训练代码

5.3 训练过程截图

五、本文总结

二、SPD-Conv构建块原理

论文地址：论文官方地址

代码地址：代码官方地址

2.1 SPD-Conv的基本原理

SPD-Conv（空间到深度卷积）的基本原理是用于改进传统卷积神经网络（CNN）中对小物体和低分辨率图像处理的性能。它主要通过以下几个关键步骤实现：

1. 替换步长卷积和池化层：SPD-Conv设计用来替代传统CNN架构中的步长卷积层和池化层。步长卷积和池化层在处理低分辨率图像或小物体时会导致细粒度信息的丢失。

2. 空间到深度（SPD）层：SPD层的作用是降采样特征图的通道维度，同时保留信息。这种方式可以避免传统方法中的信息丢失。

3. 非步长卷积层：在SPD层之后，SPD-Conv使用一个非步长（即步长为1）的卷积层。这有助于在降低通道数量的同时利用可学习的参数对特征进行处理。

以下是我对这个图的理解：

1. 特征图 (a)：传统的特征图，具有通道数，高度和宽度。
2. 空间到深度变换 (b)：通过空间到深度操作，将像素的空间块重新排列到深度/通道维度，增加通道数到 4，同时将空间维度缩小2倍。
3. 通道合并 (c)：不同的通道组在通道维度上进行合并。
4. 加法操作 (d)：合并的特征图可能会与其他处理过的特征图（图中未详细展示）进行加法操作。
5. 非步长卷积 (e)：对结果特征图应用步长为1的卷积，减少通道维度至，同时保持空间分辨率，其仍是原始大小的1/2。

2.1.1替换步长卷积和池化层

论文中提出的SPD-Conv构建块是为了替代传统CNN中的步长卷积和池化层。步长卷积和池化层在处理低分辨率图像和小物体时会导致信息的丢失。SPD-Conv使用空间到深度（SPD）层，该层将特征图的空间维度转换成深度维度，通过增加通道数来保留更多信息。随后是非步长卷积层，它保持了空间维度，减少了通道数。这种替代方法避免了信息的丢失，并允许网络捕获更精细的特征，从而提高了在复杂任务上的性能。

上图是SPD-Conv论文中的一个图表，展示了如何在YOLOv5的结构中实施SPD-Conv(在YOLOv8中同样适用）。图中标红的部分代表了SPD-Conv替换传统卷积操作的地方。YOLOv5的架构被分为三个主要部分：

1. 主干网络（Backbone）：这是特征提取的核心部分，每个SPD和Conv层的组合都替换了原始YOLOv5中的步长卷积层。
2. 颈部（Neck）：这部分用于进一步处理特征图，以获得不同尺度的特征，从而提高检测不同大小物体的能力。它也包含SPD和Conv层的组合，以优化特征提取。
3. 头部（Head）：这是决策部分，用于物体检测任务，包括定位和分类。头部保持了YOLO原始架构的设计。

直连线表示直接的前向连接，虚线代表跳跃连接，用于整合不同层次的特征。

2.1.2空间到深度（SPD）层

空间到深度（SPD）层是SPD-Conv中的一个关键组件，其作用是将输入特征图的空间块（像素块）重新排列进入深度（通道）维度，以此来增加通道数，同时减少空间分辨率，但不丢失信息。通过这种方式，这一转换允许CNN捕捉和保留在处理小物体和低分辨率图像时经常丢失的精细信息。SPD层后面紧跟的是非步长卷积层，它进一步处理重新排列后的特征图，确保有效特征的提取和使用。通过这种方法，SPD-Conv能够在特征提取阶段保留更丰富的信息，从而提高模型对于小物体和低分辨率图像的识别性能。

2.1.3非步长卷积层

在SPD-Conv的背景下，非步长卷积层采用的是步长为1的卷积操作，意味着在卷积过程中，滤波器（或称为卷积核）会在输入特征图上逐像素移动，没有跳过任何像素。这样可以确保在特征图的每个位置都能应用卷积核，最大程度地保留信息，并生成丰富的特征表示。非步长卷积层是紧随空间到深度（SPD）层的一个重要组成部分。在SPD层将输入特征图的空间信息重新映射到深度（通道）维度后，非步长卷积层（即步长为1的卷积层）被用来处理这些重新排列的特征图。由于步长为1，这个卷积层不会导致任何进一步的空间分辨率降低，这允许网络在不损失细节的情况下减少特征图的通道数。这种方法有助于改善特征的表征，特别是在处理小物体或低分辨率图像时，这些场景在传统CNN结构中往往会丢失重要信息。

2.2 检测效果

上图比较了标准YOLOv5m模型和集成了SPD-Conv的改进版本YOLOv5-SPD-m的性能。紫色框表示标准YOLOv5m的预测，绿色框显示了YOLOv5-SPD-m的预测。蓝色框代表地面真相（ground truth）。红色箭头突出了两个模型预测之间的差异。

从图像中我们可以看出，YOLOv5-SPD-m（绿色框）的预测与地面真相更为接近，与YOLOv5m（紫色框）的预测相比，这表明将SPD-Conv整合进YOLOv5能增强模型准确检测物体的能力，这对于需要精确定位和识别的应用来说至关重要，例如自动驾驶或监控。

三、核心代码

使用方式看章节四！

import torch import torch.nn as nn import torch.nn.functional as F __all__ = ['SPDConv', 'SPDSPPF'] def autopad(k, p=None, d=1): # kernel, padding, dilation """Pad to 'same' shape outputs.""" if d > 1: k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k] # actual kernel-size if p is None: p = k // 2 if isinstance(k, int) else [x // 2 for x in k] # auto-pad return p class SPDConv(nn.Module): """Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation).""" default_act = nn.SiLU() # default activation def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True): """Initialize Conv layer with given arguments including activation.""" super().__init__() c1 = c1 * 4 self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False) self.bn = nn.BatchNorm2d(c2) self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity() def forward(self, x): x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1) """Apply convolution, batch normalization and activation to input tensor.""" return self.act(self.bn(self.conv(x))) def forward_fuse(self, x): """Perform transposed convolution of 2D data.""" x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1) return self.act(self.conv(x)) class Conv(nn.Module): """Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation).""" default_act = nn.SiLU() # default activation def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True): """Initialize Conv layer with given arguments including activation.""" super().__init__() self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False) self.bn = nn.BatchNorm2d(c2) self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity() def forward(self, x): """Apply convolution, batch normalization and activation to input tensor.""" return self.act(self.bn(self.conv(x))) def forward_fuse(self, x): """Perform transposed convolution of 2D data.""" return self.act(self.conv(x)) class SPDContext(nn.Module): """ SPDContext: 利用 Space-to-Depth 思想进行上下文增强。 输入 : [B, C, H, W] 输出 : [B, C, H, W] 过程: 1. 将 2×2 空间邻域重排到通道维度 2. 使用卷积融合 4C 通道信息 3. 上采样恢复空间尺寸 4. 残差连接保留原始信息 """ def __init__(self, c: int): super().__init__() self.conv = Conv(c * 4, c, k=1, s=1) def forward(self, x): identity = x h, w = x.shape[-2:] # 如果 H 或 W 是奇数，需要先 padding，避免四个切片尺寸不一致 pad_h = h % 2 pad_w = w % 2 if pad_h != 0 or pad_w != 0: x = F.pad(x, (0, pad_w, 0, pad_h)) # Space-to-Depth x = torch.cat( [ x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2], ], dim=1, ) # 通道融合 x = self.conv(x) # 恢复到原始尺寸 x = F.interpolate(x, size=(h, w), mode="nearest") # 残差增强 return x + identity class SPDSPPF(nn.Module): """ SPD-SPPF: 使用 SPDContext 替换 SPPF 中第一个 MaxPool 操作。 原始 SPPF: Conv -> MaxPool -> MaxPool -> MaxPool -> Concat -> Conv 改进后: Conv -> SPDContext -> MaxPool -> MaxPool -> Concat -> Conv """ def __init__(self, c1: int, c2: int, k: int = 5, n: int = 3, shortcut: bool = False): super().__init__() c_ = c1 // 2 self.cv1 = Conv(c1, c_, 1, 1, act=False) # 用 SPD 思想替换第一个池化层 self.spd = SPDContext(c_) # 后续池化层保持 SPPF 结构 self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2) self.cv2 = Conv(c_ * (n + 1), c2, 1, 1) self.n = n self.add = shortcut and c1 == c2 def forward(self, x): identity = x y = [self.cv1(x)] # 第一个 MaxPool 替换成 SPDContext y.append(self.spd(y[-1])) # 后续 n-1 个 MaxPool for _ in range(self.n - 1): y.append(self.m(y[-1])) y = self.cv2(torch.cat(y, dim=1)) return y + identity if self.add else y

四、手把手教你添加SPD-Conv

下面的步骤如果你不会或者不想麻烦操作，可以联系作者获得本专栏添加所有项目文件的源代码，可直接训练.

4.1 修改一

第一还是建立文件，我们找到如下ultralytics/nn文件夹下建立一个目录名字呢就是'Addmodules'文件夹！

4.2 修改二

然后在Addmodules文件夹内建立一个新的py文件，将本文章节三中的“核心代码"复制粘贴进去。

4.3 修改三

第二步我们在该目录下创建一个新的py文件名字为'__init__.py'，然后在其内部导入我们的文件，如下图所示。

4.4 修改四

第三步我门中到如下文件'ultralytics/nn/tasks.py'进行导入和注册我们的模块(此处只需要添加一次即可，如果你用我其它的改进机制这里的步骤只需要添加一次)！

4.5 修改五

在'ultralytics/nn/tasks.py'文件内的parse_model方法函数内（位置大概在1500+行左右），按照图示位置添加即可（此处需要自己有一定的判别能力，如果不会可联系作者获得视频教程）。

4.6 修改六

在'ultralytics/nn/tasks.py'文件内的parse_model方法函数内（位置大概在1600+行左右），按照图示位置进行代码的替换即可（此处不改如果你yaml文件中的所有C3k2都被改名了，则检测头会使用老版本的v8检测头参数量会大幅度增加，但不影响运行很多人都忽略了这一步）。

if "C3k2" in getattr(m, "__name__", str(m)): legacy = False if scale in "mlx": args[3] = True

到此就修改完成了，大家可以复制下面的yaml文件运行，更多使用方式可以联系作者获得使用视频，本文仅列出常见的使用方式。

五、正式训练

5.1 yaml文件

5.1.1 yaml文件1

训练信息：YOLO26-SPDConv summary: 261 layers, 2,507,436 parameters, 2,507,436 gradients, 1.5 GFLOPs

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license # Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs # Model docs: https://docs.ultralytics.com/models/yolo26 # Task docs: https://docs.ultralytics.com/tasks/detect # Parameters nc: 80 # number of classes end2end: True # whether to use end-to-end mode reg_max: 1 # DFL bins scales: # model compound scaling constants, i.e. 'model=yolo26n.yaml' will call yolo26.yaml with scale 'n' # [depth, width, max_channels] n: [0.50, 0.25, 1024] # summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients, 6.1 GFLOPs s: [0.50, 0.50, 1024] # summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients, 22.8 GFLOPs m: [0.50, 1.00, 512] # summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients, 75.4 GFLOPs l: [1.00, 1.00, 512] # summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients, 93.8 GFLOPs x: [1.00, 1.50, 512] # summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients, 209.5 GFLOPs # YOLO26n backbone backbone: # [from, repeats, module, args] - [-1, 1, SPDConv, [64, 3, 2]] # 0-P1/2 - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4 - [-1, 2, C3k2, [256, False, 0.25]] - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8 - [-1, 2, C3k2, [512, False, 0.25]] - [-1, 1, Conv, [512, 3, 2]] # 5-P4/16 - [-1, 2, C3k2, [512, True]] - [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32 - [-1, 2, C3k2, [1024, True]] - [-1, 1, SPPF, [1024, 5, 3, True]] # 9 - [-1, 2, C2PSA, [1024]] # 10 # YOLO26n head head: - [-1, 1, nn.Upsample, [None, 2, "nearest"]] - [[-1, 6], 1, Concat, [1]] # cat backbone P4 - [-1, 2, C3k2, [512, True]] # 13 - [-1, 1, nn.Upsample, [None, 2, "nearest"]] - [[-1, 4], 1, Concat, [1]] # cat backbone P3 - [-1, 2, C3k2, [256, True]] # 16 (P3/8-small) - [-1, 1, Conv, [256, 3, 2]] - [[-1, 13], 1, Concat, [1]] # cat head P4 - [-1, 2, C3k2, [512, True]] # 19 (P4/16-medium) - [-1, 1, Conv, [512, 3, 2]] - [[-1, 10], 1, Concat, [1]] # cat head P5 - [-1, 1, C3k2, [1024, True, 0.5, True]] # 22 (P5/32-large) - [[16, 19, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)

5.1.2 yaml文件2

训练信息：YOLO26-SPPF-SPDConv summary: 263 layers, 2,571,932 parameters, 2,571,932 gradients, 5.8 GFLOPs

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license # Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs # Model docs: https://docs.ultralytics.com/models/yolo26 # Task docs: https://docs.ultralytics.com/tasks/detect # Parameters nc: 80 # number of classes end2end: True # whether to use end-to-end mode reg_max: 1 # DFL bins scales: # model compound scaling constants, i.e. 'model=yolo26n.yaml' will call yolo26.yaml with scale 'n' # [depth, width, max_channels] n: [0.50, 0.25, 1024] # summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients, 6.1 GFLOPs s: [0.50, 0.50, 1024] # summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients, 22.8 GFLOPs m: [0.50, 1.00, 512] # summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients, 75.4 GFLOPs l: [1.00, 1.00, 512] # summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients, 93.8 GFLOPs x: [1.00, 1.50, 512] # summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients, 209.5 GFLOPs # YOLO26n backbone backbone: # [from, repeats, module, args] - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2 - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4 - [-1, 2, C3k2, [256, False, 0.25]] - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8 - [-1, 2, C3k2, [512, False, 0.25]] - [-1, 1, Conv, [512, 3, 2]] # 5-P4/16 - [-1, 2, C3k2, [512, True]] - [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32 - [-1, 2, C3k2, [1024, True]] - [-1, 1, SPDSPPF, [1024, 5, 3, True]] # 9 - [-1, 2, C2PSA, [1024]] # 10 # YOLO26n head head: - [-1, 1, nn.Upsample, [None, 2, "nearest"]] - [[-1, 6], 1, Concat, [1]] # cat backbone P4 - [-1, 2, C3k2, [512, True]] # 13 - [-1, 1, nn.Upsample, [None, 2, "nearest"]] - [[-1, 4], 1, Concat, [1]] # cat backbone P3 - [-1, 2, C3k2, [256, True]] # 16 (P3/8-small) - [-1, 1, Conv, [256, 3, 2]] - [[-1, 13], 1, Concat, [1]] # cat head P4 - [-1, 2, C3k2, [512, True]] # 19 (P4/16-medium) - [-1, 1, Conv, [512, 3, 2]] - [[-1, 10], 1, Concat, [1]] # cat head P5 - [-1, 1, C3k2, [1024, True, 0.5, True]] # 22 (P5/32-large) - [[16, 19, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)

5.2 训练代码

大家可以创建一个py文件将我给的代码复制粘贴进去，配置好自己的文件路径即可运行。

import warnings warnings.filterwarnings('ignore') from ultralytics import YOLO if __name__ == '__main__': model = YOLO('模型配置文件地址,也就是5.1你保存到本地文件的地址') # 如何切换模型版本, 上面的ymal文件可以改为 yolo26s.yaml就是使用的26s, # 类似某个改进的yaml文件名称为yolo26-XXX.yaml那么如果想使用其它版本就把上面的名称改为yolo26l-XXX.yaml即可（改的是上面YOLO中间的名字不是配置文件的）！ # model.load('yolo26n.pt') # 是否加载预训练权重,科研不建议大家加载否则很难提升精度 model.train( data=r"数据集文件地址", # 如果大家任务是其它的'ultralytics/cfg/default.yaml'找到这里修改task可以改成detect, segment, classify, pose cache=False, imgsz=640, epochs=20, single_cls=False, # 是否是单类别检测 batch=16, close_mosaic=0, workers=0, device='0', optimizer='MuSGD', # using SGD/MuSGD # resume=, # 这里是填写last.pt地址 amp=True, # 如果出现训练损失为Nan可以关闭amp project='runs/train', name='exp', )