当前位置: 首页 > news >正文

Ultralytics:解读C1模块

Ultralytics:解读C1模块

  • 前言
  • 相关介绍
    • Ultralytics 简介
  • 前提条件
  • 实验环境
  • C1(CSP Bottleneck with 1 convolution)
      • 代码实现
      • 功能
      • 初始化参数
      • 前向方法
      • 使用示例
      • 流程示意图
      • 代码解读
      • 注意事项
      • 优缺点
        • 优点
        • 缺点
  • 参考文献

前言

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
  • YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
  • PaddleOCR:Win10上安装使用PPOCRLabel标注工具
  • 目标检测:使用自己的数据集微调DEIMv2进行物体检测
  • 图像分割:PyTorch从零开始实现SegFormer语义分割
  • 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
  • 图像生成:PyTorch从零开始实现一个简单的扩散模型
  • Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
  • 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
  • Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
  • Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
  • 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
  • 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
  • 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
  • 在线机的Python环境迁移到离线机上
  • Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
  • Ultralytics:使用 YOLO11 进行速度估计
  • Ultralytics:使用 YOLO11 进行物体追踪
  • Ultralytics:使用 YOLO11 进行物体计数
  • Ultralytics:使用 YOLO11 进行目标打码
  • 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
  • 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
  • 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
  • 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
  • 通过计算实例简单地理解PatchCore异常检测
  • Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
  • Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
  • Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)

相关介绍

Ultralytics 简介

Ultralytics 基于多年的计算机视觉和人工智能基础研究,创建了最先进的 (SOTA) YOLO 模型。我们的模型不断更新性能和灵活性,快速、准确且易于使用。他们擅长对象检测、跟踪、实例分割、语义分割、图像分类和姿势估计任务。

  • 官方文档:https://docs.ultralytics.com/
  • 官方代码:https://github.com/ultralytics/ultralytics.git

前提条件

  • 熟悉Python、Pytorch

实验环境

Package Version ------------------------ ------------ Python3.11.8 absl-py2.4.0 accelerate1.13.0 annotated-doc0.0.4 anyio4.13.0 calflops0.3.2 certifi2026.4.22 charset-normalizer3.4.7 click8.3.3 colorama0.4.6 contourpy1.3.3 cycler0.12.1 filelock3.29.0 flatbuffers25.12.19 fonttools4.62.1 fsspec2026.4.0 grpcio1.80.0 h110.16.0 hf-xet1.5.0 httpcore1.0.9 httpx0.28.1 huggingface_hub1.14.0 idna3.15Jinja23.1.6 kiwisolver1.5.0 Markdown3.10.2 markdown-it-py4.2.0 MarkupSafe3.0.3 matplotlib3.10.9 mdurl0.1.2 ml_dtypes0.5.0 mpmath1.3.0 networkx3.6.1 numpy1.26.4 nvidia-cublas-cu1212.8.3.14 nvidia-cuda-cupti-cu1212.8.57 nvidia-cuda-nvrtc-cu1212.8.61 nvidia-cuda-runtime-cu1212.8.57 nvidia-cudnn-cu129.7.1.26 nvidia-cufft-cu1211.3.3.41 nvidia-cufile-cu121.13.0.11 nvidia-curand-cu1210.3.9.55 nvidia-cusolver-cu1211.7.2.55 nvidia-cusparse-cu1212.5.7.53 nvidia-cusparselt-cu120.6.3 nvidia-nccl-cu122.26.2 nvidia-nvjitlink-cu1212.8.61 nvidia-nvtx-cu1212.8.55 onnx1.19.0 onnxruntime-gpu1.26.0 onnxslim0.1.94 opencv-python4.6.0.66 packaging26.2pillow12.2.0 pip24.0polars1.40.1 polars-runtime-321.40.1 protobuf7.34.1 psutil7.2.2 pycocotools2.0.11 Pygments2.20.0 pyparsing3.3.2 python-dateutil2.9.0.post0 PyYAML6.0.3 regex2026.5.9 requests2.34.1 rich15.0.0 safetensors0.7.0 scipy1.16.0 setuptools65.5.0 shellingham1.5.4 six1.17.0 sympy1.14.0 tabulate0.10.0 tensorboard2.20.0 tensorboard-data-server0.7.2 tokenizers0.22.2 torch2.7.1+cu128 torchaudio2.7.1+cu128 torchvision0.22.1+cu128 tqdm4.67.3 transformers5.8.1 triton3.3.1 typer0.25.1 typing_extensions4.15.0 ultralytics8.4.58 ultralytics-thop2.0.19 urllib32.7.0 Werkzeug3.1.8

C1(CSP Bottleneck with 1 convolution)

C1是一种轻量级的CSP(Cross Stage Partial)瓶颈模块,它仅使用1 个 1×1 卷积多个 3×3 卷积构建残差结构。在 YOLOv5 等模型中,它常被用作基础构建块,以平衡计算量与特征表达能力。


代码实现

importcv2importmathimporttorchimportnumpyasnpimportmatplotlib.pyplotaspltfromtorchimportnndefautopad(k,p=None,d=1):# kernel, padding, dilation"""Pad to 'same' shape outputs."""ifd>1:k=d*(k-1)+1ifisinstance(k,int)else[d*(x-1)+1forxink]# actual kernel-sizeifpisNone:p=k//2ifisinstance(k,int)else[x//2forxink]# auto-padreturnpclassConv(nn.Module):"""Standard convolution module with batch normalization and activation. Attributes: conv (nn.Conv2d): Convolutional layer. bn (nn.BatchNorm2d): Batch normalization layer. act (nn.Module): Activation function layer. default_act (nn.Module): Default activation function (SiLU). """default_act=nn.SiLU()# default activationdef__init__(self,c1,c2,k=1,s=1,p=None,g=1,d=1,act=True):"""Initialize Conv layer with given parameters. Args: c1 (int): Number of input channels. c2 (int): Number of output channels. k (int): Kernel size. s (int): Stride. p (int, optional): Padding. g (int): Groups. d (int): Dilation. act (bool | nn.Module): Activation function. """super().__init__()self.conv=nn.Conv2d(c1,c2,k,s,autopad(k,p,d),groups=g,dilation=d,bias=False)self.bn=nn.BatchNorm2d(c2)self.act=self.default_actifactisTrueelseactifisinstance(act,nn.Module)elsenn.Identity()defforward(self,x):"""Apply convolution, batch normalization and activation to input tensor. Args: x (torch.Tensor): Input tensor. Returns: (torch.Tensor): Output tensor. """returnself.act(self.bn(self.conv(x)))defforward_fuse(self,x):"""Apply convolution and activation without batch normalization. Args: x (torch.Tensor): Input tensor. Returns: (torch.Tensor): Output tensor. """returnself.act(self.conv(x))classC1(nn.Module):"""CSP Bottleneck with 1 convolution."""def__init__(self,c1:int,c2:int,n:int=1):"""Initialize the CSP Bottleneck with 1 convolution. Args: c1 (int): Input channels. c2 (int): Output channels. n (int): Number of convolutions. """super().__init__()self.cv1=Conv(c1,c2,1,1)self.m=nn.Sequential(*(Conv(c2,c2,3)for_inrange(n)))defforward(self,x:torch.Tensor)->torch.Tensor:"""Apply convolution and residual connection to input tensor."""y=self.cv1(x)returnself.m(y)+y

功能

  • 通道变换:通过 1×1 卷积将输入通道从c1映射到c2,同时实现跨通道信息融合。
  • 多层特征提取:对变换后的特征图依次应用n个 3×3 卷积(保持通道数不变),捕获空间特征。
  • 残差连接:将 1×1 卷积的输出与经过n个 3×3 卷积的输出相加,缓解梯度消失,促进深层训练。
  • CSP 风格:虽然未显式拆分特征图,但其结构类似于 CSPNet 中的部分残差块,仅使用单个卷积进行通道调整。

初始化参数

参数类型说明
c1int输入特征图的通道数
c2int输出特征图的通道数(也是中间特征的通道数)
nint3×3 卷积的层数(默认为 1),控制模块深度

前向方法

  • forward(x):输入x(形状[B, c1, H, W]),输出[B, c2, H, W]

计算流程

  1. y = self.cv1(x):1×1 卷积,通道数变为c2
  2. z = self.m(y)n个 3×3 卷积依次作用在y上,输出仍为[B, c2, H, W]
  3. 返回z + y(残差相加)。

使用示例

if__name__=='__main__':# 1. 创建随机输入特征图(模拟 batch=1, 通道=16, 高宽=64)x=torch.randn(1,16,64,64)# 2. 创建 C1 模块:输入通道 16,输出通道 32,n=2(两个 3x3 卷积)c1_block=C1(c1=16,c2=32,n=2)# 3. 前向传播withtorch.no_grad():out=c1_block(x)print("输入形状:",x.shape)# [1, 16, 64, 64]print("输出形状:",out.shape)# [1, 32, 64, 64]# 4. 使用真实图像演示(需将图像转为特征图,这里直接展示输入输出通道0)img_path="cat_640x640.png"img_bgr=cv2.imread(img_path)ifimg_bgrisnotNone:# 缩放到 64x64,转为灰度图并升维为单通道特征img_gray=cv2.cvtColor(cv2.resize(img_bgr,(64,64)),cv2.COLOR_BGR2GRAY)img_tensor=torch.from_numpy(img_gray).float().unsqueeze(0).unsqueeze(0)# [1,1,64,64]# 为了匹配 c1=16,复制通道(模拟特征图)x_img=img_tensor.repeat(1,16,1,1)# [1,16,64,64]# 创建 C1 模块(输入16,输出32,n=1)c1_img=C1(c1=16,c2=32,n=1)withtorch.no_grad():out_img=c1_img(x_img)# [1,32,64,64]# 可视化:输入通道0、输出通道0inp_ch0=x_img[0,0].cpu().numpy()out_ch0=out_img[0,0].cpu().numpy()defnorm(arr):return(arr-arr.min())/(arr.max()-arr.min()+1e-8)plt.figure(figsize=(12,5),constrained_layout=True)plt.subplot(1,3,1)plt.imshow(img_gray,cmap='gray')plt.title("Original Gray")plt.axis("off")plt.subplot(1,3,2)plt.imshow(norm(inp_ch0),cmap='gray')plt.title("Input Ch0")plt.axis("off")plt.subplot(1,3,3)plt.imshow(norm(out_ch0),cmap='gray')plt.title("C1 Output Ch0")plt.axis("off")plt.savefig("c1_demo.png",dpi=150)print("可视化已保存为 c1_demo.png")


输出示例

输入形状: torch.Size([1, 16, 64, 64]) 输出形状: torch.Size([1, 32, 64, 64]) 可视化已保存为 c1_demo.png

流程示意图


代码解读

  • __init__
    • self.cv1:1×1 卷积,用于调整通道数并整合跨通道信息。
    • self.m:由nConv(c2, c2, 3)组成的序列,每个卷积保持通道数不变,步长为 1,自动填充(autopad(3))保证空间尺寸不变。
  • forward
    • y = self.cv1(x)得到中间特征。
    • self.m(y)经过 n 个 3×3 卷积提取更深层特征。
    • 最后将yself.m(y)逐元素相加,形成残差连接。

注意事项

  1. 通道数变化:1×1 卷积将输入通道从c1变为c2,后续 3×3 卷积保持c2不变,因此输出通道为c2
  2. n 的作用n控制 3×3 卷积的堆叠数量,可增加模型深度,但也会带来更多计算量。
  3. 空间尺寸不变:所有卷积步长均为 1,填充为自动 same,因此输入输出空间尺寸完全相同。
  4. 残差连接:由于yself.m(y)形状相同,可直接相加,无需额外投影。
  5. 与标准 Bottleneck 的区别:标准瓶颈通常包含两个卷积(1×1 降维、3×3 卷积、1×1 升维),而C1只有 1 个 1×1 和多个 3×3,结构更简洁。

优缺点

优点
  1. 参数量较少:相比标准瓶颈,C1减少了 1×1 卷积的数量,尤其当n较小时更轻量。
  2. 残差结构:缓解梯度消失,便于训练更深网络。
  3. 灵活调节深度:通过n可方便地控制网络深度。
  4. 即插即用:可嵌入 YOLO、ResNet 等架构中。
缺点
  1. 表达能力有限:仅使用单一 1×1 卷积进行通道变换,可能不如双瓶颈结构(降维再升维)表达力强。
  2. 计算量随 n 线性增长n较大时,3×3 卷积堆叠会增加计算开销。
  3. 无显式 CSP 分割:未像标准 CSP 那样将特征图分为两部分分别处理,可能影响梯度多样性。

在 YOLOv5 等网络中,C1常作为C3模块的基础组件(C3包含两个C1分支)。实际使用时,可根据任务需求调整n值,并在通道数较大的层适当增加n以提升特征提取能力。

参考文献

[1] https://docs.ultralytics.com/
[2] https://github.com/ultralytics/ultralytics.git

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏、人工智能混合编程实践专栏或我的个人主页查看
  • YOLOs-CPP:一个免费开源的YOLO全系列C++推理库(以YOLO26为例)
  • PaddleOCR:Win10上安装使用PPOCRLabel标注工具
  • 目标检测:使用自己的数据集微调DEIMv2进行物体检测
  • 图像分割:PyTorch从零开始实现SegFormer语义分割
  • 图像超分:使用自己的数据集微调Real-ESRGAN-x4plus进行超分重建
  • 图像生成:PyTorch从零开始实现一个简单的扩散模型
  • Stable Diffusion:使用自己的数据集微调 Stable Diffusion 3.5 LoRA 文生图模型
  • 图像超分:使用自己的数据集微调Real-ESRGAN-x2plus进行超分重建
  • Anomalib:使用Anomalib 2.1.0训练自己的数据集进行异常检测
  • Anomalib:在Linux服务器上安装使用Anomalib 2.1.0
  • 人工智能混合编程实践:C++调用封装好的DLL进行异常检测推理
  • 人工智能混合编程实践:C++调用封装好的DLL进行FP16图像超分重建(v3.0)
  • 隔离系统Python:源码编译3.11.8到自定义目录(含PGO性能优化)
  • 在线机的Python环境迁移到离线机上
  • Nuitka 将 Python 脚本封装为 .pyd 或 .so 文件
  • Ultralytics:使用 YOLO11 进行速度估计
  • Ultralytics:使用 YOLO11 进行物体追踪
  • Ultralytics:使用 YOLO11 进行物体计数
  • Ultralytics:使用 YOLO11 进行目标打码
  • 人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理
  • 人工智能混合编程实践:C++调用封装好的DLL进行YOLOv8实例分割
  • 人工智能混合编程实践:C++调用Python ONNX进行图像超分重建
  • 人工智能混合编程实践:C++调用Python AgentOCR进行文本识别
  • 通过计算实例简单地理解PatchCore异常检测
  • Python将YOLO格式实例分割数据集转换为COCO格式实例分割数据集
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目
  • Stable Diffusion:在服务器上部署使用Stable Diffusion WebUI进行AI绘图(v2.0)
  • Stable Diffusion:使用自己的数据集微调训练LoRA模型(v2.0)
http://www.jsqmd.com/news/1128789/

相关文章:

  • Unity Mod Manager终极指南:3步搞定Unity游戏模组安装与管理
  • TotalSegmentator:如何快速实现医学图像中117个解剖结构的自动分割?
  • OneNote专业迁移指南:终极免费工具助你无损转换到Markdown
  • TVA推动物理AI的具身智能革命(2)
  • AI基础0-人工智能的数学基础
  • Office 365中的Custom Shell详细功能介绍
  • Plone系统卸载指南:PSE2010环境下安全Unload操作详解
  • MAA明日方舟助手:5个核心功能实现游戏日常自动化终极指南
  • JavaWeb快速入门:Maven核心功能详解——标准项目结构、构建流程与依赖管理
  • Herbie:Python中的高效天气数据下载利器
  • Serverless(无服务器架构)与传统架构(如单体应用、虚拟机或容器化部署)在设计理念、运维模式、成本模型、扩展性及适用场景等方面存在显著差异
  • Node.js 图片压缩服务:小产品也要管住队列和失败
  • Token 驱动 Agent 闭环落地:跳出 AI 低价内卷,开发者高阶商业化完整方案
  • Kubernetes 系列【4】基础概念
  • OpenCV中的「SVM分类器」:从理论到实战,手把手教你构建图像分类模型
  • 【每天认识一个国家 | 荷兰】
  • ClamAV – 开源跨平台反病毒引擎
  • COCOMO(Constructive Cost Model)基本模型是一种用于估算软件开发工作量的经验模型
  • 场景机制低帧怎么定位:半透明门、遮挡体、隐藏物件与 LOD 的联合排查
  • Science Advances:大脑如何整合疼痛预测和刺激
  • Eaphammer实战:揭秘WPA2-Enterprise无线网络的安全测试与防御
  • TVA对具身智能领域“莫拉维克悖论“的挑战(9)
  • LTC6904与PIC18LF24K50构建高精度方波发生器方案
  • TVA推动物理AI的具身智能革命(3)
  • 数据产业服务分类(30)——数据产业——数字经济核心产业与数据产业
  • 【AVRCP】规范精讲[37]:车机直接点歌播放?AVRCP Browse and Play 全流程拆解
  • ORB-SLAM3 GetCurrentMap
  • 图吧工具箱:自动化运维批量检测实战
  • 机器学习与模式识别 第十六章 Transformers 考点压缩
  • PG 日报|PG20 计划移除老旧 contrib 模块