当前位置: 首页 > news >正文

YOLOv11 改进 - 损失函数 Shape-IoU:形状感知交并比损失函数通过动态调整权重增强尺度适应性,优化不规则目标准确定位

前言

本文介绍了Shape-IoU方法,用于改进YOLOv11的边框回归损失。现有边框回归方法常忽略边框自身形状与尺度对回归的影响,为此,作者先对边框回归特性分析,发现非正方形GT框中,边框形状与尺度差异会使IoU值显著不同,小尺度边框对GT框形状更敏感。基于此提出Shape-IoU损失函数,还针对小目标检测提出相关损失函数。我们将Shape-IoU代码加入ultralytics\utils\metrics.py,在ultralytics/utils/loss.py中导入并修改相关函数,最后给出验证脚本和结果。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

@

目录
  • 前言
  • 介绍
    • 摘要
  • 文章链接
  • 创新点
  • 方法
      • 1.边框回归特性分析
      • 2.Shape-IoU
  • 核心代码

介绍

image-20240130102437884

摘要

作为检测器定位分支的重要组成,边框回归损失在目标检测任务中发挥巨大作用。现有的边框回归方法,通常考虑了GT框与预测框之间的几何关系,通过使用边框间的相对位置与相对形状等计算损失,而忽略了边框其自身的形状与尺度等固有属性对边框回归的影响。为了弥补现有研究的不足,本文提出聚焦边框自身形状与尺度的边框回归方法。首先我们对边框回归特性进行分析,得出边框自身形状因素与尺度因素会对回归结果产生影响。接着基于以上结论我们,我们提出了Shape-IoU方法,其能够通过聚焦边框自身形状与自身尺度计算损失,从而使得边框回归更为精确。最后我们通过大量的对比实验来验证本文方法,实验结果表明本文方法能够有效提升检测效果且优于现有方法,在不同的检测任务中达到了sota.

文章链接

论文地址:论文地址

代码地址:代码地址

原文作者CSDN : https://blog.csdn.net/qq_45911380/article/details/135330376

视频讲解

创新点

  1. 本研究对边界框回归的特性进行了深入分析,并得出结论:在边界框回归过程中,回归样本的形状与尺度因素对回归结果有显著影响。

  2. 基于对现有边界框回归损失函数的考量,特别是考虑到回归样本自身形状与尺度对边界框回归的影响,提出了Shape-IoU损失函数。对于小目标检测任务,进一步提出了Shape-Dot-Distance和Shape-NWD损失函数。

  3. 采用当前最先进的单阶段检测器,在不同的检测任务上进行了一系列比较实验。实验结果证实,该方法在检测效果上优于现有方法,并达到了行业领先水平(State of the Art,SOTA)。

方法

1.边框回归特性分析

image-20240130103329056

如图所示,图a与图b中,边框回归样本A与B的基准框(GT框)尺度相同,样本C与D的基准框尺度亦相同。样本A与D的基准框形状相同,样本B与C的基准框形状相同。样本C与D的边框尺度大于样本A与B。在图a中,所有边框回归样本的偏移量(deviation)相同,形状偏移量(shape-deviation)为0。图b中,所有边框回归样本的形状偏移量相同,偏移量为0。观察结果如下:

- 图a中,样本A与B的偏移量相同,但它们的IoU值存在差异。
- 图a中,样本C与D的偏移量相同,但它们的IoU值存在差异,且与样本A与B相比,其IoU值差异较小。
- 图b中,样本A与B的形状偏移量相同,但它们的IoU值存在差异。
- 图b中,样本C与D的形状偏移量相同,但它们的IoU值存在差异,且与样本A与B相比,IoU值差异较小。

分析图a中样本A与B的IoU值差异可知,由于GT框形状不同(即长边和短边方向的偏差),对IoU值的影响各异。对于小尺度边框,其IoU值变化更敏感,GT框形状对IoU值的影响更显著。此外,图b中从形状偏移量角度分析边框回归,发现回归样本的GT框形状在回归过程中影响其IoU值。

基于以上分析,可以得出以下结论:

  • (1)在非正方形GT框中,即存在长边与短边的情况下,假设偏移量与形状偏移量均不为0,边框形状与尺度的差异会导致IoU值存在显著差异。
  • (2)在相同尺度的边框回归样本中,当偏移量与形状偏移量均不为0时,边框形状会显著影响IoU值,特别是沿边框短边方向的偏移。
  • (3)在形状相同的边框回归样本中,相较于大尺度样本,小尺度样本的IoU值更易受GT框形状影响。

2.Shape-IoU

image-20240130103346394

image-20240130103414509

其中,scale为尺度因子,与数据集中目标的尺度相关;ww与hh分别为水平方向与竖直方向的权重系数,与GT框的形状相关。对应的边框回归损失函数如下:

image-20240130103428748

核心代码

def shape_iou(box1, box2, xywh=True, scale=0, eps=1e-7):(x1, y1, w1, h1), (x2, y2, w2, h2) = box1.chunk(4, -1), box2.chunk(4, -1)w1_, h1_, w2_, h2_ = w1 / 2, h1 / 2, w2 / 2, h2 / 2b1_x1, b1_x2, b1_y1, b1_y2 = x1 - w1_, x1 + w1_, y1 - h1_, y1 + h1_b2_x1, b2_x2, b2_y1, b2_y2 = x2 - w2_, x2 + w2_, y2 - h2_, y2 + h2_# Intersection areainter = (torch.min(b1_x2, b2_x2) - torch.max(b1_x1, b2_x1)).clamp(0) * \(torch.min(b1_y2, b2_y2) - torch.max(b1_y1, b2_y1)).clamp(0)# Union Areaunion = w1 * h1 + w2 * h2 - inter + eps# IoUiou = inter / union#Shape-Distance    #Shape-Distance    #Shape-Distance    #Shape-Distance    #Shape-Distance    #Shape-Distance    #Shape-Distance  ww = 2 * torch.pow(w2, scale) / (torch.pow(w2, scale) + torch.pow(h2, scale))hh = 2 * torch.pow(h2, scale) / (torch.pow(w2, scale) + torch.pow(h2, scale))cw = torch.max(b1_x2, b2_x2) - torch.min(b1_x1, b2_x1)  # convex widthch = torch.max(b1_y2, b2_y2) - torch.min(b1_y1, b2_y1)  # convex heightc2 = cw ** 2 + ch ** 2 + eps                            # convex diagonal squaredcenter_distance_x = ((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2) / 4center_distance_y = ((b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4center_distance = hh * center_distance_x + ww * center_distance_ydistance = center_distance / c2#Shape-Shape    #Shape-Shape    #Shape-Shape    #Shape-Shape    #Shape-Shape    #Shape-Shape    #Shape-Shape    #Shape-Shape    omiga_w = hh * torch.abs(w1 - w2) / torch.max(w1, w2)omiga_h = ww * torch.abs(h1 - h2) / torch.max(h1, h2)shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4)#Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoU    #Shape-IoUiou = iou - distance - 0.5 * ( shape_cost)return iou  # IoU
http://www.jsqmd.com/news/798243/

相关文章:

  • 新手也能懂:用OllyDBG给exe程序“换句话”的保姆级图文教程
  • 芯片签核必知:SPEF文件里那些‘天书’一样的符号,到底在说什么?(附StarRC实例解析)
  • 抖音图片怎样去水印?2026 实测去水印方法与在线工具对比指南 - 科技热点发布
  • YOLOv11 改进 - 检测头 Detect_LSCD轻量共享卷积检测头:轻量化设计破解计算瓶颈,增强复杂场景目标感知能力
  • 全国重要的烟花爆竹生产基地
  • 组件库设计与开发:打造可复用的组件生态
  • 当Agent接入物联网:智能家居的终极形态畅想
  • 专业日志分析工具深度解析:LogExpert提升工作效率的7大实战技巧
  • 如何用3分钟永久保存你珍爱的B站视频?解密m4s-converter的智能转换方案
  • AD19原理图编译总报off grid pin警告?手把手教你从库源头搞定封装与栅格对齐
  • 华为光猫配置文件解密实战:网络工程师的高效工具箱
  • 项目-轻客管家1-环境准备
  • 十堰改灯首选|千言改灯(前沿改灯):2026最新十堰改灯市场分析十堰改灯首推首选五星级靠谱口碑门店 - Reaihenh
  • 洛谷 P1305:新二叉树 ← DFS
  • 抖音视频怎么去水印?手机电脑都能用的工具对比,2026 免费方案实测 - 科技热点发布
  • 从业者必看:医药资质认证服务核心知识梳理
  • AI东风起,深圳存储与液冷企业市值狂飙,催生一批百亿富豪
  • 工业AI和大模型是一回事吗?拆解制造业场景里的关键技术逻辑
  • 浙江省人民政府于2025年1月26日公布新版《浙江省重点保护陆生野生动物名录》
  • 构建高效团队协作平台:从作战室思维到工程化实践
  • 2026届最火的十大降AI率方案解析与推荐
  • C语言打印三角形别再只会用*了!用字母、数字、符号玩出新花样(附完整代码)
  • SiC晶圆划裂技术:原理、优化与量产挑战
  • Zynq-7000 PL端I2C IP核驱动光模块,设备树配置避坑指南(附完整DTS代码)
  • 2026去水印小程序哪个好用?4款微信小程序排行榜实测对比,新手秒上手 - 科技热点发布
  • Redis哨兵模式详解
  • 完整资源下载|MATLAB|Python代码|Simulink等资源下载|MATLAB|抽水蓄能电站系统的最优竞价策略研究
  • 在DMXAPI上遇见扣子:一次偶然,才开启的AI之旅
  • 从按键开机到I2C隔离:手把手拆解一个智能硬件项目里的MOS管实战配置
  • 从基础到进阶:掌握Matlab mean函数的全维度数据均值计算