当前位置: 首页 > news >正文

fjvihcicipcjacv

一、yolo v1是什么?
YOLO(You Only Look Once)算法 是一种目标检测算法,是经典的one-stage方法。YOLO v1 开创了单阶段目标检测的先河,其简洁的架构 和高效的推理为后续版本奠定了基础。尽管存在小目标检测和定位精度的局限性,但其“端到端”的设计思想深刻影响了目标检测领域的发展。

二、核心思想
将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object。


三、yolo v1的网络架构
1.网络架构
网络结构借鉴了 GoogLeNet 。24个卷积层,2个全链接层。(用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules )

从上面的网络结构中发现经历多次卷积以及两次全连接后神经元的个数为1x1470,经过reshape后刚好变为7x7x30,7×7意味着7×7个grid cell,30表示每个grid cell包含30个信息,其中2个预测框(yolo-v1模型是有两个预测框的),每个预测框包含5个信息(x y w h c),分别为中心点位置坐标,宽高以及置信度(confidence),剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体,那么它是某个类别的概率)。

每个grid有30维,这30维中,8维是回归box的坐标,2个B是box的confidence,还有20维是类别。 其中坐标的x,y(相对于网格单元格边界的框的中心)用对应网格的归一化到0-1之间,w,h用图像的width和height归一化到0-1之间。每个预测框的中心位置坐标是不同的。

2.置信度(confidence)
置信度(confidence)=类概率*IoU

表示某个预测框中存在目标的可能性大小,是一个介于 0 到 1 之间的数值。例如,一个预测框的目标存在置信度为 0.8,意味着模型有 80% 的把握认为该预测框中包含一个目标。

1)类概率
该网格是否包含目标(0 或 1);

2)IoU
预测框与真实框的交并比。

四、损失函数
YOLO-V1算法最后输出的检测结果为7x7x30的形式,其中30个值分别包括两个候选框的位置和有无包含物体的置信度以及网格中包含20个物体类别的概率。那么YOLO的损失就包括三部分:位置误差,confidence误差,分类误差。
损失函数的设计目标就是让坐标(x,y,w,h),confidence,classification这个三个方面达到很好的平衡。


1.定位误差
1)中心点定位误差


:输入图像被划分为 S×S 个网格(YOLOv1 中 S=7)

:每个网格预测 B个边界框(YOLOv1 中 B=2)

:指示函数,表示第 i个网格的第 j个预测框是否负责预测这个物体

判断标准:该预测框与真实框的 IoU 最大

:真实框的中心点坐标(相对于当前网格的偏移,归一化到 0~1)

:预测框的中心点坐标

:定位误差的权重系数(YOLOv1 中设为 5,为了加大定位误差的惩罚)

2)宽高定位误差


:真实框的宽度和高度(相对于整张图像归一化)

:预测框的宽度和高度

为什么要用平方根?

为了平衡大框和小框的误差影响

同样的绝对误差,对小框的影响更大,开方后可以减小这种偏差

2.置信度误差
1)包含物体的置信度误差


这一项只计算负责预测物体的那个框

2)不包含物体的置信度误差


3.类别预测误差


注意:这里的求和只对包含物体的网格进行,并且只对负责预测的框进行

五、yolo v1中的非极大值抑制(NMS)


非极大值抑制(Non-Maximum Suppression, NMS)是目标检测中用于消除冗余检测框的后处理算法,其核心思想是:
在重叠区域中,仅保留置信度最高的检测框,抑制其他同类别且重叠度高的低置信度框,从而避免对同一物体多次重复检测。

1、核心步骤
(1)按置信度排序:对所有预测框按置信度(confidence score)从高到低排序。

(2)选取最高分框:将当前最高置信度的框作为保留结果。

(3)抑制重叠框:计算该框与剩余框的交并比(IoU),若IoU超过设定阈值(如0.5),则视为冗余框并剔除。

(4)循环迭代:对剩余未处理的框重复步骤2-3,直到所有框被处理。

2、关键作用
解决重复检测:模型可能对同一物体预测多个重叠框,NMS保留最优结果。

提升输出质量:减少假阳性(False Positive),使检测结果更简洁、准确。

平衡精度 与召回率:通过调整IoU阈值,控制检测框的严格程度(阈值越高,保留框越少)。

六、yolo v1的优缺点
1、优点
速度快,简单

2、缺点
1)每个cell只预测1个类别,如果重叠无法解决

2)小物体检测效果一般,长宽比可选,但单一。

一、yolo v1是什么?
YOLO(You Only Look Once)算法 是一种目标检测算法,是经典的one-stage方法。YOLO v1 开创了单阶段目标检测的先河,其简洁的架构 和高效的推理为后续版本奠定了基础。尽管存在小目标检测和定位精度的局限性,但其“端到端”的设计思想深刻影响了目标检测领域的发展。

二、核心思想
将一幅图像分成SxS个网格(grid cell),如果某个object的中心 落在这个网格中,则这个网格就负责预测这个object。


三、yolo v1的网络架构
1.网络架构
网络结构借鉴了 GoogLeNet 。24个卷积层,2个全链接层。(用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules )

从上面的网络结构中发现经历多次卷积以及两次全连接后神经元的个数为1x1470,经过reshape后刚好变为7x7x30,7×7意味着7×7个grid cell,30表示每个grid cell包含30个信息,其中2个预测框(yolo-v1模型是有两个预测框的),每个预测框包含5个信息(x y w h c),分别为中心点位置坐标,宽高以及置信度(confidence),剩下20个是针对数据集的20个种类的预测概率(即假设该grid cell负责预测物体,那么它是某个类别的概率)。

每个grid有30维,这30维中,8维是回归box的坐标,2个B是box的confidence,还有20维是类别。 其中坐标的x,y(相对于网格单元格边界的框的中心)用对应网格的归一化到0-1之间,w,h用图像的width和height归一化到0-1之间。每个预测框的中心位置坐标是不同的。

2.置信度(confidence)
置信度(confidence)=类概率*IoU

表示某个预测框中存在目标的可能性大小,是一个介于 0 到 1 之间的数值。例如,一个预测框的目标存在置信度为 0.8,意味着模型有 80% 的把握认为该预测框中包含一个目标。

1)类概率
该网格是否包含目标(0 或 1);

2)IoU
预测框与真实框的交并比。

四、损失函数
YOLO-V1算法最后输出的检测结果为7x7x30的形式,其中30个值分别包括两个候选框的位置和有无包含物体的置信度以及网格中包含20个物体类别的概率。那么YOLO的损失就包括三部分:位置误差,confidence误差,分类误差。
损失函数的设计目标就是让坐标(x,y,w,h),confidence,classification这个三个方面达到很好的平衡。


1.定位误差
1)中心点定位误差


:输入图像被划分为 S×S 个网格(YOLOv1 中 S=7)

:每个网格预测 B个边界框(YOLOv1 中 B=2)

:指示函数,表示第 i个网格的第 j个预测框是否负责预测这个物体

判断标准:该预测框与真实框的 IoU 最大

:真实框的中心点坐标(相对于当前网格的偏移,归一化到 0~1)

:预测框的中心点坐标

:定位误差的权重系数(YOLOv1 中设为 5,为了加大定位误差的惩罚)

2)宽高定位误差


:真实框的宽度和高度(相对于整张图像归一化)

:预测框的宽度和高度

为什么要用平方根?

为了平衡大框和小框的误差影响

同样的绝对误差,对小框的影响更大,开方后可以减小这种偏差

2.置信度误差
1)包含物体的置信度误差


这一项只计算负责预测物体的那个框

2)不包含物体的置信度误差


3.类别预测误差


注意:这里的求和只对包含物体的网格进行,并且只对负责预测的框进行

五、yolo v1中的非极大值抑制(NMS)


非极大值抑制(Non-Maximum Suppression, NMS)是目标检测中用于消除冗余检测框的后处理算法,其核心思想是:
在重叠区域中,仅保留置信度最高的检测框,抑制其他同类别且重叠度高的低置信度框,从而避免对同一物体多次重复检测。

1、核心步骤
(1)按置信度排序:对所有预测框按置信度(confidence score)从高到低排序。

(2)选取最高分框:将当前最高置信度的框作为保留结果。

(3)抑制重叠框:计算该框与剩余框的交并比(IoU),若IoU超过设定阈值(如0.5),则视为冗余框并剔除。

(4)循环迭代:对剩余未处理的框重复步骤2-3,直到所有框被处理。

2、关键作用
解决重复检测:模型可能对同一物体预测多个重叠框,NMS保留最优结果。

提升输出质量:减少假阳性(False Positive),使检测结果更简洁、准确。

平衡精度 与召回率:通过调整IoU阈值,控制检测框的严格程度(阈值越高,保留框越少)。

六、yolo v1的优缺点
1、优点
速度快,简单

2、缺点
1)每个cell只预测1个类别,如果重叠无法解决

2)小物体检测效果一般,长宽比可选,但单一。
————————————————
版权声明:本文为CSDN博主「Pyeako」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/2301_77717128/article/details/158542510

http://www.jsqmd.com/news/530829/

相关文章:

  • React 图片放大镜组件使用文档
  • curl-for-win实战指南:构建可复现的跨平台命令行网络工具
  • 如何通过并行测试将ChezScheme测试时间从53分钟缩短到8分钟
  • 密码管理与数据安全:使用ChromePass高效管理浏览器密码的完整指南
  • 幻兽帕鲁存档高效迁移全攻略:从问题诊断到跨平台解决方案
  • 2026年正规眉眼唇纹培训TOP5品牌推荐:仿真眉、野生眉、羽雕眉、仿真眉学校、光影雾眉、内眼线学校、半永久培训学校选择指南 - 优质品牌商家
  • 不只是装软件:用VCC创建你的第一个VRChat Avatar项目,从工程设置到SDK导入
  • 团队协作必备:用pip freeze和requirements.txt搞定Python项目环境复现
  • 衡水铭畅橡塑:钢丝胶管、高压橡胶油管、高压橡胶管、高压橡胶管软管、高压橡胶软管、高压水管、高压油管、高压管道、高压胶管总成选择指南 - 优质品牌商家
  • 推荐系统颠覆性突破:AAAI揭秘Agent推荐新逻辑(非常详细),从小白到大神,收藏这一篇就够了!
  • 永磁同步电机滑模观测SMO无位置传感器控制仿真模型【附参考文献及文档】 资料内容: (1)仿真...
  • win11+Ubuntu 22.04.5双系统安装
  • 基于Token机制的DeepSeek-OCR-2访问控制方案
  • 如何用Win11Debloat解决Windows 11的5大系统性能问题?
  • 计算机视觉、YOLO算法模型训练、无人机监测人员密集自动识别
  • 告别Python依赖!C++手把手教你实现大整数加减乘除(附完整代码与避坑指南)
  • 乙巳马年·皇城大门春联生成终端W持续集成与交付(CI/CD)流水线搭建
  • 龙芯+浪潮,中国云计算要“去x86“了!
  • NetGen:高效精准的3D四面体网格生成器技术指南
  • STEP3-VL-10B轻量级方案:在MMMU基准测试中得分78.11,STEM推理能力突出
  • ArrayList 扩容机制:
  • AI人脸隐私卫士应用:家庭合影、旅行照片自动打码全攻略
  • HunyuanVideo-Foley多风格生成展示:从科幻电子音到自然白噪音
  • 收藏!小白程序员必备:详解AI Agent四种核心部署模式,助你快速上手大模型实战
  • complex.pdb含有俩化合物找氢键
  • 同样是GIS开发简历,为什么他的能让HR看完就发Offer?
  • 保姆级教程:手把手教你用YOLO11-MM搞定夜间行车目标检测(附PyTorch代码)
  • Wan2.2-I2V-A14B跨平台开发:在WSL2中体验无缝的Linux开发与调试
  • Java笔记——反射
  • 别再死记硬背了!用JavaScript手写一个三角函数计算器(附完整源码)