当前位置：首页 > news >正文

目标检测模型和语言模型

news 2026/7/15 9:14:42

目标检测模型

目标检测模型
- 基础知识
- - 像素操作
  - YOLO模型
  - - YOLOv5：
    - YOLOv8：
  - 模型序列化格式
  - 模型量化
  - 模型部署
- YOLO模型训练
- - 1、数据集组织结构
  - 2、数据集的划分
  - 3、标注文件的转换
  - 4、训练数据的配置文件（train.yaml）
  - 5、加载预训练模型开始训练
  - 6、训练参数设置
  - 7、评估模型性能
  - 8、改进策略
模型推理
- 数据预处理
- 数据后处理

目标检测模型

基础知识

像素操作

常用读图工具的默认通道格式
- opencv：BGR（HWC：BGRBGR…）
- PIL：RGB
- Ultralytics 框架：RGB（CHW：RRR…GGG…BBB…）

YOLO模型

模型输出边界框的坐标表示方式

YOLOv5：

模型不同版本的参数
模型输入输出
模型输入数据的格式：BCHW
模型输入数据的色彩空间：RGB
模型输出数据的格式：【batch_size、预测框个数、预测框信息维度】
预测框信息维度（xywhn）：normal_x_center、 nromal_y_center、 normal_width、 normal_height、obj_confidence、class_0_Probability、class_1_Probability…class_N_Probability。
总预测框个数计算方式：cnt = ( input_w * input_h / (88) + input_w * input_h / (1616) + input_w * input_h / (32*32) ) * 3

YOLOv8：

模型使用三个不同尺度 80×80（stride=8）、 40×40（stride=16）、20×20（stride=32）的特征图上进行边界框预测，每个特征图上的每个网格点预测一个目标框； 直接预测边界框坐标，无需预定义锚框；

模型不同版本的参数
模型输入输出
模型输入数据的格式：BCHW
模型输入数据的色彩空间：RGB
模型输出数据的信息格式：【batch_size、预测框信息维度、预测框个数】
预测框信息维度（xywh）： x_center、 y_center、 width、 height、class_0_Probability、class_1_Probability…class_N_Probability。
总预测框个数计算方式：cnt = input_w * input_h / (88) + input_w * input_h / (1616) + input_w * input_h / (32*32)

模型序列化格式

模型序列化的格式：

TorchScript：
- PyTorch框架专属序列化格式；支持动态图；
- 适用推理引擎：PyTorch、LibTorch（C++）、TorchScript Mobile；
- 支持更复杂的控制流（如循环、条件判断)；对自定义算子、复杂逻辑的支持更好；
- 更容易保留原始模型的行为
ONNX：
- 支持多框架（PyTorch、TensorFlow、Keras、MXNet 等）序列化导出模型；
- 适用推理引擎：ONNX Runtime、TensorRT、OpenVINO、Core ML、NCNN ；
- 计算图是静态的，某些动态结构（如可变长度循环）可能无法导出；
- 依赖于算子集（operator set），如果模型中包含不支持的算子，导出会失败或需要自定义扩展
pt：
- Pytorch原生格式
engine:
- Tensort 导出的格式

模型量化

量化感知训练（QAT）：量化感知训练（Quantization-Aware Training, QAT），是一种在训练后期引入“伪量化”节点，模拟量化过程中的舍入和范围限制，让模型权重和激活值在训练中“适应”量化带来的噪声，从而在部署时获得更高的推理速度和更低的资源消耗，同时最大程度保留精度。
- 目前存在问题：
  对开发者熟悉PyTorch底层机制的要求较高；
  自定义OP或多分支结构易导致量化失败；
  缺乏自动化敏感层识别与量化策略推荐功能。
训练后量化（PTQ）：训练后量化，简单快速，但精度损失较大；

模型部署

重点关注指标：mAP（精度）、FPS（延迟）、功耗（能效）

YOLO模型训练

1、数据集组织结构

dataset/
├── images/
│ ├── train/
│ └── val/
├── labels/
│ ├── train/
│ └── val/
└── data.yaml

2、数据集的划分

训练集和验证集的划分，一般将数据集的图片进行随机打乱，然后按照一定比例进行划分。
训练集的划分：80%，验证集的划分：10%，测试集的划分：10%

3、标注文件的转换

不能直接使用标注软件labelMe导出的 .Json 格式文件，需要先将其转换为 YOLO 格式的 .txt 文件。
== YOLO 格式的txt标注文件结构为：==
class_id x_center y_center width height
说明：
1. 每一行都是同一张图片里的一个目标
2. 类别 ID 从 0 开始连续编号
3. LabelMe标注文件中存在的是类型的名字，而YOLO标注格式存的是类别的编号，所以需要建立类别编号和类别名字的对应关系。
4. 中心点和宽高需归一化到 [0, 1]（相对于图像宽高）； x_center y_center 为目标框的中心点归一化后的坐标：

x_center=(left_top_x+right_bottom_x)/2/img_width y_center=(left_top_y+right_bottom_y)/2/img_height width=abs(right_bottom_x-left_top_x)/img_width height=abs(right_bottom_y-left_top_y)/img_height

4、训练数据的配置文件（train.yaml）

path: /home/mec/wxj/ultralytics/myTest/datasets train: train (相对于path的路径) val: val (相对于path的路径) test: test (相对于path的路径) names: 0: ambu # id 与label 之间必须加空格隔开 1: bigtru 2: bike

查看全文

http://www.jsqmd.com/news/459471/