当前位置：首页 > news >正文

Yolov5 + Deepsort 实战：从零构建自定义多目标追踪系统（避坑指南）

news 2026/4/20 7:55:29

1. 环境配置与版本选择避坑指南

第一次接触Yolov5+Deepsort组合时，我最头疼的就是环境版本冲突问题。记得去年用conda安装时，torch和torchvision版本不匹配导致CUDA报错，整整折腾了两天。这里分享我的终极解决方案：

基础环境：推荐Ubuntu 20.04 + Python 3.8组合，实测兼容性最佳。Windows用户建议使用WSL2，原生Windows下编译opencv容易出问题

关键版本：

# 核心库版本（2023年实测稳定组合） torch==1.10.0+cu113 torchvision==0.11.1+cu113 opencv-python==4.5.5.64

常见坑点：
1. 安装torch时一定要带cu后缀指定CUDA版本，否则默认安装CPU版
2. Deepsort的nms模块需要单独编译，遇到ImportError: cannot import name 'nms'错误时：
```
cd deep_sort_pytorch/deep_sort/nms python setup.py build_ext --inplace
```
3. 显卡驱动版本建议≥470，低版本可能导致CUDA out of memory假报错

注意：不要直接pip install最新版！我在RTX 3090上测试发现torch 2.0+会导致Yolov5推理速度下降30%

2. 数据准备的特殊处理技巧

2.1 目标检测数据集制作

Yolov5训练需要YOLO格式标注，但很多公开数据集是VOC或COCO格式。这里给出我的转换脚本：

import xml.etree.ElementTree as ET import os def voc2yolo(xml_path, classes): tree = ET.parse(xml_path) root = tree.getroot() size = root.find('size') img_w = float(size.find('width').text) img_h = float(size.find('height').text) results = [] for obj in root.iter('object'): cls = obj.find('name').text if cls not in classes: continue xmlbox = obj.find('bndbox') xmin = float(xmlbox.find('xmin').text) ymin = float(xmlbox.find('ymin').text) xmax = float(xmlbox.find('xmax').text) ymax = float(xmlbox.find('ymax').text) # 转换为中心点+宽高（归一化） x_center = ((xmin + xmax)/2) / img_w y_center = ((ymin + ymax)/2) / img_h width = (xmax - xmin) / img_w height = (ymax - ymin) / img_h results.append(f"{classes.index(cls)} {x_center} {y_center} {width} {height}") return '\n'.join(results)

2.2 ReID数据集的特殊处理

Deepsort的ReID模块需要行人重识别数据集，必须遵循以下规则：

目录结构示例：

dataset/ ├── train/ │ ├── person_001/ # 每个ID单独文件夹 │ │ ├── 001.jpg │ │ └── 002.jpg │ └── person_002/ └── test/ └── ...

图像尺寸建议统一为128x256，可以使用这个批量处理脚本：

from PIL import Image import os def resize_images(input_dir, output_dir, size=(128,256)): os.makedirs(output_dir, exist_ok=True) for root, _, files in os.walk(input_dir): for file in files: if file.endswith(('.jpg','.png')): img_path = os.path.join(root, file) rel_path = os.path.relpath(root, input_dir) save_dir = os.path.join(output_dir, rel_path) os.makedirs(save_dir, exist_ok=True) with Image.open(img_path) as img: img = img.resize(size, Image.ANTIALIAS) img.save(os.path.join(save_dir, file))

3. 模型训练实战细节

3.1 Yolov5自定义训练

使用官方仓库训练时，这几个参数最影响效果：

# data/custom.yaml train: ../train/images val: ../valid/images nc: 3 # 类别数 names: ['person', 'car', 'bike'] # 按实际修改

启动训练命令（关键参数说明）：

python train.py \ --img 640 \ # 输入尺寸 --batch 16 \ # 根据显存调整 --epochs 100 \ # 小数据集建议增加 --data custom.yaml \ # 配置文件 --weights yolov5s.pt \ # 预训练模型 --device 0 \ # GPU ID --rect \ # 矩形训练（提升小目标检测） --adam # 小数据集推荐使用

实测发现：当训练样本少于1000张时，使用--adam优化器比默认SGD效果提升约15%

3.2 Deepsort重识别模型训练

修改deep_sort_pytorch/deep_sort/deep/train.py中的关键配置：

# 数据集路径设置 parser.add_argument('--data-dir', default='data/', help='训练数据根目录') # 模型参数调整（适用于1080Ti级别显卡） parser.add_argument('--lr', type=float, default=0.01, help='学习率') parser.add_argument('--momentum', type=float, default=0.9) parser.add_argument('--weight-decay', type=float, default=1e-4)

启动训练前务必执行：

export CUDA_LAUNCH_BLOCKING=1 # 调试时显示具体CUDA错误 nohup python train.py --data-dir your_dataset > train.log 2>&1 &

常见问题处理：

出现NaN loss：降低学习率或增加batch size
准确率波动大：添加--warmup-epochs 5参数

4. 集成测试与性能优化

4.1 联合推理脚本修改

官方track.py需要调整以下关键点：

# 在track.py开头添加 import warnings warnings.filterwarnings("ignore", category=UserWarning) # 过滤PyTorch警告 # 修改检测阈值（根据实际场景调整） parser.add_argument('--conf-thres', type=float, default=0.5, help='目标置信度阈值') parser.add_argument('--iou-thres', type=float, default=0.5, help='IOU阈值') # 增加异常处理（避免空检测崩溃） try: bbox_xywh = detections[:, :4] confs = detections[:, 4] clss = detections[:, 5] except IndexError: continue

4.2 实时性能优化技巧

在我的RTX 3060上测试1080p视频时，通过这些优化将FPS从15提升到28：

模型量化：

model = torch.quantization.quantize_dynamic( model, {torch.nn.Linear}, dtype=torch.qint8 )

OpenCV加速：

cap = cv2.VideoCapture() cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'MJPG')) cap.set(cv2.CAP_PROP_FPS, 30)

多进程处理：

from multiprocessing import Process, Queue def detect(queue): while True: img = queue.get() # 检测逻辑 ... if __name__ == '__main__': queue = Queue() p = Process(target=detect, args=(queue,)) p.start()

最后测试时建议使用这个命令：

python track.py \ --yolo-weights best.pt \ --deep-sort-weights ckpt1.t7 \ --source test.mp4 \ --show-vid \ --save-vid \ --device 0 \ --half # 使用FP16加速

遇到跟踪ID跳变问题时，可以调整deep_sort/configs/deep_sort.yaml中的：

max_dist: 0.2 # 特征距离阈值（越小匹配越严格） max_iou_distance: 0.7 # IOU距离阈值 max_age: 30 # 目标丢失保持帧数

查看全文

http://www.jsqmd.com/news/661296/

AI工程化之生成式UI A2UI（五）

Rust变量与类型

ARM平台下atomic_add的底层实现：ldrex/strex指令是如何保证原子性的？

XCP协议

从零开始：如何快速构建你的开源四足机器人OpenDog V3终极指南

如何用MATLAB圆形图工具快速可视化复杂网络数据？终极指南

AutoMoT：一种基于异步 Transformer 混合模型的端到端自动驾驶统一VLA模型

3步告别网盘限速烦恼：LinkSwift开源下载助手终极指南

从PCIe设备到RDMA网卡：手把手拆解Linux内核中DMA映射的完整流程（含sg_table与pci_map_sg）

AudioSeal Pixel Studio基础教程：自定义CSS注入修改Ocean Pixel Blue主题配色

MIT App Inventor完整指南：零代码开发Android/iOS应用的终极解决方案

音乐格式转换神器：5分钟轻松解锁加密音频文件

仅剩72小时！2026奇点大会配额管理沙盒环境开放倒计时：手把手带你跑通配额策略AB测试全流程

终极Windows风扇控制指南：5分钟学会FanControl精准调速

手把手教你玩转80C51存储空间：EA引脚配置+中断向量表实战

【JVM深度解析】第25篇：volatile与synchronized深度原理

3分钟解密：如何用Sharp-dumpkey找回丢失的微信聊天记录？

如何用Go-CQHTTP构建你的专属QQ机器人：从零到一的完整指南

云服务中断频发，企业如何平衡公共云可靠性与成本控制？

GHelper完整指南：3步告别华硕笔记本臃肿控制软件，体验轻量级极致性能管理

真正让Claude Code效率翻倍的几个玩法

自动化测试用例设计

你的USB2.0设备总掉线？可能是这3个电路设计细节没做好（附EMC整改实测案例）

Flutter/React Native跨平台App如何做代码加固？2026年方案盘点

KS-Downloader：专业级快手无水印视频下载解决方案

Kubernetes StatefulSet 数据持久化实践

TCP三次握手流程

雀魂AI助手：你的实时麻将策略分析教练免费使用指南

GEMMA混合模型基因组关联分析：技术原理深度解析与高效应用实战

Fortify扫描中Access Control: Database问题的3种实战绕过技巧（附代码）