当前位置：首页 > news >正文

在Windows 10上用GTX 960M显卡跑YOLOv5：基于Pascal VOC 2012数据集的训练效率实测与调优心得

news 2026/4/21 12:13:15

在Windows 10上用GTX 960M显卡跑YOLOv5：基于Pascal VOC 2012数据集的训练效率实测与调优心得

当你想在个人电脑上实践目标检测模型训练时，老旧或中端显卡往往成为性能瓶颈。本文记录了在GTX 960M显卡（4GB显存）搭配Intel i7-6700HQ处理器的Windows 10系统上，使用Pascal VOC 2012数据集训练YOLOv5的完整过程。不同于常规教程，我们将重点分析硬件限制下的参数调优策略，包括batch size、workers数量等关键参数的取舍，以及如何解决Windows平台特有的"页面文件太小"等错误。如果你也在使用类似配置，这些实战经验能帮你节省大量试错时间。

1. 硬件环境准备与性能基准测试

1.1 测试平台规格详情

先来看这套五年前主流游戏本的硬件配置：

组件	型号/参数	备注
CPU	Intel i7-6700HQ	4核8线程，基础频率2.6GHz
GPU	NVIDIA GTX 960M	4GB GDDR5显存
内存	8GB DDR4	单通道
存储	512GB SATA SSD	读写约500MB/s
操作系统	Windows 10 21H2	专业版

提示：通过nvidia-smi命令可以查看GPU的CUDA计算能力，GTX 960M为5.0，刚好满足PyTorch的最低要求。

1.2 软件环境配置要点

为确保环境稳定，建议按以下版本组合安装：

conda create -n yolov5 python=3.8 conda install pytorch==1.9.0 torchvision==0.10.0 torchaudio==0.9.0 cudatoolkit=10.2 -c pytorch pip install -r requirements.txt # YOLOv5官方要求

关键组件版本选择依据：

CUDA 10.2：GTX 960M驱动最高支持到CUDA 10.2
cuDNN 8.3.0：与CUDA 10.2兼容的稳定版本
PyTorch 1.9.0：最后一个完整支持CUDA 10.2的稳定版本

2. Pascal VOC 2012数据集处理优化

2.1 数据集格式转换实战

原始Pascal VOC使用XML标注格式，需转换为YOLO格式的TXT文件。我们优化了转换脚本的内存使用：

# 改进的内存友好型转换脚本 def convert_annotation(image_id): in_file = f'VOCdevkit/VOC2012/Annotations/{image_id}.xml' out_file = f'VOCdevkit/VOC2012/YOLOLabels/{image_id}.txt' with open(in_file) as f: tree = ET.parse(f) root = tree.getroot() size = root.find('size') w = int(size.find('width').text) h = int(size.find('height').text) with open(out_file, 'w') as out_f: for obj in root.iter('object'): # ...（转换逻辑保持不变）...

转换后的目录结构应严格遵循：

VOCdevkit ├── images │ ├── train │ └── val └── labels ├── train └── val

2.2 小显存下的数据集加载技巧

对于4GB显存的GTX 960M，可采用以下策略减轻内存压力：

图像尺寸调整：将默认的640x640降至416x416
启用缓存：在data.yaml中添加cache: ram（需至少16GB内存）或cache: disk
预加载优化：修改datasets.py中的__getitem__方法：

def __getitem__(self, index): # 原始实现会同时加载图像和标签 # 修改为按需加载 img = self.imgs[index] if img is None: path = self.img_files[index] img = cv2.imread(path) self.imgs[index] = img # 缓存图像 # ...其余处理逻辑...

3. 训练参数调优实战

3.1 batch size与workers的平衡艺术

经过多次测试，得到不同参数组合下的训练速度对比：

batch_size	workers	内存占用	单个epoch时间	备注
4	0	3.2GB	2小时15分	最稳定方案
8	2	3.8GB	1小时50分	偶尔出现OOM
16	4	4.5GB+	崩溃	显存不足

注意：Windows平台下workers数量建议设为0，因为Python的多进程在Windows上效率较低且容易引发内存问题。

3.2 解决"页面文件太小"错误

这是Windows平台特有错误，可通过三种方式解决：

修改系统虚拟内存（推荐）：
- 设置至少16GB的页面文件
- 路径：控制面板 > 系统 > 高级系统设置 > 性能设置 > 高级 > 虚拟内存
代码级修改：在utils/datasets.py中找到以下代码并修改：

# 原始代码 num_workers = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8]) # 修改为（强制单进程） num_workers = 0

注册表调整（高级用户）：修改HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management中的PagedPoolSize

4. 模型选择与精度权衡

4.1 YOLOv5不同版本的性能对比

在GTX 960M上测试各模型变体的表现：

模型	参数量	输入尺寸	mAP@0.5	训练时间/epoch
YOLOv5n	1.9M	416x416	0.45	45分钟
YOLOv5s	7.2M	416x416	0.56	1小时20分
YOLOv5m	21.2M	416x416	0.61	2小时30分

对于老旧显卡，YOLOv5s是最佳平衡点。若追求更快速度，可考虑：

# models/yolov5s_custom.yaml depth_multiple: 0.33 # 原为0.33 width_multiple: 0.25 # 原为0.50（进一步缩小网络宽度）

4.2 训练过程中的监控技巧

使用以下命令实时监控硬件状态：

# Windows终端命令 nvidia-smi -l 1 # 每秒刷新GPU状态 tasklist /FI "IMAGENAME eq python.exe" # 查看Python进程内存

典型性能瓶颈分析：

GPU利用率低（<70%）：通常是数据加载瓶颈，尝试减少图像预处理复杂度
显存爆满：降低batch size或使用梯度累积
CPU满载：检查是否有其他后台进程占用资源

5. 实际训练日志分析

以下是一次完整训练的关键指标变化：

Epoch gpu_mem box obj cls total targets img_size 0/299 3.12G 0.0512 0.0201 0.00812 0.0794 35 416 50/299 3.14G 0.0385 0.0152 0.00621 0.0599 32 416 100/299 3.15G 0.0321 0.0128 0.00503 0.0499 30 416

观察到：