当前位置：首页 > news >正文

用YOLOv5s搞定网易易盾滑动验证码缺口识别：30张图训练保姆级教程（附Labelme转YOLO脚本）

news 2026/3/27 7:24:55

30张图训练YOLOv5s识别滑动验证码缺口：从标注到部署全流程实战

验证码识别一直是爬虫开发中的难点，尤其是滑动验证码的缺口定位问题。传统方法依赖复杂的图像处理算法，而基于深度学习的目标检测技术让这个问题变得简单。本文将展示如何仅用30张标注图片，通过YOLOv5s模型实现高精度的滑动验证码缺口识别。

1. 环境准备与工具选择

在开始之前，我们需要搭建一个轻量级的开发环境。考虑到目标受众可能没有GPU设备，所有步骤都基于CPU环境设计。

基础环境要求：

Python 3.8+
PyTorch 1.7+
4GB以上内存（30张图训练完全够用）

# 创建虚拟环境 python -m venv yolo_env source yolo_env/bin/activate # Linux/Mac yolo_env\Scripts\activate # Windows # 安装基础依赖 pip install torch==1.7.1+cpu torchvision==0.8.2+cpu -f https://download.pytorch.org/whl/torch_stable.html

工具选择对比：

工具类型	选项	适用场景	优点	缺点
标注工具	Labelme	小样本标注	开源免费，支持多种格式	手动操作效率低
模型框架	YOLOv5s	轻量级检测	速度快，精度适中	对小目标敏感度一般
开发环境	CPU	资源有限场景	零成本	训练速度慢

提示：虽然使用CPU训练速度较慢，但对于30张图的小数据集，完整训练通常在1小时内完成。

2. 数据采集与标注技巧

2.1 高效获取验证码样本

对于网易易盾这类滑动验证码，手动截屏是最可靠的采集方式。建议：

使用浏览器开发者工具（F12）直接保存验证码元素
保持统一的截图分辨率和背景条件
样本应包含不同缺口位置的变化

优质数据集的特性：

缺口位置均匀分布（左、中、右）
包含10%的干扰样本（相似纹理但无缺口）
光照条件略有差异

2.2 Labelme标注实战

安装Labelme后，按以下步骤操作：

# Labelme安装命令 pip install labelme

标注时的关键点：

矩形框应紧密贴合缺口边缘
所有标注使用统一的标签名（如"gap"）
保存时自动生成JSON标注文件

标注文件结构示例：

imgs/ ├── captcha_001.jpg ├── captcha_001.json ├── captcha_002.jpg └── captcha_002.json

3. 数据格式转换与增强

3.1 Labelme转YOLO格式

以下是将Labelme JSON转换为YOLO格式的优化版脚本：

import os import json import random from pathlib import Path def convert_labelme_to_yolo(json_dir, output_dir, classes): # 创建输出目录 (output_dir/'labels').mkdir(parents=True, exist_ok=True) (output_dir/'images').mkdir(parents=True, exist_ok=True) for json_file in Path(json_dir).glob('*.json'): with open(json_file, 'r') as f: data = json.load(f) # 生成YOLO标注文件路径 txt_path = output_dir/'labels'/f"{json_file.stem}.txt" with open(txt_path, 'w') as f: for shape in data['shapes']: if shape['shape_type'] != 'rectangle': continue # 转换坐标到YOLO格式 points = shape['points'] x_center = (points[0][0] + points[1][0]) / 2 / data['imageWidth'] y_center = (points[0][1] + points[1][1]) / 2 / data['imageHeight'] width = abs(points[1][0] - points[0][0]) / data['imageWidth'] height = abs(points[1][1] - points[0][1]) / data['imageHeight'] class_id = classes.index(shape['label']) f.write(f"{class_id} {x_center:.6f} {y_center:.6f} {width:.6f} {height:.6f}\n") # 复制图像（实际项目可能需要转换格式） img_src = json_file.with_suffix('.jpg') img_dst = output_dir/'images'/img_src.name img_dst.write_bytes(img_src.read_bytes()) # 使用示例 convert_labelme_to_yolo( json_dir=Path('imgs'), output_dir=Path('yolo_data'), classes=['gap'] )

3.2 小样本数据增强

针对30张图的限制，可以在训练时启用YOLOv5的内置增强：

# data/augmentation.yaml train: ../train/images val: ../valid/images nc: 1 names: ['gap'] # 增强参数 augment: hsv_h: 0.015 # 色相增强 hsv_s: 0.7 # 饱和度增强 hsv_v: 0.4 # 明度增强 degrees: 5 # 旋转角度 translate: 0.1 # 平移 scale: 0.5 # 缩放 shear: 0.0 # 剪切 perspective: 0.0001 # 透视变换 flipud: 0.0 # 上下翻转 fliplr: 0.5 # 左右翻转

4. 模型训练与优化

4.1 YOLOv5s模型配置

下载预训练模型后，修改模型配置文件：

# 下载YOLOv5s预训练模型 wget https://github.com/ultralytics/yolov5/releases/download/v7.0/yolov5s.pt

关键训练参数调整：

# train.py修改建议 parser.add_argument('--weights', type=str, default='yolov5s.pt') parser.add_argument('--data', type=str, default='data/augmentation.yaml') parser.add_argument('--imgsz', '--img', type=int, default=320) parser.add_argument('--batch-size', type=int, default=4) # CPU可降低batch parser.add_argument('--epochs', type=int, default=50) # 小数据集可增加轮次 parser.add_argument('--device', default='cpu')

4.2 训练监控与调优

启动训练后，重点关注以下指标：

Box Loss：应稳定下降至0.02-0.05范围
Obj Loss：反映目标存在置信度，理想值0.01左右
Precision/Recall：小样本下可能波动较大

注意：CPU训练时如果内存不足，可减小--batch-size或降低--imgsz

常见问题解决方案：

过拟合：增加数据增强强度，减少训练轮次
欠拟合：检查标注质量，适当增加训练轮次
检测不稳定：调整--conf-thres参数（建议0.2-0.3）

5. 模型部署与性能测试

5.1 验证模型效果

使用训练好的模型进行预测：

python detect.py \ --weights runs/train/exp/weights/best.pt \ --source test_images/ \ --conf-thres 0.25 \ --imgsz 320

5.2 实际应用集成

将模型集成到自动化流程的Python示例：

import cv2 import torch from PIL import Image model = torch.hub.load('ultralytics/yolov5', 'custom', path='best.pt') def detect_gap(image_path): img = Image.open(image_path) results = model(img) predictions = results.pandas().xyxy[0] if len(predictions) > 0: best_pred = predictions.iloc[0] return { 'x': (best_pred['xmin'] + best_pred['xmax']) / 2, 'y': (best_pred['ymin'] + best_pred['ymax']) / 2, 'confidence': best_pred['confidence'] } return None # 使用示例 gap_position = detect_gap('captcha.png') print(f"缺口中心位置: x={gap_position['x']}, y={gap_position['y']}")

5.3 性能优化技巧

针对CPU环境的优化建议：

导出ONNX格式提升推理速度：

python export.py --weights best.pt --include onnx --img 320 --simplify

使用OpenCV替代PIL处理图像：

img = cv2.imread('captcha.jpg') img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

启用多线程处理（适用于批量识别）：

from multiprocessing import Pool def process_image(path): return detect_gap(path) with Pool(4) as p: # 4个worker进程 results = p.map(process_image, image_paths)

在实际测试中，经过优化的模型在i5-8250U CPU上单张图片推理时间可控制在50ms以内，完全满足实时性要求。

查看全文

http://www.jsqmd.com/news/516973/