当前位置：首页 > news >正文

水下垃圾检测实战包：预训练YOLOv5模型+多格式标注图集+可视化PyQt操作界面

news 2026/6/12 21:45:55

本文还有配套的精品资源，点击获取

简介：直接上手的水下垃圾识别工具包，含已训练好的YOLOv5s权重文件，开箱即可对图片、视频或摄像头流做实时检测；配套真实采集的水下垃圾图像数据集，共数千张JPG，涵盖金属、木材、塑料、橡胶、织物五类常见海洋废弃物，同时提供VOC和YOLO两种标准标注格式，方便不同训练框架快速接入；内置PyQt5开发的图形界面，支持检测结果可视化、边界框导出、置信度滑动调节、单帧/批量处理等实用功能；包含完整训练流程代码（train.py）、验证测试脚本（valid.py/test.py）、规范的数据目录结构（train/valid/test）、配置文件（data/under_water_garbge.yaml）以及常用工具模块（utils/、models/）；训练过程自动输出loss曲线、PR曲线等图表，附带两份详细环境配置PDF教程（覆盖Windows/Linux），适配YOLOv3-v8主流版本，可用于高校课程设计、环保监测项目或科研原型验证。

1. 项目概述：为什么水下垃圾检测不能只靠“调个模型就跑”

去年夏天在厦门近海做海洋生态调研时，我亲眼见过潜水员背着氧气瓶，在能见度不足2米的浑浊水体里徒手打捞废弃渔网——那张照片后来被环保组织用作宣传图，但没人提背后的数据困境：现有公开目标检测模型在水下场景的mAP普遍低于35%，塑料瓶识别率甚至不到20%。这不是算法不行，而是水下图像存在三大硬伤：色偏严重（蓝绿通道主导）、对比度塌缩（光线衰减导致细节模糊）、动态遮挡（悬浮颗粒、水流扰动、生物干扰）。市面上所谓“通用目标检测工具包”，往水里一拍，框全飘在鱼身上。

这个实战包就是为解决这个问题而生的。它不是又一个YOLOv5复刻版，而是一套从数据采集逻辑→模型适配策略→工程部署闭环全部打通的垂直方案。核心关键词“水下垃圾检测”不是泛泛而谈，而是聚焦于真实作业场景：你拿到的不是合成数据或实验室水箱图，是渔民协助采集的近岸礁盘、沉船残骸、养殖网箱周边实拍图像；“YOLOv5模型”特指针对水下光学特性微调过的YOLOv5s权重，不是直接拿COCO预训练权重迁移；“PyQt界面”不是简单套壳，而是把科研人员最常卡壳的操作——比如调节不同材质垃圾的置信度阈值、导出带坐标的XML标注、批量处理视频帧并抽关键帧——全做成一键式交互；“标注数据集”更不是随便贴几个框，五类标签（metal/wood/plastic/rubber/cloth）的定义严格对应《海洋废弃物分类指南》国标草案，连“泡发的织物”和“干枯的藤蔓”都做了语义区分。

适合谁用？高校环境工程课设学生能三天搭出演示系统；环保NGO技术岗可直接导入巡检无人机视频流；研究生做小样本学习研究时，这个数据集的VOC+YOLO双格式标注省去70%数据清洗时间。它不承诺“一键达到99%精度”，但保证你打开压缩包后，15分钟内能在自己电脑上看到第一张海底塑料袋被准确框出来的画面——这才是实战包该有的样子。

2. 整体设计思路与关键技术选型解析

2.1 为什么选YOLOv5s而非更新版本？

很多人看到目录里有yolov7、yolov8相关文件就疑惑：既然支持多版本，为何默认权重是YOLOv5s？这背后是经过三轮对比实验后的务实选择：

推理速度与精度平衡点：我们用同一台RTX 3060笔记本测试了YOLOv5s/v7/v8n在水下数据集上的表现。YOLOv5s在640×640输入下平均推理耗时23ms（43FPS），mAP@0.5达58.7%；YOLOv7-tiny虽快至18ms，但mAP掉到51.2%；YOLOv8n则因neck结构对低对比度图像敏感，漏检率上升12%。对水下实时检测而言，每帧多出5ms延迟意味着单次10分钟潜水视频少处理3000帧，而3%的mAP提升远不如稳定帧率重要。
部署兼容性现实约束：环保项目常需在老旧工控机（Intel J1900四核）或树莓派4B上运行。YOLOv5的ONNX导出流程成熟，TensorRT优化文档齐全；而YOLOv8官方TRT插件直到2023年才稳定，且对FP16精度支持不稳定——我们在某市海洋监测站实测时，v8模型在Jetson Nano上出现过连续5帧坐标跳变，最终回退到v5s。
训练资源友好性：数据集共3276张图像，按8:1:1划分后训练集仅2620张。YOLOv5s参数量7.2M，单卡2080Ti训练48小时收敛；若换v7或v8，同等配置下需72小时以上，且早停策略更难把握。对于课程设计或短期项目，时间成本比模型参数量更重要。

提示：包内scripts目录下的convert_v5_to_v7.py和export_onnx_v8.py是为后续升级预留的脚本，但默认不启用。如需尝试新模型，请先用valid.py验证基础性能，再调整学习率和warmup周期。

2.2 双格式标注（VOC+YOLO）的设计深意

数据集提供VOC（XML）和YOLO（TXT）两种标注，表面看是“方便适配不同框架”，实则解决三个深层问题：

VOC格式保障科研可追溯性：XML文件中<difficult>标签标记了所有被气泡遮挡超过30%的目标，<occluded>记录了被珊瑚枝杈半遮挡的实例。这些元信息在YOLO TXT中无法表达，但对分析模型失败案例至关重要。比如我们发现rubber类漏检集中在<difficult>=1样本中，这直接导向后续增加水下雾化增强的数据增广策略。
YOLO格式服务工程落地效率：TXT文件采用归一化坐标（x_center, y_center, width, height），配合data/under_water_garbge.yaml中的train: ../train_dataset/images路径配置，可直接被YOLOv5官方train.py读取，省去VOC转YOLO的脚本调试环节。实测某高校学生组用VOC格式时，在xml_to_txt.py里卡了两天——因为他们的标注工具导出的XML命名空间与标准不符。
双格式互校验防数据污染：包内utils/check_annotation_consistency.py脚本会逐图比对VOC与YOLO标注的一致性。曾发现17张图的plastic标签在YOLO中坐标偏移0.02（约12像素），追查发现是标注员用Photoshop切图时未关闭“自动对齐图层”功能。这种细节只有双格式才能暴露。

2.3 PyQt5界面为何不用Web方案？

看到pyqt5浣ㄊヨ存槑.pdf这个文件名别笑，这是刻意保留的原始命名——它来自某次现场调试时工程师的语音转文字错误，却成了提醒：图形界面必须直面一线使用者的真实环境。

离线可靠性优先：海洋监测船、科考船网络常中断数小时。Web方案依赖本地服务器（Flask/FastAPI），一旦进程崩溃需SSH登录重启；而PyQt5生成的exe可双击即用，任务管理器结束进程后重新打开即可，运维零门槛。
硬件直通能力：detect.py中摄像头模块直接调用OpenCV的cv2.VideoCapture(0, cv2.CAP_DSHOW)，能启用USB工业相机的硬件编码（H.264），比WebRTC节省40%CPU占用。我们在福建某渔港实测时，用海康威视DS-2CD3T47G2-L备用水下摄像机，PyQt界面稳定输出25FPS，而同配置Web方案卡顿在12FPS。
结果导出精准控制：界面右下角“导出标注”按钮触发的是utils/export_xml_with_geo.py，它不仅写XML，还会根据摄像头内参矩阵（已预存于config/camera_params.json）反算目标实际尺寸。例如检测到一个0.3m×0.2m的塑料筐，导出XML中会添加<real_size unit="m">0.3,0.2</real_size>字段——这种定制化能力，通用Web组件库难以实现。

3. 核心模块详解与实操要点

3.1 预训练模型的水下适配策略

内置weights/yolov5s_underwater_best.pt不是简单finetune，而是包含三层针对性改造：

输入预处理层嵌入：在YOLOv5的models/common.py中，AutoShape类被重写为UnderwaterAutoShape，新增def underwater_normalize(self, img)方法。它不采用常规的RGB均值归一化（[0.485,0.456,0.406]），而是基于水下图像统计特性设计：
python # 计算依据：对3276张图做HSV空间分析，发现V通道均值为0.32±0.11 # 故采用自适应Gamma校正，公式：V_out = V_in^gamma，gamma=1.8 hsv = cv2.cvtColor(img, cv2.COLOR_RGB2HSV) hsv[:,:,2] = np.power(hsv[:,:,2], 1.8) # 增强暗部细节 return cv2.cvtColor(hsv, cv2.COLOR_HSV2RGB)
这步让原本淹没在蓝色背景里的浅色塑料瓶轮廓清晰度提升3倍（SSIM从0.41→0.67）。
损失函数加权机制：在train.py的compute_loss函数中，对五类目标设置不同权重：
python # 权重依据：各类在验证集上的召回率倒数（召回率越低权重越高） # plastic召回率最低（62.3%），故权重最高；metal最高（89.1%），权重最低 class_weights = torch.tensor([1.2, 1.5, 2.1, 1.4, 1.8]) # metal, wood, plastic, rubber, cloth loss_cls *= class_weights[cls]
实测使plastic类召回率从62.3%提升至76.5%，整体mAP+2.3%。
NMS阈值动态调整：常规YOLOv5用固定IoU阈值0.45，但水下目标常密集堆叠（如渔网缠绕的塑料袋群）。detect.py中non_max_suppression被替换为underwater_nms：
python def underwater_nms(prediction, conf_thres=0.25, iou_thres=0.45): # 若检测到同类目标间距<30像素，则降低iou_thres至0.3，避免过度抑制 boxes = prediction[..., :4] distances = torch.cdist(boxes[:, :2], boxes[:, :2]) if (distances < 30).sum() > 5: iou_thres = 0.3 return non_max_suppression_original(prediction, conf_thres, iou_thres)

注意：模型权重仅适用于640×640输入。若需其他尺寸，请先运行scripts/resize_model_for_custom_input.py --input_size 1280，该脚本会自动重计算anchor尺寸并微调head层。

3.2 数据集组织结构与标注规范

train_dataset/目录严格遵循PASCAL VOC 2012标准，但针对水下场景增设三项关键规范：

图像命名规则：DSC_20230512_142307_001.jpg，其中DSC代表潜水员编号，20230512为日期，142307为UTC时间戳，001为序列号。这种命名使你能快速定位某张图的采集环境——比如所有DSC_07_*开头的图均来自浑浊度更高的闽江口，用于专门测试模型鲁棒性。
VOC XML特殊字段：
xml <annotation> <filename>DSC_20230512_142307_001.jpg</filename> <source> <database>Underwater Garbage Dataset v1.2</database> <annotation>Marine Ecology Lab, Xiamen University</annotation> <image>fujian_coastline_2023</image> </source> <size> <width>1920</width> <height>1080</height> <depth>3</depth> </size> <segmented>1</segmented>  <object> <name>plastic</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>1</difficult>  <bndbox> <xmin>842</xmin> <ymin>315</ymin> <xmax>927</xmax> <ymax>389</ymax> </bndbox> <occluded>0.4</occluded>  </object> </annotation>
occluded字段为浮点数（0.0~1.0），比二值化标注更能反映真实干扰程度。
YOLO TXT坐标校验逻辑：utils/validate_yolo_labels.py会检查每个TXT文件：
1. 坐标是否在[0,1]范围内（防止标注工具溢出）
2. 同一图像中同类目标框重叠面积是否>0.7（提示可能重复标注）
3. 所有框的宽高比是否在0.2~5.0之间（过滤误标为细长珊瑚的wood类）

实操心得：首次使用前务必运行python utils/validate_yolo_labels.py --dataset_dir train_dataset。我们曾发现train_dataset/labels/val/目录中有3张图的rubber标签宽高比达12.6（实为标注员把渔网绳子当橡胶圈），手动修正后模型对细长目标的定位精度提升19%。

3.3 PyQt5界面核心功能实现细节

ui_img/main_window.py是界面逻辑中枢，其三大特色功能实现如下：

实时置信度滑动调节：
界面左下角滑块并非简单传值给conf_thres，而是采用双阈值策略：
python # 当滑块值为0.3时，实际应用： # - plastic/rubber类：conf_thres = 0.3 * 0.8 = 0.24（降低阈值抓更多漏检） # - metal/wood类：conf_thres = 0.3 * 1.2 = 0.36（提高阈值减少误检） # 系数存储在config/conf_weight.json中，可按需修改
这源于水下经验：金属反光强易误检，塑料吸光弱易漏检。
摄像头流智能缓冲：
CameraThread类继承QThread，但重写了run()方法：
python def run(self): cap = cv2.VideoCapture(self.source) cap.set(cv2.CAP_PROP_BUFFERSIZE, 1) # 强制单帧缓冲 while self.running: ret, frame = cap.read() if ret: # 丢弃旧帧，只处理最新一帧，避免积压 with self.frame_lock: self.current_frame = frame.copy()
解决了传统方案中USB摄像头因驱动问题导致的“画面拖影”顽疾。
检测结果导出逻辑：
“导出标注”按钮触发export_results()，生成三种文件：
1.img_output/DSC_20230512_142307_001.xml：标准VOC格式，含<real_size>字段
2.img_output/DSC_20230512_142307_001.csv：表格化结果，列包括class,xmin,ymin,xmax,ymax,confidence,real_width_m,real_height_m
3.img_output/DSC_20230512_142307_001_report.pdf：含检测图+统计图表（各类数量/置信度分布/尺寸热力图）

实操技巧：导出PDF报告时，若需添加单位公章，可编辑templates/report_template.html，将<div id="seal"></div>替换为base64编码的公章图片。我们已预置某环保局公章模板（templates/seal_xiamen_eco.png）。

4. 完整实操流程与避坑指南

4.1 环境配置：两份PDF教程的正确打开方式

【yolov3-YOLOv5-yolov7-yolov8环境配置-教程1】.pdf面向Windows用户，教程2.pdf面向Linux（Ubuntu 20.04+），但二者有关键差异：

Windows教程重点：
必须安装Microsoft Visual C++ 2015-2022 Redistributable（x64），否则torchvision加载图像报错
推荐使用Anaconda而非Miniconda，因pyqt5在Miniconda中常缺Qt5Svg.dll
CUDA版本锁定为11.3（非最新12.x），因YOLOv5官方代码对CUDA 12支持不完善
Linux教程重点：
apt install libsm6 libxext6 libxrender-dev libglib2.0-0必须执行，否则PyQt界面启动黑屏
nvidia-smi后若显示Failed to initialize NVML，需运行sudo systemctl restart nvidia-persistenced
使用pip install -e .安装本地包时，setup.py中install_requires已屏蔽wandb（避免国内网络超时）

踩坑实录：某高校实验室用Ubuntu 22.04，按教程2安装后PyQt界面文字乱码。根源是系统字体配置缺失，解决方案：sudo apt install fonts-wqy-microhei && sudo fc-cache -fv，并在main_window.py第87行添加QFontDatabase.addApplicationFont("fonts/wqy-microhei.ttc")。

4.2 五分钟快速上手：从解压到首测

按顺序执行以下操作（全程无需代码修改）：

解压与目录准备
将压缩包解压到无中文路径（如D:\underwater_detect），确保weights/、train_dataset/、data/等目录同级。
创建虚拟环境（Windows示例）
bash conda create -n uwdet python=3.8 conda activate uwdet pip install -r requirements.txt # 自动安装torch==1.12.1+cu113等指定版本
验证模型与数据
```bash
# 测试单张图（自动调用weights/yolov5s_underwater_best.pt）
python detect.py –source train_dataset/images/train/DSC_20230512_142307_001.jpg

# 查看输出：img_output/DSC_20230512_142307_001.jpg（带检测框）
# 同时生成img_output/DSC_20230512_142307_001.txt（YOLO格式结果）
```

启动PyQt界面
bash python ui_img/main_window.py
界面启动后：
- 点击“图片检测” → 选择任意JPG → 观察右上角实时FPS（应≥35）
- 拖动“置信度”滑块至0.1 → 观察塑料瓶检测框增多（验证双阈值策略）
- 点击“导出标注” → 检查img_output/目录生成的三类文件

关键提示：首次运行main_window.py时，若弹出“无法加载Qt平台插件”的错误，请进入venv\Lib\site-packages\PyQt5\Qt5\plugins\platforms\目录，将qwindows.dll复制到venv\Library\bin\（Windows）或venv/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms/（Linux）。

4.3 训练自己的模型：从数据准备到曲线分析

即使不修改模型，也建议用自有数据微调。完整流程如下：

步骤	命令	关键参数说明	预期耗时（RTX 3060）
1. 数据整理	`python scripts/split_dataset.py --dataset_dir train_dataset --ratio 0.8,0.1,0.1`	自动生成train/valid/test子目录，保持类别分布均衡	2分钟
2. 配置修改	编辑`data/under_water_garbge.yaml`： `train: ../train_dataset/images/train` `val: ../train_dataset/images/valid` `nc: 5` `names: ['metal','wood','plastic','rubber','cloth']`	`nc`必须与实际类别数一致，否则训练崩溃	手动修改，1分钟
3. 启动训练	`python train.py --data data/under_water_garbge.yaml --weights weights/yolov5s_underwater_best.pt --cfg models/yolov5s.yaml --epochs 100 --batch-size 16 --name uw_train_v1`	`--weights`指定预训练权重，`--cfg`指定网络结构	8小时
4. 曲线分析	`tensorboard --logdir runs/train/uw_train_v1`	访问`http://localhost:6006`查看loss/PR曲线	实时生成

训练过程关键监控点：
-runs/train/uw_train_v1/results.csv中，metrics/mAP_0.5应在第30轮后突破60%，若停滞需检查data/under_water_garbge.yaml路径是否正确
-runs/train/uw_train_v1/weights/best.pt是最佳权重，last.pt是最终轮权重
-runs/train/uw_train_v1/val_batch0_pred.jpg显示验证集首批预测效果，重点关注漏检（红色框）与误检（绿色框）

实操心得：训练时若loss曲线剧烈震荡（如从2.1突降至0.8再飙升至3.5），大概率是train_dataset/images/train/中混入了非JPG文件（如Thumbs.db）。运行find train_dataset/images/train -not -name "*.jpg" -delete清理后重试。

4.4 常见问题速查表与独家修复方案

问题现象	根本原因	修复方案	验证方式
PyQt界面启动黑屏，仅显示标题栏	Linux缺少Qt字体渲染库	`sudo apt install fonts-liberation`+`export QT_QPA_PLATFORMTHEME=qt5ct`	重启终端后运行`python ui_img/main_window.py`
detect.py报错`AssertionError: Image Not Found`	图像路径含中文或空格	将`train_dataset`移到纯英文路径（如`/home/user/data/`），并修改`data/under_water_garbge.yaml`中路径	`ls /home/user/data/train_dataset/images/train/`确认文件存在
训练时GPU显存爆满（OOM）	batch-size过大或图像尺寸超限	编辑`train.py`第127行：`imgsz = 640`→`imgsz = 416`，同时`--batch-size 16`→`--batch-size 8`	`nvidia-smi`观察显存占用≤90%
视频检测卡顿在10FPS以下	OpenCV未启用硬件加速	在`detect.py`第213行`cap = cv2.VideoCapture(source)`后添加： `cap.set(cv2.CAP_PROP_FOURCC, cv2.VideoWriter_fourcc(*'H264'))`	用`ffmpeg -i test.mp4 -c:v h264_nvenc -preset slow output.mp4`预处理视频
导出的XML中`<real_size>`字段为空	`config/camera_params.json`未配置或格式错误	用`utils/calibrate_camera.py`重新标定（需打印棋盘格A4纸，拍摄10张不同角度图）	标定后生成`config/camera_params.json`，含`fx,fy,cx,cy,k1,k2,p1,p2,k3`八参数

独家避坑技巧：
- 若需在无GPU环境运行（如树莓派），用scripts/export_tflite.py将模型转为TFLite格式，detect_tflite.py可实现12FPS推理
-utils/merge_video_frames.py可将检测结果叠加到原视频：python utils/merge_video_frames.py --input video.mp4 --detection_dir img_output/ --output merged.mp4
-share.py是为微信分享设计的轻量接口：运行后访问http://localhost:5000/share?img=DSC_20230512_142307_001.jpg，自动生成带检测框的JPG并返回URL

5. 扩展应用与进阶实践建议

这个包的价值不仅在于开箱即用，更在于它为你铺好了向深度应用延伸的路径。以下是三个经实践验证的扩展方向：

5.1 科研向：构建水下垃圾密度评估模型

单纯检测出“有塑料瓶”不够，环保部门需要知道“每平方公里有多少公斤塑料”。我们已预留接口：
-utils/calculate_density.py接收img_output/下的CSV结果，结合GPS坐标（需在采集时同步记录）和水深数据，计算单位面积垃圾质量。公式为：
density = Σ(real_width_i × real_height_i × thickness_i × density_material_i) / survey_area
其中thickness_i由材质类型查表（塑料0.002m，金属0.005m），density_material_i为材料密度（kg/m³）。
- 实测某近海调查中，该模型将人工潜水计数误差从±35%降至±8%，报告被《Marine Pollution Bulletin》录用。

5.2 工程向：对接无人机巡检系统

包内aws/目录是为大疆M300 RTK设计的SDK桥接模块：
-aws/dji_bridge.py通过DJI Mobile SDK获取实时视频流，并注入YOLOv5推理管道
-aws/gps_fusion.py融合无人机POS数据与检测框，输出WGS84坐标系下的垃圾经纬度
- 某渔业公司用此方案替代人工潜水，单次飞行覆盖5km²，识别准确率91.2%（较人工提升27%）

5.3 教学向：课程设计分层任务包

针对高校课程设计，我们拆解出三级任务：
-基础层（1周）：运行PyQt界面，导出100张图的检测报告，统计五类垃圾占比
-进阶层（2周）：用train.py微调模型，对比不同数据增强策略（--augment参数）对plastic类召回率的影响
-创新层（3周）：修改models/yolov5s.yaml，在neck层插入CBAM注意力模块，提交消融实验报告