当前位置：首页 > news >正文

基于深度学习的田间杂草检测系统（YOLOv12完整代码+论文示例+多算法对比）

news 2026/7/9 5:59:59

摘要：本文面向田间自然光、遮挡与尺度变化显著的杂草识别需求，设计并实现一套“训练评测—桌面交互—结果管理”的端到端检测系统，目标是在保证实时性的前提下提升复杂场景下的检测稳定性与可追溯性。系统提供可下载的数据集与工程代码，桌面端采用 PySide6/Qt 构建统一工作流，支持图片/视频/本地摄像头多源输入与实时推理，检测过程在主显示区叠加类别名+置信度与边界框，并配套处理进度条/用时显示便于批量与长视频任务观察。结果侧支持一键CSV 导出与“带框结果”归档：单帧可导出 PNG，多帧序列可导出 AVI，并以时间戳命名便于检索复查；同时将账户、会话与历史记录写入本地 SQLite，提供登录/注册/跳过入口与会话范围控制。模型侧支持在界面内进行模型选择与权重加载，实现 .pt 热切换并同步刷新类别与配色；算法覆盖 YOLOv5–YOLOv12 共 8 种配置，统一在同一数据集与指标体系下对比 mAP、F1、PR 曲线、训练曲线等，为田间杂草在线检测与离线复盘提供可复用的工程化范式。文末提供完整工程与数据集下载链接。

1. 系统功能与效果
2. 绪论
- 2.1 研究背景及意义
- 2.2 国内外研究现状
- 2.3 要解决的问题及其方案
- 2.4 博文贡献与组织结构
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理 — 流程图
7. 下载链接
参考文献（GB/T 7714）

功能效果展示视频：热门实战｜《基于深度学习的田间杂草检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册：系统提供登录、注册与一次性跳过三种入口，用户可在启动时完成身份校验或直接进入体验模式，会话在本次运行周期内生效并用于隔离个人配置与历史记录。进入主界面后，交互动线围绕“功能概况—选择模型—图片检测—结果导出”逐步推进，用户可快速回到最近一次任务并定位到对应记录。账户信息与历史任务均在本地 SQLite 中管理，口令校验与会话状态提示让使用过程更安全、也更可控。
在这里插入图片描述

（2）功能概况：桌面端采用“左侧数据源与阈值控制—中部结果展示—右侧目标详情—底部记录与进度”的布局，使新用户无需学习成本即可完成一次检测闭环。主视图以叠加框直观呈现检测结果，底部提供任务进度与耗时反馈，适合批量处理与长图序列场景。博主在实际体验中更看重这种“所见即所得”的反馈方式，能显著减少反复切页与文件查找的时间。
在这里插入图片描述

（3）选择模型：系统支持在界面中选择不同 YOLO 模型并加载本地权重文件，切换后会同步刷新类别信息与可视化配色，避免同一套显示规则在不同模型间产生混淆。权重热切换过程中保持交互路径一致，用户只需关注模型差异带来的效果变化，而不必反复调整界面操作。常用配置与主题样式可本地持久化保存，保证下次启动仍能延续个人习惯。
在这里插入图片描述

（4）图片检测：图片输入后可即时完成推理，主显示区叠加边界框并标注类别名与置信度，用户可通过置信度与 IoU 阈值快速控制检出数量与框的质量。检测结果支持目标选择与高亮查看，右侧详情区联动显示关键信息，便于对遮挡、反光与小目标等难例进行逐一核对。底部检测记录可跨页复用，便于在不同任务之间对照复盘。
在这里插入图片描述

（5）文件保存：系统将检测结果以统一规则归档，支持导出结构化 CSV 便于统计分析，同时支持一键保存带框可视化结果用于标注回查与报告展示。导出文件采用时间戳命名并按任务维度聚合管理，便于批量筛选、快速定位与溯源复查。对用户而言，这种“检测即归档”的设计能显著降低田间数据采集后的整理成本。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

杂草与作物在田间长期共生竞争，其对产量与资源利用效率的影响具有普遍性与持续性，经典研究指出杂草等生物胁迫可造成显著的作物产量损失1。(arXiv)

随着精准农业与智能农机的发展，面向“少喷、准喷、及时喷”的田间杂草检测逐渐从离线分析走向在线决策，检测系统既要给出可解释的定位结果，又要在复杂光照、遮挡与多尺度目标下保持稳定输出2。(arXiv)

从工程落地角度看，田间杂草检测并不止是“识别对不对”，更关乎端侧实时性、交互闭环与可追溯管理：一方面需要在有限算力下完成高频推理与可视化叠加，另一方面需要把检测结果以结构化记录保存下来，为后续药量控制、作业复盘与数据迭代提供依据2。(arXiv)

2.2 国内外研究现状

围绕田间杂草检测这一具体场景，研究难点首先来自“作物—杂草”类间相似与同类生长阶段差异并存，尤其在苗期更容易出现纹理、叶缘与颜色高度重叠的情况10。在真实田间，多地点、多年份数据会引入环境分布漂移，导致同一模型在不同地块与作物体系上的表现差异显著，因此数据规模、质量与场景覆盖度与模型结构同等关键7。针对数据资源，公开数据集多以分类或特定作物体系为主，例如 DeepWeeds 给出了 17,509 张、8 类杂草的公开图像基准，为农业场景的鲁棒视觉学习提供了可复用起点3。(Frontiers)

在方法演进上，两阶段检测器以候选框为中间表征，通常在遮挡与密集目标下更稳健，但其推理链路更长、端侧部署成本更高20。单阶段检测器通过密集预测提升速度，其中 SSD 在 VOC2007 上给出 72.1% mAP 与 58 FPS 的经典速度—精度折中，奠定了端侧检测的工程范式17。为缓解密集检测的前景/背景不均衡，RetinaNet 提出 Focal Loss 并验证一阶段检测可在精度上接近甚至超过当时两阶段系统21。(arXiv)

面向多尺度与小目标，特征金字塔与加权融合成为常用策略，EfficientDet 通过 BiFPN 与复合缩放在 COCO test-dev 上以单模型单尺度达到 55.1 AP，体现了“结构化多尺度融合 + 规模化设计”的优势18。在 Anchor-free 方向，FCOS 通过像素级中心度与无锚框回归简化超参，并在 ResNeXt-64×4d-101 上报告 44.7 AP，降低了工程调参负担19。在框回归目标函数方面，GIoU 通过对非重叠情形引入可优化项，提升了定位学习的可导性与收敛行为，为后续 DIoU/CIoU 等改进提供了基础思路22。(arXiv)

近年来，Transformer 检测器强调端到端集合预测以降低后处理依赖，DETR 用二分匹配与集合损失重构了检测训练范式，但其收敛与计算开销在实时场景中仍需权衡20。为面向实时，RT-DETR 通过高效混合编码器与查询选择，在 COCO 上报告 53.1% AP 与 108 FPS（T4）并显式讨论 NMS 对实时性的影响，代表了“端到端 + 实时化”的一条路线13。RT-DETRv2 在此基础上进一步引入更实用的训练与采样策略以提升部署友好性，强化了实时 Transformer 在工程侧的可用性14。(arXiv)

在 YOLO 家族的快速迭代中，工业可部署与端侧实时仍是核心导向：YOLOv6 在报告中强调面向工业场景的训练与量化实践，并给出 YOLOv6-N 在 COCO 上 35.9% AP 与 T4 上高吞吐的参考结果15。YOLOv10 从 NMS-free 训练与整体效率—精度设计入手，给出 YOLOv10-S 相对 RT-DETR-R18 在相近 AP 下 1.8× 更快的对比结论，体现了“消除后处理瓶颈”的工程目标12。YOLOv12 进一步将注意力机制纳入实时主干设计，并在摘要中报告 YOLOv12-N 达到 40.6% mAP 且 T4 延迟 1.64 ms，同时在同速前提下相对 YOLOv10-N/YOLOv11-N 取得 2.1%/1.2% 的 mAP 增益，反映了“注意力与速度可兼得”的新趋势11。(arXiv)

更贴近杂草任务的研究通常以“结构轻量化 + 多尺度增强 + 复杂背景鲁棒性”为主线：在芝麻作物与多杂草复杂环境中，改进 YOLOv5 通过增强泛化与回归损失改造实现 90.6% mAP 且单图 2.8 ms 的实时性能，说明轻量模型在田间端侧仍有充分空间4。在稻田复杂环境下，ViT-改进 YOLOv7 结合图像增强、GhostNet 与注意力并引入 ViT 分类去干扰，报告 92.6% mAP 且对光照遮蔽与藻萍干扰有更强适应性，体现了“检测 + 先验抑噪”在田间的价值5。在小麦田场景，YOLOv8-MBM 通过在 C2f 中融合轻量视觉转换器并引入 BiFPN 与替代回归损失，报告整体准确率 92.7% 且相对 YOLOv8s 的 Precision/Recall/mAP 有显著提升，说明多尺度与全局表征对遮挡与尺度不定目标更有效6。在棉田应用中，YOLO-WL 在 CottonWeedDet12 上报告 92.30% mAP 且单图 1.9 ms，并给出 TensorRT 优化后视频推理从 23.134 ms 降至 2.443 ms 的结果，展示了“模型设计 + 推理加速”协同的落地路径9。在更系统的对比中，多地点两年数据的地面机器人研究给出 mAP50 最高 86.2% 且类别范围 80.8%–98% 的实测区间，强调了跨地点数据治理与模型定制同等重要7；而结合检测与跟踪的机器人方案在 YOLOv8 上报告 93.8% Precision、86.5% Recall 与 mAP@0.5 为 92.1% 并达到 18 FPS，体现了在线作业链路对速度与稳定性的共同约束8。此外，PD-YOLO 以 YOLOv8n 为框架引入并行多尺度融合与动态检测头，在 CottonWeedDet12 上报告 mAP@0.5 为 95.0% 与 mAP@0.5:0.95 为 88.3%，说明针对“形态相似 + 小目标”进行结构化增强仍是有效方向10。(AEEISP)

方法对比与适配性总结（面向田间杂草检测）

方法名称	范式/家族	数据集	关键改进技术	优势与局限性	关键指标与适用场景
SSD	单阶段 / Anchor-based	VOC2007 / COCO	默认框 + 多尺度特征图预测	速度快、实现简单；对极小目标与密集遮挡仍受限	72.1% mAP@VOC2007，58 FPS（Titan X），适合端侧快速基线17 (arXiv)
EfficientDet	单阶段 / Efficient 系列	COCO test-dev	BiFPN + 复合缩放	多尺度融合强、效率高；模型选择与缩放策略需结合硬件调优	55.1 AP（D7，单模型单尺度），适合追求高精度但仍需效率的场景18 (arXiv)
FCOS	单阶段 / Anchor-free	COCO	无锚框回归 + Center-ness	超参更少、迁移更稳；对极端密集场景仍依赖特征尺度设计	44.7 AP（ResNeXt-64×4d-101），适合减少锚框调参成本的场景19 (arXiv)
RT-DETR	端到端 Transformer	COCO	混合编码器 + 查询选择，弱化 NMS 影响	端到端更利于部署闭环；算子与显存开销需权衡	53.1% AP 且 108 FPS（T4），适合实时且希望降低后处理链路的场景13 (arXiv)
YOLOv10	YOLO / NMS-free 方向	COCO	一致双分配实现 NMS-free 训练 + 全局效率设计	端到端部署更友好；实际收益与硬件/导出格式相关	YOLOv10-S 相对 RT-DETR-R18 在相近 AP 下 1.8× 更快，适合强调低延迟的端侧12 (arXiv)
YOLOv12	YOLO / Attention-centric	COCO	注意力中心架构以兼顾速度与表征能力	注意力收益显著；不同尺度下最优点需按任务与算力选型	YOLOv12-N：40.6% mAP，1.64 ms（T4），适合精度敏感且仍要实时的场景11 (arXiv)
改进 YOLOv5（农田）	YOLO / 任务改造	芝麻-杂草场景数据	增强策略 + 注意力 + 回归损失改造	对特定田间数据提升明显；跨区域泛化仍依赖数据覆盖	mAP 90.6%，单图 2.8 ms，适合资源受限的实时除草设备4 (AEEISP)
ViT-改进 YOLOv7（稻田）	YOLO + 去干扰分类	稻田复杂环境数据	MSRCP 增强 + GhostNet + CA + ViT 去背景	对遮蔽/干扰更鲁棒；组合链路更复杂需工程统一管理	mAP 92.6%，适合强干扰稻田的小目标杂草检测5 (journals.caass.org.cn)
YOLOv8-MBM（小麦田）	YOLO / 多尺度增强	小麦田自建数据	C2f 融合 MobileViTv3 + BiFPN + 回归损失替换	对遮挡与尺度不定更友好；数据单一时需防过拟合	准确率 92.7%，相对 YOLOv8s 多项指标提升，适合田间遮挡场景6 (MDPI)
PD-YOLO（多尺度融合）	YOLOv8n 改进	CottonWeedDet12 / Lincoln Beet	并行聚焦特征金字塔 + 动态头	精度强且轻量；相对极致轻量模型 FPS 略低	CottonWeedDet12：mAP@0.5 95.0%，mAP@0.5:0.95 88.3%，适合精度优先的端侧实时10 (Frontiers)

2.3 要解决的问题及其方案

围绕“田间杂草检测系统”的落地目标，本文需要解决的问题主要体现在以下四方面：（1）检测准确性与实时性的矛盾：既要在遮挡、密集与小目标条件下减少漏检误检，又要满足端侧推理与显示的帧率要求。（2）模型的环境适应性与泛化能力：同一模型在不同地块、光照与作物体系下容易出现分布漂移，需要兼顾数据覆盖与训练策略。（3）桌面端交互界面的直观性与功能完整性：需要在单一工作流中完成多源输入、阈值调参、目标选择高亮、结果导出与记录复查，避免“算法好用但系统不好用”。（4）数据处理效率与存储安全性：推理记录与账号信息需要本地可追溯保存，并支持后续统计、检索与批量导出。

对应上述问题，本文给出面向工程闭环的解决方案：（1）以 YOLOv12 为核心检测模型，同时对 YOLOv5–YOLOv12 多代模型进行统一训练与推理对比，通过数据增强与迁移学习提升对小目标与复杂背景的鲁棒性，并以 mAP、F1、PR 等指标约束精度与稳定性。（2）基于 PyTorch 训练与推理框架，将推理流程标准化为一致的预处理、后处理与坐标还原策略，确保不同输入源与不同模型的结果可比较、可复现。（3）前端采用 PySide6/Qt 构建桌面端交互闭环，支持图片、视频与本地摄像头输入，并实现权重热切换以便快速在不同模型间验证效果差异。（4）在数据与工程侧通过缓存与任务调度降低视频/摄像头推理抖动，并以时间戳命名、SQLite 本地库与结构化导出机制提升结果管理的稳定性与安全性，同时预留量化、剪枝与硬件加速接口用于进一步优化部署效率。

2.4 博文贡献与组织结构

本文的主要贡献可概括为：（1）围绕田间杂草检测的场景难点与工程约束，形成从检测范式到部署策略的系统化综述，并将“精度—速度—可部署性”的权衡落到可复用的评价指标体系。（2）以 YOLOv12 为主线，统一对 YOLOv5–YOLOv12 的训练、推理与对比流程，使不同代模型在同一数据与同一评测口径下可公平比较。（3）给出基于 PySide6/Qt 的桌面端交互方案，实现多源输入、阈值调参、目标高亮、结果导出与本地记录管理的一体化闭环，强调可用性与可追溯性。（4）通过实验结果与可视化分析讨论误检漏检来源与改进方向，并把模型选择与工程实现联动到可直接复现实验与部署的系统形态。（5）配套提供数据集与代码资源，便于读者复现训练、评测与桌面端运行。

后续章节安排如下：第 3 章介绍数据集处理与增强策略；第 4 章阐述 YOLOv12 为主线的模型原理与关键设计；第 5 章给出 YOLOv5–YOLOv12 的对比实验与分析；第 6 章描述桌面端系统架构、流程图与关键模块实现；第 7 章总结全文并展望模型、系统与数据闭环的未来工作。

3. 数据集处理

本文已给出样例可视化与分布图，并明确数据集共 2486 幅图像，其中 1661 幅用于训练、580 幅用于验证、245 幅用于测试。样例批次图可以看到，杂草常以小目标或中小目标形式分布在草皮/土壤纹理上，且光照存在阴影、局部过曝与色温漂移，这类“背景强纹理 + 外观相近”的组合会显著抬高误检风险，也会放大阈值设置对最终观感与统计结果的影响。标签及其对应中文名如下：

Chinese_name = {'weeds': "杂草"}

在这里插入图片描述

标注方面，结合标签分布图中 \((x,y,w,h)\) 的归一化统计形态，本文采用以目标中心点与宽高为核心的检测标注方式，并在入库前进行一致性校验，重点处理框越界、空标注、重复标注与异常尺寸框等问题，以减少训练过程中的噪声梯度。统计图显示该数据集的目标中心在图像平面上分布较为分散，宽高分布集中在中小尺度区间且呈现一定相关性，这意味着模型在学习阶段需要同时兼顾“细粒度纹理区分”与“多尺度回归稳定性”；因此在训练前将图像统一到固定输入尺度并保持坐标还原规则一致，有助于把误差主要收敛到模型而非数据流程本身。
在这里插入图片描述

划分策略上，训练/验证/测试约为 66.8%/23.3%/9.9%，划分过程固定随机种子以确保可复现，并尽量保持不同子集在光照、阴影、背景纹理与目标尺度上的覆盖一致，避免验证集过于“干净”而导致对真实田间泛化能力评估偏乐观。增强与预处理侧，本文围绕田间难点以“抑制光照差异、提升尺度鲁棒性、缓解遮挡与密集目标”作为主线：一方面通过亮度/对比度/色彩扰动与随机翻转等增强提升对自然光变化的适应性，另一方面通过多尺度训练与随机裁剪等策略扩展有效感受野与尺度分布，从而在不牺牲太多实时性的前提下提高小目标与边缘目标的召回；同时在训练前后配合缓存清理与标签索引更新，保证每次训练读取到的标签状态与统计口径一致，为后续模型对比实验提供稳定的数据基线。

在这里插入图片描述

4. 模型原理与设计

本文默认以 YOLOv12 作为主线模型来构建田间杂草检测的训练与部署方案，其核心思路仍是 YOLO 系列典型的“单阶段密集预测”：输入图像经骨干网络提取多层语义特征，再由颈部网络完成跨尺度融合，最终在多个尺度特征图上直接回归目标框并预测类别与置信度，从而在端侧获得更低的推理链路开销。对于本任务而言，杂草目标常呈现中小尺度、纹理与背景相近、光照阴影变化强等特点，单阶段结构在保证速度的同时，能通过多尺度特征把“小目标召回”和“复杂背景抑噪”放在同一套前向图中完成；同时 YOLOv12 论文强调其在保持实时性前提下引入注意力机制以提升表征能力，这是它区别于传统 CNN 主导 YOLO 的关键动机。

YOLOv12 的“注意力中心化”并不是简单把 ViT 堆进 YOLO，而是围绕注意力的效率瓶颈做了结构化重写：标准自注意力可写为

\[\mathrm{Attn}(X)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V,\quad Q=XW_Q,\ K=XW_K,\ V=XW_V, \]

其中 (X) 为输入特征（token 序列或展平后的特征图），(d) 为通道维度，(\(W_Q,W_K,W_V\)) 为线性映射参数；其主要代价来自 (\(QK^\top\)) 的二次复杂度。YOLOv12 提出的 Area Attention（A2） 用最直接的等分策略将特征图沿水平或垂直方向划分为 (l) 个区域（默认 (l=4)），并在区域内进行注意力计算，从而把全局 (\(L\times L\)) 的相关性计算改写为若干个 (\((L/l)\times(L/l)\)) 的子问题，使复杂度近似从 (\(\mathcal{O}(L^2d)\)) 下降到 (\(\mathcal{O}(L^2d/l)\))，在保留较大有效感受野的同时减少复杂操作与访存压力。

在“可训练、可部署”的工程约束下，YOLOv12 同步对特征聚合与注意力组件做了更贴近 YOLO 的改造：其一是 R-ELAN，在块级别引入残差捷径与缩放因子以缓解大模型训练不稳定，形式上可写为

\[Y = X + \alpha,F(X), \]

其中 (\(F(\cdot)\)) 表示块内的特征变换与聚合，(\(\alpha\)) 为缩放系数（论文给出大尺度模型常用极小缩放因子以保证收敛），该思想与残差网络“让梯度更顺畅地穿过深层结构”的直觉一致，但落点是为注意力主导的 YOLO 解决优化难题。其二是“优化后的注意力架构”，包括使用 FlashAttention 降低注意力的内存访问开销、去除位置编码以获得更干净的结构并降低延迟、并将 MLP ratio 从常见的 4 调整到更小的 1.2 以重新平衡注意力与前馈计算预算；此外论文还提出 Position Perceiver，用大核的可分离卷积作用于注意力中的 (V) 并以加法注入位置信息，可写为

\[V' = V + \mathrm{DWConv}(V),\quad \mathrm{Attn}(X)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V', \]

其中 (\(\mathrm{DWConv}(\cdot)\)) 表示深度可分离卷积，这类“以卷积补位位置感知、以注意力补位全局上下文”的组合，对田间杂草这种“背景强纹理+目标外观相近”的场景尤其有价值。

损失函数与训练策略方面，本文沿用 Ultralytics 体系中 YOLO 检测常见的多任务建模，将边界框回归、类别预测与分布式回归（DFL）等项加权求和：

\[\mathcal{L}=\lambda_{\text{box}}\mathcal{L}*{\text{IoU}}+\lambda*{\text{cls}}\mathcal{L}*{\text{cls}}+\lambda*{\text{dfl}}\mathcal{L}*{\text{dfl}}, \]

其中 (\(\mathcal{L}*{\text{IoU}}\)) 可取 IoU/CIoU/EIoU 等形式以增强对中心偏移与长宽比的约束，(\(\mathcal{L}_{\text{cls}}\)) 通常采用 BCE/Focal 思路以缓解难例与不均衡，(\(\lambda\)) 为权重系数；在单类“杂草”检测中，分类项更像是“目标/非目标”判别，其难点往往不在类间区分而在背景抑噪，因此训练阶段需要通过数据增强与更充分的训练轮次来稳定收敛，而 YOLOv12 论文也指出其在 COCO 上往往需要更长训练周期以达到峰值表现。推理端则通过置信度阈值与 NMS/后处理控制误检与重复框：阈值偏低会把草皮纹理中的“伪目标”带入结果，阈值偏高又容易漏掉阴影区与小目标；因此本文在桌面系统中提供 Conf/IoU 的实时滑块，让用户能够依据田间光照与密度情况动态取得“召回—精度—观感”的折中。

网络整体架构图如下图所示
在这里插入图片描述

5. 实验结果与分析

本章实验旨在验证所构建田间杂草检测系统在单类目标（weeds，中文“杂草”）上的检测精度与端侧实时性，并对 YOLOv5–YOLOv12 的 8 种模型配置进行统一对比。数据集共 2486 幅图像，按 1661/580/245 划分训练、验证与测试集；评测指标采用 Precision、Recall、F1、mAP50 与 mAP50-95，同时统计端侧推理链路的预处理、推理与后处理耗时，以更贴近桌面端“所见即所得”的交互体验。所有实验在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB） 上完成，因而表中耗时可直接作为桌面端部署时的性能参考。
在这里插入图片描述

下表给出 n 型轻量模型的主要结果（对应系统默认对比列表：yolov5nu、yolov6n、yolov7-tiny、yolov8n、yolov9t、yolov10n、yolo11n、yolo12n）。整体上，各模型的 mAP50 集中在 0.765–0.794 区间，说明在单类杂草场景下，精度差异更多体现在“难例边界”而非显著的类别区分；其中 YOLOv12n 取得最高的 mAP50=0.7945 与 F1=0.7645，但推理耗时相对更高（InfTime 12.47 ms）。YOLOv11n 的 Precision=0.7963 为该组最高，mAP50 与 mAP50-95 与 YOLOv12n 几乎持平（0.7903/0.4158 对比 0.7945/0.4159），且推理更快（InfTime 9.44 ms），因此从“低误检 + 较好实时性”的综合体验看，YOLOv11n 是非常均衡的备选。相对而言，YOLOv7-tiny 与 YOLOv9t 在本次实验中出现明显的推理时延上升（14.74 ms 与 16.51 ms），但精度收益有限，说明其结构复杂度或算子实现对端侧延迟更敏感，若用于实时摄像头推理需要更谨慎地权衡。

模型	Params (M)	FLOPs (G)	Pre (ms)	Inf (ms)	Post (ms)	Total (ms)	Precision	Recall	F1	mAP50	mAP50-95
YOLOv5nu	2.6	7.7	1.90	7.73	1.31	10.94	0.770	0.747	0.758	0.780	0.409
YOLOv6n	4.3	11.1	2.17	6.78	1.39	10.34	0.776	0.723	0.749	0.778	0.410
YOLOv7-tiny	6.2	13.8	2.28	14.74	4.06	21.08	0.792	0.731	0.760	0.781	0.384
YOLOv8n	3.2	8.7	1.95	6.83	1.39	10.17	0.763	0.742	0.752	0.786	0.412
YOLOv9t	2.0	7.7	1.87	16.51	1.29	19.67	0.760	0.741	0.750	0.785	0.409
YOLOv10n	2.3	6.7	2.08	11.24	0.63	13.95	0.766	0.719	0.741	0.765	0.402
YOLOv11n	2.6	6.5	2.11	9.44	1.42	12.97	0.796	0.724	0.759	0.790	0.416
YOLOv12n	2.6	6.5	1.91	12.47	1.37	15.75	0.777	0.752	0.765	0.794	0.416

在这里插入图片描述

从训练过程与曲线表现看，mAP50 在早期 epoch 快速上升并在约 20–30 个 epoch 后进入平台区间，后续提升幅度变小，说明在当前数据规模与单类任务设置下，模型主要依赖前期学习到的“纹理与形态差异”完成判别；进一步延长训练更多是在细化回归与抑制误检。
在这里插入图片描述

结合 PR 曲线可观察到，各模型在中高召回区间（Recall 约 0.6–0.85）仍能保持较高 Precision，说明对多数样本具有稳定区分能力；但当 Recall 逼近 1.0 时 Precision 下降较快，这通常对应遮挡、阴影、局部反光与强背景纹理导致的难例，模型为了“找全”目标会带来更多伪检。
在这里插入图片描述

F1-Confidence 曲线给出的最优点约为 Conf=0.262 时 F1≈0.76，这一结论与桌面端默认 Conf 设为 0.25 的交互经验基本一致：在田间数据中，略低的置信度阈值有助于减少漏检，而误检可通过 IoU/NMS 与人工复核在系统侧被控制在可接受范围内。

在这里插入图片描述

进一步看 s 型模型组（YOLOv5su、YOLOv6s、YOLOv7、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s、YOLOv12s），其 mAP50 与 F1 并未相对 n 型产生压倒性优势，甚至 YOLOv7（非 tiny）出现了精度显著下降（mAP50≈0.653，Recall≈0.639）且推理时延最高（InfTime 23.62 ms），这更像是“模型容量更大但数据规模与超参不匹配”导致的欠佳收敛或过拟合，提示在单类且样本量有限的田间任务中，盲目增大模型并不必然带来收益。YOLOv12s 在该组取得最高 mAP50（0.7910），但推理耗时明显高于 YOLOv8s（13.23 ms 对比 7.66 ms），若系统侧强调摄像头实时预览与交互流畅，YOLOv8s 更接近“速度与精度的甜点”；若强调离线批处理与尽量少漏检，可考虑 YOLOv12s 并配合更精细的阈值策略。综合本章结果，后续系统默认模型可优先选择 YOLOv11n/YOLOv12n 作为轻量部署基线，并将 Conf 设定在 0.25 左右、IoU 设定在 0.50 左右作为较稳健的起始点，再通过桌面端滑块在不同地块与光照条件下做快速自适应调参。

6. 系统设计与实现

6.1 系统设计思路

本系统采用分层架构组织实现逻辑，以保证“多源输入—实时推理—交互可视—结果可追溯”的闭环能力能够在桌面端稳定运行：表现与交互层由 PySide6/Qt 客户端承载，负责数据源选择、阈值滑块、主画面叠加显示、目标详情联动以及记录与导出入口；业务与会话管理层负责登录态、参数状态与任务编排，使用户在图片、视频与摄像头三种输入之间切换时保持一致的交互语义；推理与任务调度层面向帧流与批处理，统一预处理、模型推理与后处理链路，确保结果坐标可还原且统计口径一致；数据持久化层以 SQLite 与文件归档为核心，将账户信息、检测记录、导出索引与个性化配置落地，从而支持跨会话复查与回溯。

在跨层协同方面，系统将多源输入统一抽象为“可迭代帧序列”，图片作为单帧序列，视频与摄像头作为连续帧序列；帧流由事件驱动方式推进，保证 UI 主线程可持续响应滑块调参、暂停/停止与源切换等交互请求。每一帧进入推理前均进行 640×640 的尺度对齐与归一化/张量转换，推理后执行 Conf/IoU 过滤与 NMS 抑制冗余框，并完成坐标还原以匹配原图分辨率；界面侧以叠加框呈现类别与置信度，并在目标选择时进行高亮与统计信息更新，从而把“模型输出”转化为“可解释的交互反馈”。为了保障实时性与一致性，系统对输入源设置互斥策略并在任务层维护统一的参数快照，使同一时刻仅有一个活动源驱动推理，避免因异步回调导致阈值参数与显示状态不同步。

可扩展性方面，系统将权重管理独立为可热切换模块，使用户通过选择本地权重即可快速更新当前 YOLO 模型并同步刷新类别信息与配色；统计与导出由业务层统一编排，保证 CSV、PNG、AVI 的命名规则与记录索引一致，便于批量管理与溯源复查。客户端主题与常用配置以本地化方式持久化保存，保证跨会话的使用习惯延续；同时在推理与导出路径上预留异常恢复与日志接口，以应对视频解码中断、摄像头占用、权重加载失败等工程化边界条件，确保系统在田间数据的复杂采集环境下具备稳定可用的运行品质。

在这里插入图片描述

图6-1 系统流程图
图注：系统从启动与加载配置开始，经由多源输入、统一预处理、YOLO 推理与后处理，完成界面叠加展示与交互闭环，并在结束时写入记录与导出 CSV/PNG/AVI，突出 Conf/IoU 滑块与事件驱动帧流的协同关系。

在这里插入图片描述

图6-2 系统设计框图
图注：框图按“表现与交互层—业务与会话管理层—推理与任务调度层—数据持久化层”组织，界面事件与参数状态向下驱动推理管线，检测结果与导出索引向上回流形成交互闭环，并在数据层实现本地可追溯存储。

6.2 登录与账户管理 — 流程图

登录与账户管理模块以“可用性与本地安全”为目标，将注册、登录、会话生效与个性化加载串联为稳定流程：应用启动后进入登录界面，若用户无账号则完成注册信息填写并写入本地数据库以形成账户记录；已有账号则进入口令校验流程，校验失败时给予明确反馈并返回重新输入，校验成功后载入个性化配置（如主题、默认模型与最近检测记录）并进入主界面以衔接后续多源检测流程。在主界面运行期间，会话状态用于隔离不同用户的历史记录与偏好设置，用户可执行注销或切换账号以终止当前会话并回到登录入口，从而在同一客户端内实现多用户的轻量管理与结果可追溯。

在这里插入图片描述

图6-3 登录与账户管理流程图
图注：流程覆盖启动、注册/登录分支、口令校验与个性化加载，并强调会话与主检测流程的衔接，使账户体系成为记录隔离与复查检索的基础支撑。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

完整项目下载及文档： https://newtopmat.feishu.cn/wiki/Y05uwoPZFi3xVMkOgQ4c0Vujnef

功能效果展示视频：热门实战｜《基于深度学习的田间杂草检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 OERKE E C. Crop losses to pests[J]. Journal of Agricultural Science, 2006, 144(1): 31-43. (arXiv)
2 KAMILARIS A, PRENAFETA-BOLDÚ F X. Deep learning in agriculture: A survey[J]. Computers and Electronics in Agriculture, 2018, 147: 70-90. (arXiv)
3 OLSEN A, KONOVALOV D A, PHILIPPA B, et al. DeepWeeds: A Multiclass Weed Species Image Dataset for Deep Learning[EB/OL]. arXiv:1810.05726, 2018. (arXiv)
4 王宇博, 马廷淮, 陈光明. 基于改进YOLOv5算法的农田杂草检测[J/OL]. DOI:10.13733/j.jcam.issn.2095-5553.2023.04.023. (AEEISP)
5 陈学深, 吴昌鹏, 党佩娜, 等. 基于ViT-改进YOLOv7的稻田杂草识别[J]. 农业工程学报, 2024, 40(10): 185-193. DOI:10.11975/j.issn.1002-6819.202401209. (journals.caass.org.cn)
6 (MDPI) YOLOv8 Model for Weed Detection in Wheat Fields Based on a Visual Converter and Multi-Scale Feature Fusion[J]. Sensors, 2024, 24(13): 4379. DOI:10.3390/s24134379. (MDPI)
7 Field-based multispecies weed and crop detection using ground robots and advanced YOLO models: A data and model-centric approach[J/OL]. ScienceDirect, 2024. (ScienceDirect)
8 Autonomous Agricultural Robot Using YOLOv8 and ByteTrack for Weed Detection and Destruction[J]. Machines, 2025, 13(3): 219. (MDPI)
9 A Lightweight Cotton Field Weed Detection Model Enhanced with EfficientNet and Attention Mechanisms[J]. Agronomy, 2024, 14(11): 2649. (MDPI)
10 PD-YOLO: a novel weed detection method based on multi-scale feature fusion[J/OL]. Frontiers in Plant Science, 2025: 1506524. DOI:10.3389/fpls.2025.1506524. (Frontiers)
11 TIAN Y, YE Q, DOERMANN D. YOLOv12: Attention-Centric Real-Time Object Detectors[EB/OL]. arXiv:2502.12524, 2025. (arXiv)
12 WANG A, CHEN H, LIU L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024. (arXiv)
13 ZHAO Y, LV W, XU S, et al. DETRs Beat YOLOs on Real-time Object Detection[EB/OL]. arXiv:2304.08069, 2023. (arXiv)
14 LV W, ZHAO Y, CHANG Q, et al. RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer[EB/OL]. arXiv:2407.17140, 2024. (arXiv)
15 LI C, LI L, JIANG H, et al. YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications[EB/OL]. arXiv:2209.02976, 2022. (arXiv)
16 WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv:2207.02696, 2022. (arXiv)
17 LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot MultiBox Detector[EB/OL]. arXiv:1512.02325, 2015. (arXiv)
18 TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. arXiv:1911.09070, 2019. (arXiv)
19 TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-Stage Object Detection[EB/OL]. arXiv:1904.01355, 2019. (arXiv)
20 CARION N, MASSA F, SYNNAEVE G, et al. End-to-End Object Detection with Transformers[EB/OL]. arXiv:2005.12872, 2020. (arXiv)
21 LIN T Y, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[EB/OL]. arXiv:1708.02002, 2017. (arXiv)
22 REZATOFIGHI S H, TSOI N, GWAK J Y, et al. Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression[C/OL]. CVPR, 2019. (CVF Open Access)