当前位置：首页 > news >正文

基于深度学习的交通信号灯识别（YOLOv12完整代码+论文示例+多算法对比）

news 2026/5/6 20:31:59

摘要：本文面向智能驾驶与道路监控的交通信号灯识别需求，构建一套“训练评测 + 桌面端推理”的端到端系统，目标是在复杂光照、远距离小目标、遮挡与雨雾反光等场景下实现稳定的红黄绿及方向灯实时检测。工程侧提供可下载的数据与代码，并基于 PySide6/Qt 实现桌面交互：支持图片/视频/本地摄像头多源输入，推理过程具备处理进度条与用时显示，可在界面内调节 Conf/IoU 阈值并对目标进行选择与高亮；结果支持CSV 一键导出与带框结果一键导出（单帧 PNG / 多帧 AVI），同时将检测记录与账户信息通过 SQLite 本地入库实现可追溯管理。系统提供登录/注册（可跳过）入口，登录会话在一次运行周期内生效，兼顾便捷与基本口令校验；推理端支持模型选择/权重加载（.pt 热切换），切换后同步刷新类别与配色，便于在不同路口、相机与数据分布下快速复用。算法层面覆盖 YOLOv5–YOLOv12（共 8 种）并进行对比实验，综合报告 mAP、F1、PR 曲线与训练曲线等指标，以支撑“精度—速度—部署复杂度”的工程取舍；相关桌面端实现思路可参考配套技术说明文档。文末提供完整工程与数据集下载链接。

1. 系统功能与效果
2. 绪论
- 2.1 研究背景及意义
- 2.2 国内外研究现状
- 2.3 要解决的问题及其方案
- 2.4 博文贡献与组织结构
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理 — 流程图
7. 下载链接
参考文献（GB/T 7714）

功能效果展示视频：热门实战｜《基于深度学习的交通信号灯识别》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册：系统提供登录、注册与跳过三种入口，用户可在启动后快速进入主界面或完成本地账户验证后再进入；会话状态在本次运行周期内生效，退出或注销后失效。进入系统后，用户的操作动线通常为概览进入各检测模块，再到模型选择与结果导出视图，能够快速定位最近一次识别记录并在表格中高亮对应条目。账户与历史记录采用本地 SQLite 管理，结合口令校验与一次性跳过机制，在不牺牲体验的前提下提供基本安全与可追溯性。
在这里插入图片描述

（2）功能概况：桌面端采用“左侧控制—中部显示—右侧详情—底部记录/进度”的交互布局，核心围绕交通信号灯识别的加载、推理、查看与导出形成闭环。左侧集中管理输入源与阈值调节，中部提供叠加可视化，右侧展示目标类别、置信度与位置等细节信息。底部记录区跨页面共享关键结果与统计信息，配合进度条与用时显示，让用户对处理状态与性能表现有直观反馈。
在这里插入图片描述

（3）选择模型：系统支持从本地选择权重文件切换当前 YOLO 模型，并支持 .pt 权重热切换以便在不同城市路口、不同相机视角与不同光照条件下快速对比效果。切换后会同步刷新类别信息与配色方案，避免同类目标在不同模型间显示混乱。常用配置如阈值、主题样式与标题文本等会在本地持久化保存，保证多次启动的操作一致性与上手效率。
在这里插入图片描述

（4）图片检测：针对单张图片或图片序列，系统支持加载后即时推理，并在主显示区叠加检测框与标签信息，通常包含类别名与置信度，便于快速判断红黄绿灯及方向灯的识别结果。用户可通过 Conf/IoU 调节控制误检与漏检的平衡，并对某一目标进行选择与高亮以聚焦难例分析。检测结果可同步写入记录区并支持导出为结构化表格，便于后续统计与复核。
在这里插入图片描述

（5）文件保存：系统将导出流程与识别流程紧密耦合，支持一键导出带框结果与结构化记录，便于形成可追溯的离线证据链。导出文件采用时间戳命名并统一归档管理，既方便批量整理，也便于按文件名快速定位回溯。对外输出覆盖表格结果与可视化结果两类，满足算法评测、工程交付与问题复盘等不同使用场景。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

随着高级驾驶辅助与自动驾驶能力从“感知提示”走向“决策接管”，车辆对路口交通信号灯状态（红/黄/绿及方向箭头等）的理解，逐渐成为行为规划中最强约束之一1。在面向量产的安全工程体系里，感知链路的可靠性会直接影响到功能安全分析与风险闭环，因此交通信号灯识别不仅是算法问题，更是面向安全与合规的系统能力建设2。近年的综述研究也指出，交通信号灯识别从传统规则与浅层学习逐步迁移到深度学习范式，评价重点开始同时覆盖精度、时延、跨场景鲁棒性与可解释可视化[3]。

与一般道路目标相比，交通信号灯往往呈现“小目标、强背景干扰、状态细粒度、遮挡与眩光并存”的组合难点，尤其在远距与夜间场景中更为突出[4]。公开数据与基准研究为该任务提供了可对比的评测基础，例如DriveU Traffic Light Dataset（DTLD）强调跨城市采集与规模化标注，为训练与泛化评估提供了更稳定的统计支撑[5]。因此，在算法侧同时兼顾“检测定位”与“状态辨识”，并在系统侧形成可追溯、可复现实验流程，是交通信号灯识别落地的关键价值所在。

2.2 国内外研究现状

从真实道路应用看，交通信号灯识别通常面向车载摄像头或路侧摄像头的在线推理，既要求对密集小目标保持较高召回，也要求在多源光照、雨雾反射与运动模糊下控制误检率[6]。为了让不同方法在同一标尺上可比较，近期工作对多套交通信号灯数据集进行了统一评测，并给出了不同检测器在mAP与CPU/GPU单帧推理时延上的系统性差异，这类基准结论也侧面反映了“精度与速度的结构性权衡”在该任务中尤为尖锐[7]。

方法	范式/家族	数据集	关键改进技术	优势与局限性	关键指标（示例）	适用场景/对应难点	引用
Faster R-CNN	两阶段，Anchor-based	BOSCH	RPN候选框+RoI分类回归	小目标可通过候选框机制提升上限，但端到端时延较高	mAP@0.5=37.23，GPU 0.69s/帧，CPU 14.04s/帧	更适合离线高精度对比，不利于强实时路口推理	[7]
SSD	单阶段，Anchor-based	BOSCH	多尺度默认框密集回归	推理快但小目标与长尾类别易掉点	mAP@0.5=36.50，GPU 0.03s/帧，CPU 3.11s/帧	适合算力受限的粗检测，但需配合小目标增强策略	[7]
RetinaNet	单阶段，Anchor-based	BOSCH	Focal Loss抑制前景/背景不均衡	缓解类别不均衡，但远距小目标仍依赖特征分辨率	mAP@0.5=31.28，GPU 0.08s/帧，CPU 4.62s/帧	适合类别不均衡明显的场景，但对极小灯头仍吃力	[7]
CenterNet	单阶段，Anchor-free	BOSCH	中心点回归+关键点思想	结构简洁且对密集目标友好，但对尺度与下采样敏感	mAP@0.5=52.70，GPU 0.27s/帧，CPU 5.74s/帧	适合密集与遮挡，但需更强的多尺度特征融合	[7]
YL-YOLOv5s	YOLO系单阶段	LaRA	轻量骨干与注意力模块增强小目标特征	精度与计算量兼顾，但跨论文指标可比性受数据划分影响	mAP@0.5=92.3，FPS=52，GFLOPs=9.05	适合车载实时与小目标检测，需关注夜间眩光鲁棒性	[8]
TLD-READY	检测+相关性估计	DTLD等混合	引入“相关性估计”减少误用信号灯	更贴近驾驶任务，但需要道路语义线索与更完整工程评估	DriveU相关性估计准确率=96%	适合多车道与箭头灯场景，缓解“检测到但不该跟随”的误决策	[9]
GAD-DETR	Transformer检测器改进	自建/路口场景	轻量化骨干+特征融合模块优化	精度与FPS兼顾，但训练与部署复杂度更高	Precision=95.9%，FPS=117.8，模型尺寸降50.3%	适合高帧率路口监控与边缘部署，缓解小目标特征稀释	[10]

在算法范式上，两阶段检测器以候选框为核心，常用于追求上限精度或作为对比基线，但其多阶段计算链路对实时性并不友好[11]。单阶段检测器则更强调端到端与吞吐效率，配合类别不平衡优化可提升对稀有状态的学习稳定性，这也是Focal Loss在密集检测场景中被反复采用的原因之一[12]。面向交通信号灯这类“小而关键”的目标，工程上往往需要将多尺度特征融合、密集标注分配与困难样本挖掘组合使用，以减少远距漏检并抑制背景灯箱与反光的误检。

Transformer检测器为“全局建模与目标查询”提供了新的结构选择，DETR以集合预测的方式减少了对手工后处理的依赖，但在小目标与收敛速度上长期存在工程门槛[13]。RT-DETR等实时化工作尝试在端到端范式下强化速度与部署友好性，使其在需要高帧率与更强表征能力的交通场景中具备现实吸引力[14]。在交通信号灯任务里，这类方法的优势通常体现在复杂背景与密集目标下的稳定性，而代价则是更复杂的训练策略与部署链路。

以YOLO家族为代表的实时检测路线，近年来在结构设计、训练配方与部署接口上持续演进，逐步形成“轻量化骨干、多尺度融合、解耦头与端侧友好导出”的工程闭环[15]。在端到端方向上，YOLOv10强调一致的训练与推理范式以减少推理阶段的启发式开销，从而更利于低时延部署[16]。在Ultralytics系的持续迭代中，YOLO11更强调在更少参数下获得更好的COCO精度与速度平衡，而YOLO12则进一步引入注意力相关设计以强化精度与效率的协同提升[17][18]。

综合来看，交通信号灯识别的研究趋势正从“单纯检测”走向“与驾驶语义强耦合的可部署系统”，例如通过相关性估计降低“检测到但不该执行”的风险[9]。与此同时，轻量化、加速与端侧评测正在成为论文指标之外的共同语言，部分实时化模型已在精度保持的同时将FPS推至百帧级别[10]。国内研究也开始将交通信号灯与交通标志、停止线等要素协同建模，体现出面向城市路口综合感知的工程导向[19]。

2.3 要解决的问题及其方案

本文面向“基于深度学习的交通信号灯识别”这一典型车路视觉任务，围绕YOLO系列模型的训练、推理与对比评测，构建可交互的桌面端检测系统，实现图片、视频与本地摄像头多源输入下的在线检测、可视化解释与结果可追溯导出。系统以PyTorch为训练与推理框架，桌面端采用PySide6/Qt完成交互闭环，并通过本地持久化与统一导出规范将算法评测与工程使用场景连成一体。

要解决的问题主要包括：（1）在远距小目标、遮挡与眩光条件下保持检测与状态识别的准确性，同时满足在线推理的实时性需求；（2）在不同城市道路、天气与成像设备条件下保证模型的环境适应性与泛化能力，避免对单一数据分布过拟合；（3）在桌面端交互层面提供直观完整的检测流程与解释性可视化能力，使模型输出可被快速复核与定位；（4）在批量处理与长期使用中提升数据处理效率与存储安全性，实现检测记录、指标统计与导出归档的可追溯管理。

对应的解决方案包括：（1）以YOLOv12为核心候选模型，并对YOLOv5至YOLOv12进行系统化对比，通过数据增强、迁移学习与阈值策略提升小目标与复杂光照下的鲁棒性；（2）在训练与评测阶段统一预处理尺度与指标口径，结合多模型实验结果选择更适配交通信号灯长尾分布与状态细粒度的结构与超参；（3）使用PyTorch推理链路与PySide6/Qt交互界面端到端集成，支持多源输入、置信度与IoU阈值实时调节、目标选择高亮与可视化叠加；（4）通过缓存序列、时间戳命名与SQLite本地库等机制优化记录与导出流程，并配合硬件加速、模型压缩与系统测试确保整体稳定性与可用性。

2.4 博文贡献与组织结构

本文的主要贡献体现在：（1）围绕交通信号灯“远距小目标、强光反射、状态细粒度与实时性”的组合难点，给出更贴近工程部署的文献脉络与方法对比；（2）面向YOLOv5至YOLOv12建立可复现的训练、推理与评测流程，并以统一指标体系呈现不同模型在精度与速度上的权衡；（3）实现美观友好的桌面端交互闭环，覆盖多源输入检测、阈值调参、进度可视化、结果导出与本地持久化管理；（4）将算法评测与系统功能打通，形成从数据到模型到可视化再到归档的完整链路，便于二次开发与场景迁移。

全文组织结构如下：第1章给出系统功能与交互效果概览；第2章阐述研究背景、相关工作、问题定义与总体方案；第3章介绍数据集处理与标注统计，并分析增强策略与任务难点的对应关系；第4章围绕YOLOv12为主线说明模型原理与关键设计；第5章给出YOLOv5至YOLOv12的实验对比与误差分析；第6章从分层架构角度描述桌面端系统设计与实现流程；最后在结论中总结效果并展望轻量化、多模态与工程化部署方向。

3. 数据集处理

本文使用的交通信号灯数据集共包含 20841 张图像，其中训练集 18207 张、验证集 1755 张、测试集 879 张，整体划分比例约为 87.4% / 8.4% / 4.2%。从训练样例的可视化可以直观看到，数据覆盖了白天与夜晚、远距离小目标、车流遮挡、强光与反射等典型路口场景，且同一画面中常出现多实例与密集背景（如广告牌、车灯、路灯）对模型造成干扰，这些特性决定了后续训练需要同时兼顾小目标召回与误检抑制。标签及其对应中文名如下：

Chinese_name = {'green': "绿灯", 'red': "红灯", "yellow": "黄灯"}

在这里插入图片描述

标注类别围绕信号灯状态设置为三类：green（绿灯）、red（红灯）、yellow（黄灯），便于与桌面端显示的中文标签保持一致，并在导出报表与历史记录中实现稳定检索。结合标注分布图可以观察到目标中心位置在画面中部更为集中，而宽高分布呈明显的“小目标占多数、长尾延伸到中大目标”的形态，说明模型需要依赖更强的多尺度特征表达来覆盖远距灯头与近距大灯面两类极端尺度；同时宽高存在相关性，也提示在后处理阶段应避免对细长框或极端比例框过度过滤，以免引入额外漏检。
在这里插入图片描述

在数据划分策略上，训练、验证与测试集应保持场景与状态的覆盖一致，并固定随机种子以保证实验可复现；对于交通信号灯这种“关键但稀疏”的目标，还需关注不同状态样本可能存在的天然不均衡，避免验证集被少数状态主导而造成指标偏差。训练阶段建议以提升鲁棒性为目标组织增强与清洗：通过亮度/对比度与色彩扰动模拟顺逆光与色温漂移，通过轻量模糊与噪声模拟运动与夜间成像退化，通过随机缩放裁剪与多尺度训练强化远距小目标的学习，同时对明显错误标注、重复框与异常空标签进行清理；这些处理与“遮挡、尺度差异、反光眩光、实时性”难点一一对应，为后续 YOLO 系列模型的公平对比与桌面端稳定推理打下数据基础。

4. 模型原理与设计

本文以 YOLOv12 作为交通信号灯识别的主线检测器：它延续 YOLO 系列“一阶段、端到端回归”的范式，在单次前向中同时输出类别概率与边界框位置，并通过多尺度特征来兼顾远距小目标与近距大目标。对交通灯这一类目标而言，难点往往集中在目标尺寸极小、背景结构复杂（路灯杆/广告牌/反光玻璃等易混淆）、强光与夜间噪声导致的纹理退化，以及红黄绿之间的细粒度差异；因此模型设计需要在“保持实时性”的前提下，增强对全局上下文与局部高对比区域的感知能力，并在特征金字塔上稳定保留高分辨率语义。实践中，输入通常会被统一缩放到固定尺度（如 640×640），再由骨干网络抽取分层特征，经颈部模块融合后送入检测头预测 (\({(x_{\min},y_{\min},x_{\max},y_{\max}),, s,, c}\)) 等结果，用于后续绘制与统计。

与 YOLOv5–YOLOv11 以 CNN 堆叠为主的演进路线不同，YOLOv12 的核心变化是“以注意力为中心”的架构取向：它引入 Area Attention (A2) 来在较低开销下获得更大的有效感受野，同时用 R-ELAN 改造特征聚合路径以缓解注意力模型在大尺度训练时的优化不稳定问题。(Ultralytics Docs) 从机制上看，标准自注意力可写为

\[\mathrm{Attention}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^{\top}}{\sqrt{d}}\right)V, \]

其中 (Q,K,V) 由特征映射线性/卷积投影得到，(d) 为每个头的通道维度；而 A2 的思想是把特征图按水平或垂直方向划分为 (\ell) 个区域，在区域内计算注意力以降低复杂度与访存压力，从而更适配实时检测的吞吐约束。(ar5iv) 在工程实现上，YOLOv12 还会结合 FlashAttention 来改善注意力的显存与带宽瓶颈，并通过去除显式位置编码、调整 MLP 比例，以及引入 (\(7\times 7\)) 的可分离卷积“position perceiver”来隐式补足位置信息，尽量把计算落在更高效的卷积算子路径上。(Ultralytics Docs) 这些改动对交通灯识别尤其关键：一方面注意力带来的全局建模能力能利用“道路拓扑与信号灯安装规律”等上下文线索抑制误检，另一方面区域化注意力与轻量聚合模块又能避免把延迟推高到不适合在线推理的程度。

在检测头与损失建模上，交通灯任务更关心“定位要稳、分类要准且抗长尾”。边界框回归通常以 IoU 家族损失为主（Ultralytics 体系中常见的是 CIoU/EIoU 一类的改进项），例如 CIoU 可写为

\[\mathcal{L}_{\text{box}} = 1-\mathrm{IoU}+\frac{\rho^2(\mathbf{b},\mathbf{b}^{gt})}{c^2}+\alpha v, \]

其中 (\(\rho(\cdot)\)) 表示预测框 (\(\mathbf{b}\)) 与真值框 (\(\mathbf{b}^{gt}\)) 的中心点距离，(c) 为最小外接框对角线长度，(v) 则刻画宽高比一致性、(\(\alpha\)) 为其自适应权重；这类项能在小目标场景中提升收敛的“几何稳定性”，减少框抖动与贴边偏移。分类分支一般使用 BCE 或 Focal Loss 形式来对抗正负样本不均衡与“红黄绿+背景”之间的易混淆，并配合置信度阈值与 NMS/后处理阈值共同控制误检与漏检的权衡——在桌面端交互里把 Conf/IoU 做成滑块，本质上就是把这组权衡暴露给用户，以便在白天强光、夜间车灯、雨雾等不同域条件下快速找到更合适的工作点。

训练策略上，YOLOv12 仍遵循 YOLO 系列较成熟的配方：采用分段或线性 warm-up 稳定早期梯度，配合线性/余弦衰减学习率与 EMA（指数滑动平均）提高泛化；批归一化在卷积主干中依旧关键，而对注意力块则更强调残差尺度（\(layer scaling\)）与聚合路径的“可优化性”，这也是 R-ELAN 设计要解决的核心之一。(ar5iv) 对交通灯数据而言，强增强（如色彩扰动、尺度抖动、随机模糊/噪声）往往能提升跨天气跨曝光的鲁棒性，但也更需要合理的训练轮数与关闭时机来避免小目标细节被过度破坏；部署侧则可通过 ONNX/TensorRT、FP16 等手段降低延迟，把注意力引入带来的额外开销控制在可接受范围内。网络整体架构的关键特征聚合单元（R-ELAN）示意图如下图所示，便于读者直观理解“残差聚合 + 分支拼接”的信息流走向；示意图下载：

5. 实验结果与分析

本章实验目标是在同一数据集与统一评测口径下，对比 YOLOv5–YOLOv12 在交通信号灯三分类（green/red/yellow）检测任务中的精度与效率表现，并为桌面端部署选择提供依据。评测指标覆盖 Precision、Recall、F1 Score、mAP50 与 mAP50-95，同时统计端到端耗时分解（PreTime/InfTime/PostTime），以避免“仅看精度忽略延迟”的片面结论；所有结果均在 NVIDIA GeForce RTX 3070 Laptop GPU（8GB）上获得。由于交通灯目标普遍尺寸较小且背景高相似，mAP50 往往容易“接近饱和”，因此更建议结合 mAP50-95 与误检结构（例如背景被误判为红灯）一起解释模型差异，而不是只盯住单一数值。

为便于快速对比，表中给出 n 型与 s 型两档模型的代表性“最优项”与“最优折中”结论（完整逐模型数据已由你提供）。可以看到：在 n 型轻量模型中，YOLOv8n 的 mAP50 最高（0.9761），YOLOv9t 的 F1 最高（0.9521），而 YOLOv6n/YOLOv8n 在推理延迟上最占优（约 6.8ms 量级）；在 s 型模型中，YOLOv7 的 mAP50 与 F1 均处于领先（0.9789/0.9515），但推理延迟明显更高（23.62ms），而 YOLOv8s/YOLOv11s 则更像“部署友好型”的精度速度折中点。整体上，n 型与 s 型在 mAP50 的差距并不大，但在 mAP50-95（更强调高 IoU 下的定位质量）与延迟差异上更能拉开层次，这与交通灯“框必须稳、状态必须准、还要实时”的工程诉求更一致。

对比维度	n 型推荐结论（YOLOv5nu–YOLOv12n）	s 型推荐结论（YOLOv5su–YOLOv12s）
最高 mAP50	YOLOv8n：0.9761	YOLOv7：0.9789
最高 F1	YOLOv9t：0.9521	YOLOv7：0.9515
最高 mAP50-95	YOLOv6n：0.7725	YOLOv6s：0.7863
最低推理延迟（InfTime）	YOLOv6n：6.78ms（YOLOv8n：6.83ms 接近）	YOLOv8s：7.66ms（YOLOv11s：9.74ms 也较稳）
更均衡的部署点（精度×延迟）	YOLOv8n（高 mAP50 + 低延迟）	YOLOv11s / YOLOv8s（精度接近上限但延迟显著低于 YOLOv7）

在这里插入图片描述

从可视化对比看，n 型与 s 型的 F1 与 mAP50 双条形图如上图所示：多数模型的 mAP50 都集中在 0.97 左右，差异相对细微，说明该数据集在 IoU=0.5 的阈值下已经被充分学习；相比之下，F1 的差异更能体现“误检/漏检平衡”的不同训练与结构偏好。对桌面端交互而言，这也解释了为什么我更愿意把 Conf/IoU 作为滑块交给用户：当模型间差距不大时，合理的阈值工作点往往比“换一个版本”更能立刻改善体验，尤其是夜间车灯、雨雾反光等极端场景。
在这里插入图片描述

进一步结合训练曲线与 PR/F1 曲线可以看到，本任务的收敛速度较快：mAP50 往往在前 20 个 epoch 左右快速爬升并进入平台期，后续更多是对定位细节与置信度校准的“打磨”。从平均 PR 曲线看，多模型在高召回区域出现同步下滑，说明当系统被迫“几乎不漏检”时，误检将成为不可避免的代价；这与交通灯任务的现实一致——背景里最容易被误判的通常不是“完全无关物体”，而是车尾灯、反光灯箱、路灯等具有相似颜色与点状高亮结构的干扰源。F1-Confidence 曲线给出了一个很直接的部署建议：全类别最优 F1 出现在置信度约 0.404 的位置（约 0.95），这也支持桌面端默认 Conf 设为 0.4 左右更合理，而不是一味提高阈值去“压误检”，因为过高阈值会让远距小灯头更早被过滤掉，导致实际路口场景的漏检上升。
在这里插入图片描述

从混淆矩阵的结构性误差来看，三类信号灯本身的对角线准确率较高（green 约 0.96、red 约 0.95、yellow 约 0.95），但“背景被误检为信号灯”仍是主要风险来源，且更偏向被误判为 red（背景列中 red 占比最高）。这类误差在夜间尤为常见：红色尾灯、刹车灯与反光标志会提供强颜色先验，模型在缺少稳定几何上下文（例如灯组外壳、悬臂结构）时更容易给出高置信度误检。对应的改进思路通常不需要大改网络：一方面可以在数据层补充“难负样本”与夜间反光样本，并增强颜色/曝光扰动来削弱单一颜色线索；另一方面可以在系统层引入更轻量的约束，例如基于历史帧的时序一致性过滤、基于道路结构的 ROI 限定（灯组常见位置范围）、以及对极端小框的二次判别策略，以减少“背景红点”的高置信度输出对最终决策的影响。

6. 系统设计与实现

6.1 系统设计思路

本文系统以“桌面端可交互推理”为核心目标，在总体架构上采用分层解耦思路，将界面与交互、业务与会话管理、推理与任务调度、数据持久化四类职责拆分组织，从而在多源输入与实时推理之间建立稳定的控制闭环。表现与交互层以 PySide6/Qt 客户端承载人机交互，负责输入源选择、阈值滑块、目标选择与高亮、进度与用时显示等体验要素；业务与会话管理层统一维护“当前输入源互斥状态、模型权重与类别信息、Conf/IoU 参数与统计口径、记录与导出编排”，确保同一时刻只有一种帧流驱动推理，且界面参数与后处理逻辑保持一致；推理与任务调度层以事件驱动方式接入图像、视频与摄像头帧流，在预处理、YOLO 推理与后处理之间形成可控的流水线；数据持久化层则面向“可追溯与可复现”目标，将账户与历史记录落入本地 SQLite，并将 CSV/PNG/AVI 等导出文件按时间戳归档，以便复查与批量管理。

从数据流角度看，系统在启动阶段载入本地配置与模型列表，随后由用户选择输入源（图片/视频/摄像头）触发媒体接入与帧流调度；每一帧在进入推理前统一完成尺度规整与张量转换，使不同来源在推理端具备一致的输入分布。推理输出的候选框会进入后处理模块，在 Conf/IoU 阈值与 NMS 规则下完成筛选与去重，再将坐标映射回原图分辨率并回传给前端；前端在主显示区叠加框、类别与置信度，同时在右侧目标详情区同步统计信息，并允许用户对目标进行选择高亮以支持难例复核。对视频与摄像头场景，系统通过帧序列缓冲与进度条联动，既能提供“可停止、可切源”的交互控制，也能在导出时将带框序列编码为 AVI，避免逐帧保存带来的碎片化与管理成本。

在一致性与实时性保障上，系统采用“源互斥 + 参数集中管理 + 任务队列化”的策略：源互斥避免多路帧流争用推理资源，参数集中管理确保滑块变化能以一致方式作用于后处理与统计口径，任务队列化则将帧读取与推理解耦，减轻界面线程阻塞风险。可扩展性方面，模型权重支持本地选择与热切换，切换后类别与配色联动刷新，使系统能快速适配不同路口、不同相机与不同数据分布；导出、主题与配置均本地化存储，配合异常恢复与日志记录，可在长期使用中维持稳定体验并支持二次开发。

在这里插入图片描述

图6-1 系统流程图
图注：从系统初始化到多源输入，依次完成预处理、YOLO 推理、后处理与界面联动，并在交互控制下形成闭环；突出 Conf/IoU 滑块、目标高亮选择、CSV/PNG/AVI 导出与时间戳命名。

在这里插入图片描述

图6-2 系统设计框图
图注：体现“表现与交互层—业务与会话层—推理与任务调度层—数据层”的模块边界与数据流向，并将模型权重管理与导出归档纳入统一控制面。

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图6-3 登录与账户管理流程图
图注：覆盖注册写入本地数据库、登录口令校验与会话生效、载入个性化配置与历史记录，并与主检测流程自然衔接，支持注销与切换账号。

登录与账户管理流程与主检测链路的价值在于：它为“个性化配置与历史记录”提供了稳定的会话边界，使用户在完成注册写入本地数据库或通过口令校验登录后，可以自动载入主题偏好、默认模型与最近检测记录，并直接进入多源检测主界面开展推理与导出；当用户需要更换设备使用习惯或进行权限隔离时，可通过注销/切换账号回到登录入口，从而保证检测结果、配置参数与导出归档在本地范围内具备一致的可追溯性，同时避免在多用户共用环境中出现记录混淆。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

完整项目下载及文档： https://newtopmat.feishu.cn/wiki/R4ivwHcV0iSYR5kr19pcNX0NnRh

功能效果展示视频：热门实战｜《基于深度学习的交通信号灯识别》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 SAE International. J3016_202104: Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles[S]. 2021.
2 International Organization for Standardization. ISO 26262-1:2018 Road vehicles—Functional safety—Part 1: Vocabulary[S]. 2018.
[3] Pavlitska S, Lambing N, Bangaru A K, et al. Traffic Light Recognition using Convolutional Neural Networks: A Survey[EB/OL]. arXiv:2309.02158, 2023.
[4] Behrendt K, Novak L, Botros R. A Deep Learning Approach to Traffic Lights: Detection, Tracking, and Classification[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). 2017: 1370-1377.
[5] Fregin A, Müller J, Krebel U, et al. The DriveU Traffic Light Dataset: Introduction and Comparison with Existing Datasets[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). 2018: 3376-3383.
[6] Jensen M B, Philipsen M P, Møgelmose A, et al. Evaluating State-of-the-art Object Detector on Challenging Traffic Light Data[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2017.
[7] Mishra M, et al. Evaluating and Bench-marking Object Detection Models for Traffic Sign and Traffic Light Datasets[C]//Asian Conference on Computer Vision Workshops (ACCVW). 2022.
[8] 黄寅杰, 等. 基于改进YOLOv5s的交通信号灯检测算法[J/OL]. 建模与仿真, 2023. DOI:10.12677/mos.2023.126532.
[9] Polley N, Pavlitska S, Boualili Y, et al. TLD-READY: Traffic Light Detection—Relevance Estimation and Deployment Analysis[EB/OL]. arXiv:2409.07284, 2024.
[10] Tang C, Li Y, Wang L, et al. Real-time traffic light detection based on lightweight improved RT-DETR[J]. Journal of Real-Time Image Processing, 2025, 22: 82. DOI:10.1007/s11554-025-01652-8.
[11] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[12] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). 2017: 2980-2988.
[13] Carion N, Masson T, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]//European Conference on Computer Vision (ECCV). 2020: 213-229.
[14] Zhao Q, et al. RT-DETR: Real-Time Detection Transformer[EB/OL]. arXiv:2304.08069, 2023.
[15] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023.
[16] Wang C Y, et al. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024.
[17] Wang A, Chen H, Liu L, et al. YOLOv10: Real-Time End-to-End Object Detection[EB/OL]. arXiv:2405.14458, 2024.
[18] Ultralytics. Ultralytics YOLO11[EB/OL]. 2025-12-23访问.
[19] Jocher G, Qiu J, Chaurasia A. Ultralytics YOLO (v8.3.78)[EB/OL]. Zenodo, 2025.
[20] 张志佳, 范莹莹, 邵一鸣, 赵永茂. 基于改进YOLO v3模型的多类交通标识检测[J]. 沈阳工业大学学报, 2023, 45(1): 66-70.
[21] Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 658-666.
[22] Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 12993-13000.
[23] Zhang Y F, Ren W, Zhang Z, et al. Focal and Efficient IOU Loss for Accurate Bounding Box Regression[EB/OL]. arXiv:2101.08158, 2021.