当前位置：首页 > news >正文

基于深度学习的暴力行为检测系统（YOLOv12完整代码+论文示例+多算法对比）

news 2026/7/9 4:54:35

摘要：本文面向校园、公共场所与社区安防等场景，设计并实现一套基于深度学习的暴力行为检测系统，支持对图片、视频与本地摄像头流进行统一推理与结果管理。系统提供 数据与代码可下载 的完整复现实验链路，桌面端采用 PySide6/Qt 构建交互界面，实现导入即检、可视化叠加框（类别与置信度）、视频处理进度显示与进度条控制，并支持阈值实时调参、结果表格高亮定位与一键检索最近记录。工程侧集成 登录/注册（可跳过） 与本地 SQLite 结果入库，保障会话范围内的使用体验与数据可追溯；导出能力覆盖 CSV 导出、带框结果一键导出（单帧 PNG / 多帧 AVI），并采用时间戳命名以便批量归档与复查。算法层面覆盖 YOLOv5–YOLOv12（共 8 种）暴力行为检测方案，统一训练与评测流程，对比 mAP、F1、PR 曲线与训练曲线等指标，同时支持 模型选择/权重加载（.pt 热切换），实现不同权重间的快速切换与类别信息同步刷新。文末提供完整工程与数据集下载链接。

1. 系统功能与效果
2. 绪论
- 2.1 研究背景及意义
- 2.2 国内外研究现状
- 2.3 要解决的问题及其方案
- 2.4 博文贡献与组织结构
3. 数据集处理
4. 模型原理与设计
5. 实验结果与分析
6. 系统设计与实现
- 6.1 系统设计思路
- 6.2 登录与账户管理 — 流程图
7. 下载链接
参考文献（GB/T 7714）

➷点击跳转至文末所有涉及的完整代码文件下载页☇

1. 系统功能与效果

（1）登录注册功能：系统提供登录、注册与一次性跳过三种入口，用户可在启动后直接进入认证页完成会话建立，或选择跳过以快速体验核心检测流程；会话在本次运行周期内生效，用于绑定个人配置、历史记录与导出偏好。进入主界面后，整体动线围绕“概览到任务”的方式组织，用户可从功能概况页快速进入图片检测等核心模块，并在记录区定位最近一次检测与导出结果；账户信息与历史记录以本地 SQLite 管理，口令校验与基础权限隔离提升了使用安全性，同时保持交互流程简洁不冗余。
在这里插入图片描述

（2）功能概况：主界面以“左侧输入与参数、中部可视化展示、右侧目标详情、下方记录与导出”的布局呈现，用户可以在同一屏内完成数据导入、阈值调节、结果查看与任务收尾。概况区会汇总当前输入源状态、推理耗时、目标数量与最近导出信息，降低首次上手成本；下方记录区支持按时间与文件名回溯，并对关键字段进行高亮定位，便于在多次实验或多批数据处理中快速复查与对比。
在这里插入图片描述

（3）选择模型：系统支持在界面中选择不同的 YOLO 系列模型，并通过加载本地权重文件完成模型切换，实现同一任务下的多模型对照测试与快速迭代。模型切换后，类别信息与可视化配色会同步刷新，避免不同权重间标签集合不一致带来的误读；同时，常用配置（如阈值、界面主题与显示偏好）在本地持久化保存，使用户在多次启动或更换账号后仍能保持一致的使用体验。
在这里插入图片描述

（4）图片检测：图片检测支持单张导入后即时推理，主显示区以叠加框方式呈现检测结果，并展示类别与置信度，便于对暴力行为相关目标的定位与核查。用户可通过置信度与 IoU 阈值调节控制误检与漏检的平衡，并在目标详情区查看位置坐标与关键统计；检测记录与当前任务联动更新，支持按目标选择高亮显示与快速复核，从而形成“看得到、点得动、查得回”的闭环体验。
在这里插入图片描述

（5）文件保存：系统提供统一的保存与导出视图，将可视化结果与结构化数据分开管理，既便于归档也便于后续分析。支持保存带框图片结果，以及将检测记录导出为 CSV 以用于统计与审计；导出文件采用时间戳命名并保持一致的目录规则，用户可按文件名快速定位某次实验或某批数据的输出，提升批量处理场景下的可追溯性与复查效率。
在这里插入图片描述

2. 绪论

2.1 研究背景及意义

在公共场所与校园园区等场景中，监控视频已成为事后取证的重要载体，但对“暴力/斗殴”这类突发事件而言，更关键的是在事件发生的早期阶段触发告警并辅助干预。2
传统依赖人工多屏巡检的方式容易受疲劳与注意力漂移影响，且难以覆盖长时间、海量、多路视频流，导致漏报与响应滞后在工程上几乎不可避免。2
近年来深度学习在视频理解与目标检测上的快速进展，使得在边缘端或本地算力下实现“实时暴力行为检测—结果可视化—证据留存”的闭环成为可能，从而支撑更可控的人机协同处置流程。1 (MDPI)

暴力行为检测具有典型的高风险与强约束特征：一方面，场景光照变化、遮挡、运动模糊与密集人群会放大模型的不确定性；另一方面，系统需要在“准确性、实时性、可解释呈现与可追溯存档”之间做工程权衡。1 (MDPI)
因此，将可部署的检测模型与桌面端交互界面（如阈值可调、进度可见、记录可检索、结果可导出）进行一体化设计，不仅能提升使用体验，也能降低误用与误判带来的管理风险。

2.2 国内外研究现状

从任务定义看，监控视频中的暴力检测常被视为人类动作识别的一个子问题，难点集中在动作边界不清、交互对象相互遮挡、快速位移带来的帧间冗余与信息缺失，以及“疑似暴力动作”（推搡、拥抱、快速挥手等）导致的高混淆。2
围绕这些挑战，学术界首先通过构建更贴近真实监控的公开视频库推动研究评测，例如 RWF-2000 汇集了 2000 段来源于真实监控场景的视频片段，并以此验证模型在低画质、强运动与复杂背景下的鲁棒性。2

在视频暴力识别范式上，早期方法多基于运动特征与浅层分类器，通过光流统计等描述子实现实时判别，其中 Violent Flows（ViF）以短序列光流变化统计刻画人群暴力特征，为后续“实时性优先”的研究提供了基线思路。3 (Open University)
随着 3D 卷积与双流结构兴起，研究开始系统性融合 RGB 外观与运动线索，RWF-2000 工作进一步提出 Flow Gated Network，将 3D-CNN 与光流门控融合并在其测试集上取得 87.25% 的准确率，体现出显式运动建模对斗殴识别的增益。2
与此同时，面向“多人交互”与“细粒度肢体动态”的建模逐渐增强，多模态方案开始引入骨架序列与图卷积来补足单纯 RGB 在遮挡与背景干扰下的表达不足，MSTFDet 将时空 Transformer 与 ST-GCN 结合并在 RWF-2000 上取得 95.2% 的多类分类准确率，展示出“骨架+上下文”对真实场景鲁棒性的潜力。4 (Directory of Open Access Journals)

除强监督分类外，弱监督与多模态大规模数据也在推动暴力检测走向更真实的互联网与长视频场景，XD-Violence 提供了带音频与视觉模态的长视频资源，并以弱监督框架缓解逐帧标注成本，强调对复杂事件的可扩展性。5 (ar5iv)
另一方面，在工程落地中，许多系统会采用“关键帧采样 + 帧级目标检测/交互区域检测 + 时序平滑”的折中路线，以便在保持实时性的同时提供更直观的可解释结果（例如对参与者或交互区域绘制框并附带置信度）。

方法/模型	范式/家族	数据集	关键改进技术（与难点对应）	关键指标（可追溯）	适用场景与局限	参考
ViF + 线性 SVM	传统运动特征	Violent Flows	用光流幅值随时间统计表征“群体暴力突变”	强调实时性（特征轻量）	适合拥挤群体，易受相机抖动/场景变化影响	3 (Open University)
Flow Gated Network	3D-CNN + 光流融合	RWF-2000	门控融合外观与运动，缓解快速动作与模糊	RWF-2000 测试集 Acc=87.25%	需计算光流，实时部署成本较高	2
XD-VioDet（弱监督）	多模态弱监督	XD-Violence	降低密集标注成本，覆盖长视频复杂事件	提供多模态长视频资源以支撑弱监督评测	对精确时序边界与定位能力仍依赖策略设计	5 (ar5iv)
MSTFDet	Transformer + 骨架图卷积	SCFD / RWF-2000	CAET 建模上下文交互，ST-GCN 建模骨架动态	RWF-2000：MCA=95.2%；SCFD：MCA=92.3%	骨架质量受遮挡与姿态估计影响	4 (Directory of Open Access Journals)
RT-DETR	端到端 Transformer 检测器	COCO	端到端检测减少 NMS 依赖，兼顾精度与速度	RT-DETR-R50：AP=53.1，T4 上 108 FPS（论文给出）	通用检测强，但需任务数据适配到暴力交互表征	6 (CVF Open Access)
YOLOv6 v3.0	单阶段检测器	COCO	架构与训练策略增强，兼顾吞吐与精度	YOLOv6-N：AP=37.5，T4 上 1187 FPS	通用检测强，暴力任务需定义“交互对象/区域”标签	7 (arXiv)
YOLOv7	单阶段检测器	COCO	“trainable bag-of-freebies”等训练增强	论文报告最高 56.8% AP（V100 30FPS+区间）	通用检测强，长时序动作仍需额外时序建模	8 (arXiv)
YOLOv9	单阶段检测器	COCO	PGI + GELAN 缓解信息丢失、提升参数利用	提出可编程梯度信息以稳定深层训练	更偏通用检测，任务侧仍依赖数据标注设计	9 (arXiv)
YOLOv8（Ultralytics）	单阶段检测器	多任务框架	Anchor-free + 解耦头等工程化设计	官方文档给出结构与使用范式（无正式论文）	易用性强，需结合暴力任务数据定义	10 (GitHub)
YOLO11 / YOLO12（Ultralytics）	单阶段检测器	多任务框架	强调速度-精度权衡与工程部署链路	文档提供系列模型与对比结论	更偏工程落地参考，学术可重复性取决于实验设定	[11–12] (Ultralytics Docs)

从检测器技术演进看，暴力检测系统若采用帧级检测路线，需要在 Anchor-based/Anchor-free、解耦头、多尺度特征融合与损失设计之间做取舍，其中 Focal Loss 通过降低易分类样本权重缓解类不平衡，对“暴力样本稀缺、长尾分布明显”的数据特性具有直接意义。13 (arXiv)
此外，端到端 Transformer 检测器在统一匹配与全局建模方面提供了新的折中方案，但在资源受限场景下仍需谨慎评估其延迟与显存开销。6 (CVF Open Access)
在模型轻量化与部署方面，ONNX/TensorRT 推理加速、量化剪枝与蒸馏已成为提升在线实时性的通用策略，而“可解释可视化、批量导出与本地可追溯存储”的系统层设计也正在成为研究与工程共同关注的方向。1 (MDPI)

2.3 要解决的问题及其方案

要解决的问题可归纳为：（1）暴力行为在真实监控中存在遮挡、模糊与背景干扰，导致检测准确性与误报控制难度增大；（2）系统需要满足视频流在线推理与交互操作，实时性与稳定性约束强；（3）桌面端需要提供直观的检测结果展示与可调参数入口，保证使用效率与可解释性；（4）检测记录与导出结果需具备可追溯与安全管理能力，避免数据散落与难以复查。

对应的解决方案包括：（1）以 YOLOv5–YOLOv12 为核心候选模型，在统一数据与指标下对比 mAP、F1、PR 等表现并选择更匹配场景的权重组合；（2）采用 PyTorch 推理链路并结合加速导出策略，配合视频帧流事件驱动调度以降低端到端延迟；（3）以 PySide6/Qt 构建桌面交互，将阈值调参与检测可视化联动，支持图片、视频与本地摄像头输入；（4）以本地 SQLite 管理账户与检测记录，并提供 CSV 与带框结果的统一导出机制，形成从检测到归档的闭环。

2.4 博文贡献与组织结构

本文的主要贡献体现在：（1）结合暴力行为检测的真实监控需求，对视频识别与帧级检测两条路线进行对照式综述；（2）围绕 YOLOv5–YOLOv12 的可训练与可部署特性，给出统一评测口径下的对比分析思路；（3）给出面向桌面端落地的交互设计要点，强调阈值可调、进度可见、记录可查与结果可追溯；（4）在系统工程层面引入本地化账户、数据库记录与一键导出机制，提升复现实验与实际使用的可操作性；（5）配套提供数据与代码资源，便于读者快速复现与二次开发。

后续章节将依次介绍数据集处理与标注要点、检测模型原理与训练策略、各版本 YOLO 的实验结果与误差分析，以及桌面端系统的分层设计与实现流程，最终在结论中讨论模型与系统的进一步扩展方向。

3. 数据集处理

本系统使用的暴力行为检测数据集共包含 8212 张图像，覆盖室内近景（如挥拳、踢击等肢体动作）、室外街景与监控视角（远距离、小目标、低照度与灰度画面）等多种采集条件，能够较好模拟真实安防场景下“画质不稳定、背景杂乱、遮挡频发”的输入特征。标注目标以“暴力倾向”为唯一类别（violence），更贴近工程落地中“先检测再处置”的告警需求；在标注表达上通常采用 YOLO 系列常用的归一化框描述，即以类别编号与 \((x,y,w,h)\) 形式记录目标在图像中的相对位置与尺度，便于与训练端的统一预处理与坐标还原流程对齐。标签及其对应中文名如下：

Chinese_name = {'violence': "暴力倾向"}

在这里插入图片描述

在数据划分方面，训练集 6160 张、验证集 1022 张、测试集 1030 张，约对应 75.0%/12.4%/12.5% 的比例，并通过固定随机种子完成可复现的划分，以保证不同模型对比时的公平性与稳定性。从标签分布可视化结果看，目标框中心点更集中在画面中部区域，符合监控画面以人员活动区为主的构图习惯；同时框的尺度跨度较大，既包含近景的高占比人物框，也包含远景监控下的中小目标框，这意味着模型需要同时处理尺度变化与细节缺失两类困难，并在阈值设置上平衡“误报”与“漏报”的代价。
在这里插入图片描述

为适配上述困难并提升泛化能力，训练阶段通常以统一输入尺寸与尺度归一为基础，在不破坏动作结构语义的前提下引入随机尺度抖动、轻量几何扰动与颜色空间扰动等增强策略，并结合 Mosaic 等多图拼接增强提高对密集场景与背景变化的鲁棒性；针对监控场景常见的运动模糊、反光与低照度，还可叠加轻量模糊、噪声与亮度/对比度扰动，使模型更稳健地学习到与“暴力交互”相关的局部线索而非背景纹理。数据清洗层面重点检查越界框、空标注与异常尺寸标注，并保持标注格式一致性，从而减少训练时的无效梯度与评测时的定位误差，最终为 YOLOv5–YOLOv12 的统一对比提供可靠数据基础。

在这里插入图片描述

4. 模型原理与设计

本文将暴力行为检测建模为目标检测问题：给定单帧图像 \(I\)，模型输出若干候选框 \({(b_i, s_i, c_i)}\)，其中 \(b_i=(x_{\min},y_{\min},x_{\max},y_{\max})\) 表示位置，\(s_i\) 为置信度，\(c_i\) 为类别（本数据集对应“暴力倾向”）。从工程落地角度看，单阶段 YOLO 系列能够在较低延迟下完成“定位+判别”的一体化预测，更适合与桌面端实时显示、阈值滑块调参和批量导出等交互闭环集成；同时，多尺度输出与端到端后处理也便于应对监控视角中人物尺度变化大、遮挡频繁、光照不稳定与运动模糊等典型难点。本文后续实验以 YOLOv12 为主线，并在同一训练配置下对 YOLOv5–YOLOv12 多版本进行对比，以保证结论可复现、可解释。

在网络结构上，YOLOv12 延续“骨干（Backbone）—颈部（Neck）—检测头（Head）”的分层范式：骨干负责逐级下采样与语义提炼，颈部进行多尺度特征融合，检测头在不同尺度上输出分类与回归结果。与以往更偏 CNN 的 YOLO 版本相比，YOLOv12 的一个核心方向是将注意力机制更“干净”地嵌入到检测系统中：典型自注意力可写为 \(\mathrm{Attn}(Q,K,V)=\mathrm{softmax}!\left(\frac{QK^\top}{\sqrt{d}}\right)V\)，其中 \(Q,K,V\) 为查询、键和值，\(d\) 为通道维度；而面向实时性约束时，YOLOv12 采用“区域化”的注意力思想，将特征图按条带/区域进行重排与聚合，以在保持较大感受野的同时降低计算与访存开销，并配合更易优化的特征聚合模块（如 R-ELAN）来稳定训练过程。这类设计对暴力行为的视觉线索尤为关键：在拥挤背景或遮挡场景中，模型需要在“人体局部动作（挥拳、推搡）—人与人交互关系—场景上下文”之间建立更强的关联，从而减少将正常肢体摆动误判为暴力的情况。YOLOv12 关键结构示意图可参考下图链接在这里插入图片描述

损失函数与任务建模方面，训练目标通常由分类损失与边界框回归损失共同构成：分类侧多采用二元交叉熵或其变体以学习“暴力倾向”类别的判别边界；回归侧以 IoU 家族度量为核心，基本 IoU 定义为 \(\mathrm{IoU}=\frac{|B\cap B^{gt}|}{|B\cup B^{gt}|}\)，其中 \(B\) 与 \(B^{gt}\) 分别为预测框与真值框。为进一步约束中心点距离与长宽一致性，常用 CIoU / EIoU 等改进形式，例如 CIoU 可写为

\[L_{\mathrm{CIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{p},\mathbf{p}^{gt})}{c^2}+\alpha v, \]

其中 \(\rho(\cdot)\) 表示预测框与真值框中心点欧氏距离，\(c\) 为包围两框最小外接矩形的对角线长度，\(v\) 描述宽高比一致性，\(\alpha\) 为权重项；EIoU 则进一步显式惩罚宽高差异：

\[L_{\mathrm{EIoU}}=1-\mathrm{IoU}+\frac{\rho^2(\mathbf{p},\mathbf{p}^{gt})}{c^2}+\frac{(w-w^{gt})^2}{c_w^2}+\frac{(h-h^{gt})^2}{c_h^2}, \]

其中 \(w,h\) 为预测框宽高，\(c_w,c_h\) 为外接矩形在宽高方向的归一化尺度。对本任务而言，这些项不仅影响定位精度，也会间接影响“动作区域”是否被完整框住，从而影响分类分支对暴力线索的学习质量。

5. 实验结果与分析

本章实验以“暴力倾向”单类检测为目标，数据集共 8212 张图像并按训练/验证/测试划分开展对比评测，评价指标包括 Precision、Recall、F1、mAP@0.5（mAP50）与 mAP@0.5:0.95（mAP50-95），同时统计端到端耗时并拆分为预处理、推理与后处理三段，以便分析模型在桌面端实时交互场景中的可用性。默认对比模型为 yolov5nu、yolov6n、yolov7-tiny、yolov8n、yolov9t、yolov10n、yolo11n、yolo12n，测试硬件为 NVIDIA GeForce RTX 3070 Laptop GPU（8GB），因此结果更关注“单帧延迟与精度的工程平衡”，而非仅追求离线精度最优。
在这里插入图片描述

在 n 系列对比中，各模型在 mAP50 上整体已经达到较高水平，但在更严格的 mAP50-95 上仍存在显著差异，说明该任务的主要瓶颈往往来自框的定位一致性与边界尺度的稳定性（尤其是多人交互、遮挡与近远景混合时）。从表中可见，YOLOv8n 在端到端耗时约 10.17ms 的前提下取得 mAP50=0.9259、F1=0.8908，呈现出较优的“实时性-精度”综合表现；YOLOv9t 与 YOLOv11n 的 mAP50-95 分别达到 0.7050 与 0.7047，更接近高质量定位的上限，但 v9t 的推理段耗时明显更高（16.51ms），更适合离线批处理或对实时性要求较弱的场景。YOLOv12n 的 Recall 达到 0.9499，体现出更“激进”的召回倾向，但 Precision 与 mAP50-95 相对偏低，意味着在该数据分布下更容易产生额外候选框或定位漂移，若用于在线告警需要在阈值与后处理上更谨慎地约束误报。

模型	Params(M)	FLOPs(G)	总耗时(ms)*	Precision	Recall	F1	mAP50	mAP50-95
YOLOv5nu	2.6	7.7	10.94	0.8257	0.8846	0.8541	0.9064	0.6398
YOLOv6n	4.3	11.1	10.34	0.8365	0.9087	0.8711	0.9047	0.6342
YOLOv7-tiny	6.2	13.8	21.08	0.8400	0.8690	0.8543	0.8800	0.5607
YOLOv8n	3.2	8.7	10.17	0.8791	0.9029	0.8908	0.9259	0.6794
YOLOv9t	2.0	7.7	19.67	0.8781	0.9110	0.8942	0.9240	0.7050
YOLOv10n	2.3	6.7	13.95	0.8737	0.8815	0.8776	0.9179	0.6865
YOLOv11n	2.6	6.5	12.97	0.8817	0.9100	0.8957	0.9247	0.7047
YOLOv12n	2.6	6.5	15.75	0.8486	0.9499	0.8964	0.9158	0.6241

*总耗时 = PreTime + InfTime + PostTime（单位 ms）。
在这里插入图片描述

从 PR 曲线与阈值敏感性看，单类“暴力倾向”任务在中高召回区间更容易出现精度下滑，这与动作近似、背景干扰以及多人交互导致的“候选框难以干净分离”有关；在这类数据上，合理的 Conf 阈值往往比继续堆叠模型规模更能改善在线体验。
在这里插入图片描述

以给出的 F1-Confidence 曲线为例，最佳 F1 出现在较低的置信度阈值附近（约 0.149），说明若直接沿用较保守的默认阈值，可能会牺牲对轻微动作、远距离或模糊目标的召回；因此在 Qt 桌面端提供 Conf/IoU 滑块并实时观察 PR/F1 变化，是将模型能力真正落到“可控告警”的关键一环。

在这里插入图片描述

结合训练过程曲线可以看到，大多数模型在前 20–30 个 epoch 内 mAP50 快速上升并逐步趋于稳定，后期主要体现为小幅波动与局部回落，这通常与增强策略带来的样本分布扰动以及学习率衰减阶段的收敛形态有关；同时，mAP50 与 mAP50-95 的差距在训练后期仍较明显，提示后续优化更应聚焦“框的质量”而非仅提升分类置信度，例如在标注一致性（交互双方是否合框）、难例采样（易混淆的非暴力动作）、更贴近监控画质的增强（模糊/低照度）以及更稳健的后处理策略（NMS/阈值联动）上形成闭环。综合工程部署角度，若以桌面端实时预览与交互为主要目标，博主更倾向优先选择 YOLOv8n 作为默认模型以获得更低延迟与较高精度；若场景强调更严格的定位质量与更稳定的高召回段表现，则可选 YOLOv11n（或在 s 系列中选 YOLOv11s）作为权衡点，并通过界面端的 Conf/IoU 调参与导出复核机制降低误报带来的业务风险。

6. 系统设计与实现

6.1 系统设计思路

本系统以“桌面端可交互的实时检测”为核心目标，采用分层架构将界面展示、业务会话、推理调度与数据持久化解耦组织：表现与交互层由 PySide6/Qt 客户端承载，负责多源输入选择、Conf/IoU 阈值滑块、主画面叠加框展示、目标详情与记录表格联动等用户侧体验；业务与会话管理层负责将账号会话、参数状态、最近记录与导出偏好统一收口，形成可复用的“任务上下文”，避免在不同检测入口之间重复配置与重复计算。推理与任务调度层以事件驱动方式接入图像/视频/摄像头帧流，统一完成 640×640 预处理、YOLOv5–YOLOv12 推理与后处理，再将标准化结果回传界面；数据持久化层则将账户、记录、模型信息与导出归档落到本地 SQLite 与文件系统，从而实现“可追溯、可复查、可批量管理”的工程闭环。

跨层协同的关键在于“帧流一致性与参数一致性”：多源输入互斥保证同一时刻只有一种数据源驱动推理，避免线程争用导致的状态错乱；阈值参数以单一可信状态源进行广播，确保推理端过滤策略、界面端显示与记录端统计三者一致；对视频与摄像头场景，帧读取采用事件驱动节奏与异步队列解耦，使推理耗时波动不会反向阻塞 UI 刷新，并通过进度条与耗时统计将处理进度显式反馈给用户。由此，系统能够在“实时预览—阈值调参—目标高亮—记录更新—导出归档”的闭环中维持稳定体验，并为不同模型权重的对比评测提供一致的运行环境。

面向扩展性，系统将模型权重管理与统计导出编排设计为独立能力：权重热切换只需更新模型引用并同步刷新类别与配色，避免牵动其余模块；导出侧将 CSV、PNG 与 AVI 统一按时间戳命名并归档，便于检索同一批次的输入与输出对应关系；异常恢复则围绕“源切换、任务中断、导出失败”三类高频场景设计保护策略，使桌面端在频繁试验与多轮迭代中仍能保持稳定、可控的交互节奏。

在这里插入图片描述

图 6-1 系统流程图

在这里插入图片描述

图 6-2 系统设计框图

6.2 登录与账户管理 — 流程图

在这里插入图片描述

图 6-3 登录与账户管理流程图

在账户管理流程上，系统启动后先呈现登录界面，并根据用户是否已有账号在注册与登录之间分流：注册阶段录入必要信息并写入本地数据库形成账户记录，登录阶段完成口令校验后建立会话并载入个性化配置与最近检测记录，使用户进入主界面后即可直接开展多源检测任务；当口令校验失败时流程回到凭据输入以避免错误会话进入业务模块，而注销与切换账号则用于结束当前会话并清理与该会话绑定的界面状态，从而在多用户共用设备时保证配置与检测记录的隔离性，并与主检测流程保持顺滑衔接。

7. 下载链接

若您想获得博文中涉及的实现完整全部资源文件（包括测试图片、视频，py, UI文件，训练数据集、训练代码、界面代码等），这里见可参考博客与视频，已将所有涉及的文件同时打包到里面，点击即可运行，完整文件截图如下：

在这里插入图片描述

完整项目下载及文档： https://newtopmat.feishu.cn/wiki/CY2awmW27i1y8rkfSznc8Ltqngd

功能效果展示视频：热门实战｜《基于深度学习的暴力行为检测系统》YOLOv12-v8多版本合集：附论文/源码/PPT/数据集，支持图片/视频/摄像头输入、可视化界面、结果导出与权重切换
环境配置博客教程：https://deeppython.feishu.cn/wiki/EwnTwJ2H3iLF6VkNG6ccgZYrnvd；
或者环境配置视频教程：Pycharm软件安装视频教程；（2）Anaconda软件安装视频教程；（3）Python环境配置视频教程；
数据集标注教程（如需自行标注数据）：数据标注合集

参考文献（GB/T 7714）

1 Huillcen Baca H A, Palomino Valdivia F d L, Gutierrez Caceres J C. Efficient Human Violence Recognition for Surveillance in Real Time[J]. Sensors, 2024, 24(2): 668. DOI:10.3390/s24020668. (MDPI)
2 Cheng M, Cai K, Li M. RWF-2000: An Open Large Scale Video Database for Violence Detection[C]//Proceedings of the 25th International Conference on Pattern Recognition (ICPR). 2021: 4183-4190. DOI:10.1109/ICPR48806.2021.9412502.
3 Hassner T, Itcher Y, Kliper-Gross O. Violent Flows: Real-Time Detection of Violent Crowd Behavior[C]//CVPR Workshops. 2012: 1-6. (Open University)
4 Qi B, Wu B, Sun B. Automated violence monitoring system for real-time fistfight detection using deep learning-based temporal action localization[J]. Scientific Reports, 2025, 15(1): 1-23. DOI:10.1038/s41598-025-12531-4. (Directory of Open Access Journals)
5 Wu P, Liu J, Shi Y, et al. XDVioDet: A Weakly Supervised Framework for Violence Detection in Videos[C]//European Conference on Computer Vision (ECCV). 2020. (ar5iv)
6 Zhao Y, Lv W, Xu S, et al. DETRs Beat YOLOs on Real-time Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. (CVF Open Access)
7 Li C, Li L, Geng Y, et al. YOLOv6 v3.0: A Full-Scale Reloading[EB/OL]. arXiv:2301.05586, 2023. (arXiv)
8 Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[EB/OL]. arXiv:2207.02696, 2022. (arXiv)
9 Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information[EB/OL]. arXiv:2402.13616, 2024. (arXiv)
10 Ultralytics. Explore Ultralytics YOLOv8[EB/OL]. 2023-01-10. (Ultralytics Docs)
11 Ultralytics. Ultralytics YOLO Docs（Models Supported & YOLO11）[EB/OL]. (Ultralytics Docs)
12 Ultralytics. Ultralytics YOLO12 Documentation[EB/OL]. (Ultralytics Docs)
13 Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017. (arXiv)
14 Li X, He S Y. 基于改进YOLOv5算法的图像小目标检测方法研究[J]. 创意与创新, 2024, 8(10). DOI:10.12184/wspcyycx2WSP2516-415513. (wsp-publishing.com)