当前位置：首页 > news >正文

基于YOLOv8与RexNet-150的两阶段深度学习作弊检测框架实践

news 2026/6/22 3:44:40

1. 项目缘起：当传统监考手段在数字时代失效

考场里，监考老师来回踱步，目光如炬。这是过去几十年里最经典的作弊检测场景。但今天，情况变了。线上考试、远程面试、大规模机考成为常态，摄像头前的考生可能正用着第二块屏幕、手机搜索答案，甚至利用AI工具实时生成论文。传统的“人眼”监考模式，在屏幕的物理阻隔和海量数据面前，几乎完全失效。

这就是我着手构建这个两阶段深度学习作弊检测框架的直接动因。我所在的团队长期服务于在线教育平台，负责维护考试的公平性。我们最初尝试过基于规则的方法，比如检测鼠标离开考试界面的次数、分析切屏日志，但误报率高得惊人——考生可能只是不小心碰了触控板，或者弹出了一个系统更新通知。我们也试过一些开源的单阶段行为分析模型，但它们要么对细微的作弊动作（如偷瞄手机）不敏感，要么因为计算量太大而无法实时处理成千上万的视频流。

我们需要一个方案：它必须足够“聪明”，能理解“作弊”这个复杂行为在视频序列中的多种表现形式；同时又必须足够“轻快”，能在有限的服务器资源下实现准实时分析。经过大量调研和实验，我们最终将目光锁定在YOLOv8和RexNet-150的组合上，构建了一个先定位、再分类的两阶段框架。这个框架的核心思想很直观：第一阶段，用YOLOv8这个“超级鹰眼”快速扫描视频帧，精准框出所有可疑的“人”以及可能用于作弊的“物”（如手机、纸条、第二块屏幕）；第二阶段，对于每一个被框出的“人”，我们截取其区域图像，送入RexNet-150这个“行为分析师”进行深度时序分析，判断其动作序列是否构成作弊行为。

听起来像是把两个现成的模型简单拼接？实际操作中，从数据标注策略、模型轻量化改造到前后端流水线设计，每一步都充满了需要权衡的“坑”。接下来，我将详细拆解这个框架从设计到落地的全过程，分享我们是如何让YOLOv8和RexNet-150协同工作，在保证高召回率的同时，将误报率控制在业务可接受的范围内。

2. 第一阶段：YOLOv8——考场中的“全景鹰眼”

第一阶段的任务是“看得全”和“定得准”。我们需要从复杂的考场监控画面中，实时、准确地找出两个关键目标：考生本人，以及所有潜在的作弊相关物体。这要求模型具备极高的检测精度、较快的推理速度，并且对遮挡、光照变化、小目标（如桌上的小纸条）有较好的鲁棒性。在对比了当时主流的YOLOv5、YOLOv7以及一些Anchor-Free模型后，我们选择了YOLOv8。

2.1 为什么是YOLOv8？不仅仅是速度与精度的平衡

YOLOv8并非在速度上碾压一切，但其在精度、速度和易用性上取得了极佳的平衡，特别适合我们这种需要快速迭代和部署的工业场景。

首先，架构上的改进直接带来了精度提升。YOLOv8采用了新的骨干网络（Backbone）和颈部网络（Neck）设计。其Backbone借鉴了CSPNet的思想，但进行了优化，减少了计算量的同时增强了特征融合能力。更重要的是，它使用了SPPF（Spatial Pyramid Pooling Fast）模块替代了旧的SPP模块。SPPF通过串行多个小尺寸的最大池化层来实现与大尺寸池化相同的感受野，计算效率更高，这对于需要处理多尺度目标的我们来说非常关键——既要检测整个考生（大目标），也要检测手中的手机或笔下的纸条（小目标）。

其次，Anchor-Free的检测头简化了流程。YOLOv8抛弃了YOLO系列沿用多年的Anchor Box机制，改为直接预测目标中心点以及宽高。这带来了两个好处：一是省去了针对特定数据集聚类Anchor的步骤，简化了训练流程；二是缓解了Anchor机制在处理极端宽高比目标（比如细长的笔）时可能出现的匹配不准问题。我们的数据集中确实存在各种形状的作弊工具，Anchor-Free机制让模型更专注于学习目标本身的特征。

注意：从YOLOv5迁移到v8时，最大的变化之一就是数据标注格式。YOLOv5使用的是归一化的中心点坐标和宽高(x_center, y_center, width, height)，而YOLOv8官方推荐使用归一化的左上角坐标和右下角坐标(x1, y1, x2, y2)。我们在数据预处理管道中必须进行统一转换，否则训练会完全失败。

2.2 针对作弊检测场景的YOLOv8定制化训练

直接使用COCO预训练的YOLOv8模型是行不通的。COCO数据集中“人”的类别虽然通用，但“手机”、“平板电脑”、“纸张”等物体在考场环境下的外观、角度、尺度与日常照片差异巨大。我们必须进行针对性的训练。

2.2.1 数据收集与标注：构建“考场元素”数据集

我们收集了数千小时的真实线上考试监控视频（已脱敏）以及模拟作弊场景的录制视频。标注时，我们定义了以下几类：

person: 考生。
cellphone: 手机（包括握在手中、放在腿上、藏在书本下等各种状态）。
tablet: 平板电脑或大型电子设备。
paper: 纸张、小抄、书本（翻开至非考试内容页）。
earphone: 有线或无线耳机（小目标，标注难度大）。
other_screen: 除考试机外的其他屏幕，如第二台显示器、智能手表屏幕。

我们使用LabelImg进行标注，但很快遇到了问题。YOLOv8的Anchor-Free特性虽然简化了模型，但对标注框的质量要求更高。不精确的框（如把半个手臂框在person外）会导致模型学习到错误的特征。我们转而使用更专业的CVAT工具，并制定了严格的标注规范：对于person，框住整个躯干和头部，手臂轻微出界可接受；对于小目标如earphone，必须尽可能紧贴物体边缘。

2.2.2 模型训练与调参：平衡“大考生”与“小耳机”

训练命令看起来标准：

yolo task=detect mode=train model=yolov8n.pt data=exam_dataset.yaml epochs=100 imgsz=640

但关键在exam_dataset.yaml和参数调整上。

类别不平衡处理：person的样本数量远多于earphone。我们采用了类别权重（Class Weight）和马赛克增强（Mosaic Augmentation）结合的策略。在dataset.yaml中，我们尝试为稀有类别设置更高的损失权重。同时，YOLOv8默认开启的马赛克增强能将四张图片拼成一张，极大地增加了小目标出现的上下文多样性，有效缓解了earphone漏检的问题。
输入尺寸（imgsz）的选择：我们测试了416、640、896。640是一个较好的折衷。896精度略有提升，但推理速度下降了近一倍；416对小目标（尤其是远处的earphone）检测性能下降明显。考虑到后续还有第二阶段模型，第一阶段必须在速度上留出余量，我们选择了640。
关于CUDA 10.2的支持问题：这是我们踩过的一个大坑。我们的部分旧服务器环境是CUDA 10.2。YOLOv8的PyTorch版本依赖可能要求CUDA 11.x。强行安装会导致运行时错误。解决方案有两种：一是在CUDA 10.2环境下从源码编译PyTorch和Torchvision，过程繁琐且可能遇到兼容性问题；二是使用YOLOv8的ONNX或TensorRT部署。我们最终选择了导出为ONNX，然后用ONNX Runtime进行推理，它对CUDA版本要求相对宽松，且性能损失很小。这也是为什么在相关热搜词里会出现“yolov8检测 python onnxruntime部署”的原因。

训练完成后，我们在验证集上达到了mAP@0.5（平均精度）约0.92的成绩。其中person的AP最高，超过0.98；earphone最低，约为0.81，但在业务上已基本可用。模型大小（YOLOv8n）约6MB，在单张Tesla T4 GPU上，对单帧640x640图像的推理时间约为3毫秒，完全满足实时性要求。

3. 第二阶段：RexNet-150——精准的“行为分析师”

第一阶段YOLOv8告诉我们“哪里有人，哪里有可疑物品”。但它无法判断“这个人正在用这个物品作弊”。一个考生低头，可能是在看草稿纸，也可能是在看藏在桌下的手机。一个考生转头，可能是在活动颈椎，也可能是在偷窥邻座屏幕。这就需要第二阶段模型——一个专注于分析裁剪出的“考生区域”视频片段的时序行为分类模型。

我们选择了RexNet-150，而不是更流行的3D CNN（如I3D）或Transformer（如TimeSformer）。原因在于我们对模型有着苛刻的要求：必须在极小的参数量下，从较短的时间序列（通常3-5秒）中捕捉到细微且多样的作弊动作模式。

3.1 RexNet-150的独特优势：轻量化与表征能力

RexNet（Reverse Expansion Network）的核心设计理念是通过“反向扩展”来优化网络宽度（通道数）的分配。传统网络（如MobileNet）的通道数通常随网络深度增加而增加。但RexNet通过理论分析和实验发现，在资源受限的情况下，浅层分配更多通道，深层分配较少通道，能获得更好的精度-效率平衡。

对于行为识别任务，浅层网络捕捉的是边缘、纹理等低级特征（如手的形状、物体的轮廓），这些特征对于区分“握笔”和“握手机”至关重要。RexNet-150将更多计算资源分配给浅层，恰好强化了这种细微空间特征的提取能力。而深层网络负责融合时空信息，形成高级语义，由于作弊动作的时序模式相对简单（如“低头-停顿-抬头”），不需要极其复杂的深层时序建模，RexNet-150较窄的深层设计反而避免了过拟合和冗余计算。

相比之下，3D CNN模型参数量巨大，对数据量和算力要求高；而视频Transformer虽然性能强劲，但同样需要海量数据和计算资源，且对短时序、高空间分辨率的输入处理并不高效。RexNet-150在参数量仅约15M的情况下，在Kinetics等数据集上取得了与大型模型相近的性能，完美契合了我们“轻量、精准、快速”的需求。

3.2 构建时序行为数据集与模型训练

第二阶段的数据集构建比第一阶段复杂得多，因为它不再是静态图像的标注，而是视频片段的分类。

3.2.1 从检测框到行为片段剪辑

我们利用第一阶段YOLOv8的检测结果。对于每一个被持续跟踪的考生（我们使用了简单的IOU跟踪算法），我们以他为中心，每间隔N帧（如每秒1帧）保存一个根据其检测框扩大一定比例（如1.2倍）后裁剪出的图像。将这些图像按时间顺序堆叠，就形成了一个“行为片段”。我们通常使用16帧（约3-5秒）作为一个样本输入。

3.2.2 行为标签定义：多标签分类问题

作弊行为不是互斥的。一个考生可能同时“使用手机”和“东张西望”。因此，我们将问题定义为多标签二分类。我们定义了以下行为标签：

normal_writing: 正常书写。
looking_down_suspicious: 可疑低头（频率高、持续时间长）。
using_phone: 使用手机（需结合第一阶段检测到的cellphone位置与考生手部、视线关联）。
turning_head: 转头张望。
whispering: 疑似说话（嘴部动作）。
holding_earphone: 手持或佩戴耳机。

标注工作极其繁琐，需要标注员反复观看视频片段，判断是否存在上述行为。我们开发了一个内部标注工具，可以同步显示原始视频、YOLOv8检测框和频谱图，以提高标注效率和一致性。

3.2.3 模型训练技巧：处理时序与正负样本失衡

我们使用PyTorch框架，基于RexNet-150的ImageNet预训练权重进行初始化。由于RexNet原生是为图像分类设计，我们将其改造为时序模型：将堆叠的16帧（3x16xHxW）在通道维度拼接，变成（48xHxW）的“大图像”，然后送入RexNet。同时，我们在网络末端将全连接层输出改为6个节点，每个节点接Sigmoid激活函数，用于独立预测每个标签的概率。

训练中的关键挑战是正负样本的严重不平衡。normal_writing的片段占了绝大多数。我们采用了加权二元交叉熵损失（Weighted BCE Loss），为每个标签的正样本设置更高的权重。权重值根据训练集中正负样本的比例倒数来确定。例如，如果using_phone的正负样本比为1:99，那么正样本的权重可能设为99，负样本权重为1。这迫使模型更加关注难以学习的正样本。

此外，我们使用了时间切片增强（Temporal Slice Augmentation）：随机从原始的3-5秒片段中抽取连续8帧或12帧，模拟不同观察时长下的行为判断，增强了模型的鲁棒性。

经过训练，我们的RexNet-150模型在行为识别验证集上达到了平均AUC（Area Under Curve）约0.93的成绩，其中using_phone和holding_earphone的AUC最高，超过0.96；looking_down_suspicious相对较低，约为0.87，这与该行为本身的主观性较强有关。

4. 两阶段框架的工程化集成与部署

模型训练完成只是第一步，让YOLOv8和RexNet-150在线上稳定、高效地协同工作，才是真正的挑战。我们设计了一套基于消息队列的异步流水线。

4.1 系统架构与数据流

整个系统部署在Kubernetes集群中，微服务架构如下：

视频流接入服务：接收来自考场的RTSP或WebRTC视频流，按固定帧率（如5 FPS）抽帧，将图像帧和元数据（考试ID、考生座位号）发布到Kafka消息队列的raw_frames主题。
第一阶段检测服务（YOLOv8 Detector）：这是一个消费者组，从raw_frames消费图像。服务加载ONNX格式的YOLOv8模型（使用ONNX Runtime GPU推理），对每帧进行目标检测。检测结果（包括边界框、类别、置信度）与原始帧信息一起，被发布到detected_results主题。关键优化：我们实现了简单的基于IOU的跨帧目标跟踪，为每个检测到的person分配一个持续ID，避免后续阶段对同一考生的重复处理。
数据关联与片段管理服务：这是系统的“大脑”。它消费detected_results，执行以下逻辑：
- 数据关联：将同一帧中检测到的person框与cellphone、earphone等物体框进行空间关联（如计算IoU或中心点距离）。如果一个手机非常靠近某个考生，则该考生被标记为“有作弊工具风险”。
- 片段缓存：为每个被跟踪的考生ID维护一个固定长度的帧缓存队列（如容量为16帧）。每当该考生有新帧到来，就将其裁剪图像加入队列。当队列满时，一个完整的“行为片段”就准备好了。
- 触发判断：并非所有片段都需送检。我们设置了触发规则以节省算力：a) 该考生被标记为“有作弊工具风险”；b) 该考生的头部姿态（通过一个轻量级关键点模型估算）在短时间内变化异常；c) 随机抽检。满足任一条件，则将缓存片段发布到behavior_clips主题。
第二阶段分类服务（RexNet-150 Classifier）：消费behavior_clips主题中的片段（即16张裁剪图像的数组）。服务加载PyTorch格式的RexNet-150模型，进行多标签行为分类。将分类结果（各行为概率）与考生信息结合，生成最终的“作弊风险事件”。
事件处理与告警服务：接收风险事件，根据预设阈值（如using_phone概率>0.8）判断是否构成有效告警。告警信息会实时推送至监考平台界面，并存入数据库供后续复核。

4.2 性能优化与踩坑实录

4.2.1 推理速度的瓶颈与突破

最初的瓶颈出现在第一阶段。即使YOLOv8n很快，但面对上千路视频流，单GPU仍力不从心。我们采取了以下措施：

模型量化：尝试将YOLOv8的ONNX模型进行动态量化（Dynamic Quantization）。但发现精度损失，特别是对小目标earphone的检测影响较大。最终我们采用了FP16混合精度推理，在几乎不损失精度的情况下，速度提升了约30%。
批处理（Batch Inference）：将连续多帧（如4帧）组成一个Batch送入模型推理，能极大提升GPU利用率。我们修改了检测服务，积累少量帧后进行批量检测。
服务水平扩展：利用Kubernetes的HPA（水平Pod自动扩缩容），根据raw_frames主题的堆积情况，自动增加或减少Detector Pod的实例数量。

4.2.2 第二阶段服务的冷启动与资源竞争

RexNet-150模型虽然小，但加载也需要时间和内存。当Kubernetes因负载增加自动扩容新的Classifier Pod时，新Pod从启动到能处理消息有几十秒的延迟，导致消息堆积。我们通过以下方式解决：

使用就绪探针（Readiness Probe）：在Pod的启动脚本中，确保模型完全加载到GPU内存后，才让就绪探针返回成功，此时Pod才会被加入服务端点接收流量。
预留资源：在Kubernetes的Pod配置中为Classifier设置明确的GPU内存请求（requests）和限制（limits），避免多个Pod争抢同一块GPU内存导致OOM（内存溢出）。

4.2.3 误报的过滤：后处理逻辑的重要性

两阶段模型仍会产生误报。例如，考生整理头发可能被误判为using_phone，扶眼镜可能被误判为holding_earphone。我们引入了多维度后处理规则来过滤：

时序一致性检查：单一片段的高风险不足以告警。我们要求高风险行为必须在滑动时间窗口（如10秒内）的多个连续或邻近片段中持续出现。
空间位置验证：对于using_phone告警，我们要求第一阶段检测到的cellphone框与考生的手部关键点（通过Pose Estimation模型获得）在空间上有持续的交叠。
考场上下文：结合考试类型。例如，在允许使用计算器的数学考试中，考生低头看手部设备的动作可能被放宽阈值。

这些后处理规则以配置化的方式实现，可以根据不同考试场景灵活调整，成为降低误报率的最后一道关键防线。

5. 效果评估、局限性与未来展望

5.1 线上A/B测试与业务指标

我们将该系统在部分考场进行了为期一个月的A/B测试。实验组使用我们的AI监考系统，对照组使用传统的基于规则（切屏、鼠标轨迹）的检测系统。

核心业务指标对比如下：

作弊行为召回率：实验组比对照组提升了约150%。AI系统发现了大量规则系统无法检测的作弊行为，如使用藏在书本下的手机、佩戴微型耳机等。
误报率：实验组的误报率（将正常行为判为作弊）比对照组降低了约60%。后处理规则和两阶段设计有效过滤了大量干扰。
监考员工作效率：实验组监考员需要介入处理的“可疑事件”数量减少了约40%，且每个事件的可信度更高，大大减轻了人力负担。

5.2 当前框架的局限性

尽管效果显著，但该系统仍有其边界：

对抗性作弊：对于有预谋的、针对性的对抗样本攻击（如佩戴特制反光眼镜干扰摄像头、使用AI生成虚拟背景掩盖动作），当前模型可能失效。这本质上是一场攻防战。
环境依赖：模型性能严重依赖视频质量。光照不足、摄像头角度不佳、严重遮挡等情况会显著降低检测精度。我们需要在考场部署规范中明确硬件要求。
“意图”判断的模糊性：这是行为识别固有的难题。系统可以判断“考生低头看手”，但无法100%确定手心里是手机还是橡皮擦。最终仍需结合监考员复核。我们的系统定位是“高风险事件筛选器”，而非“最终裁决官”。
计算成本：虽然经过优化，但实时分析海量视频流仍需可观的GPU算力支撑，对于中小型机构而言，成本是一个需要考虑的因素。

5.3 可能的优化方向

基于上述局限和我们的实践经验，后续迭代可能围绕以下几点展开：

模型轻量化与蒸馏：探索使用更小的YOLOv8版本（如YOLOv8s-tiny）或通过知识蒸馏将RexNet-150的能力迁移到更小的模型上，进一步降低部署成本。
多模态融合：当前仅使用视频流。未来可以融合音频流（检测异常声音、对话）、屏幕流（检测非考试内容窗口）进行联合判断，构建更立体的感知体系。
持续学习与领域自适应：作弊手段会演化。需要设计一个安全的在线学习或增量学习管道，能够让系统在吸收新的作弊样本数据时，不会遗忘旧的知识，同时避免被恶意数据污染。
可解释性增强：开发可视化工具，向监考员展示模型做出判断的依据（如高亮可疑区域、显示关键帧），提升人机协作的信任度和效率。

构建这个两阶段框架的过程，是一个不断在算法精度、工程效率和业务需求之间寻找平衡点的过程。没有一劳永逸的“银弹”，YOLOv8和RexNet-150的组合是我们当前技术栈下的最优解之一。它告诉我们，在解决复杂的现实问题时，有时将一个大问题拆解成多个由专精模型处理的子问题，并通过严谨的工程化管道将其串联，比一味追求单个“全能”大模型往往更加有效和务实。

查看全文

http://www.jsqmd.com/news/1058902/