当前位置：首页 > news >正文

基于YOLO+ArcFace的智能签到系统

news 2026/7/3 18:54:36

基于YOLO+ArcFace的智能签到系统

1. 项目概述

1.1 项目背景

本项目是一个基于深度学习的智能签到系统，结合了YOLO目标检测算法和ArcFace人脸识别算法，实现了自动化的人员签到管理。系统能够从图像或视频中自动检测人体，提取人脸特征，识别人员身份，并记录签到信息。

1.2 技术栈

深度学习框架: PyTorch 2.0+
目标检测: YOLOv5/YOLOv8 (Ultralytics)
人脸识别: ArcFace (InsightFace / face_recognition)
计算机视觉: OpenCV 4.8+
Web框架: Streamlit 1.28+
数据处理: NumPy, Pandas, scikit-learn
可视化: Matplotlib, Plotly
数据存储: JSON, Pickle

1.3 系统特点

✅高精度检测: 使用YOLO算法实现高精度人体检测
✅快速识别: ArcFace算法提供毫秒级人脸识别
✅多人同时签到: 支持一张图片中多人同时签到
✅友好界面: 基于Streamlit的Web界面，操作简单直观
✅完整记录: 自动保存签到记录，支持统计分析和数据导出
✅灵活部署: 支持本地部署，无需云服务

2. 数据集介绍

2.1 数据集构成

本系统使用的数据集主要包含人体图像数据，用于训练YOLO人体检测模型。数据集特点如下:

图像数量: 训练集包含大量标注的人体图像
标注格式: YOLO格式标注文件，包含边界框坐标和类别信息
数据增强: 使用了旋转、缩放、翻转、色彩变换等数据增强技术
类别: 主要检测"人"这一类别

2.2 数据集标注

上图展示了训练数据集的标注情况。每个人体都被精确标注了边界框，用于训练YOLO模型学习人体的位置和形状特征。

2.3 数据分布

标签相关性图展示了数据集中不同标签之间的关系和分布情况，帮助我们理解数据集的平衡性和多样性。

2.4 人脸数据库

系统中的人脸数据库存储在face_database.pkl文件中，包含:

人员姓名: 作为唯一标识符
人脸特征向量: 512维的ArcFace特征向量
存储格式: Python字典，使用pickle序列化

3. 算法原理

3.1 YOLO目标检测算法

3.1.1 YOLO算法简介

YOLO (You Only Look Once) 是一种单阶段目标检测算法，具有以下特点:

速度快: 将检测任务转化为回归问题，一次前向传播即可完成检测
精度高: 通过深度卷积神经网络提取特征，准确定位目标
端到端: 直接从图像到检测结果，无需复杂的后处理

3.1.2 YOLO工作流程

输入图像: 将图像调整为固定尺寸(如640×640)
特征提取: 通过骨干网络(Backbone)提取多尺度特征
特征融合: 使用FPN/PAN结构融合不同层级的特征
预测输出: 输出边界框坐标、置信度和类别概率
后处理: 使用NMS(非极大值抑制)去除重复检测框

3.1.3 本系统中的应用

classYOLODetector:def__init__(self,model_path='best.pt',conf_threshold=0.5):self.model=YOLO(model_path)self.conf_threshold=conf_thresholddefdetect_humans(self,image):results=self.model(image,conf=self.conf_threshold)# 返回检测到的人体边界框returndetections

系统使用训练好的YOLO模型(best.pt)进行人体检测，置信度阈值默认为0.5，可根据实际需求调整。

3.2 ArcFace人脸识别算法

3.2.1 ArcFace算法原理

ArcFace是一种基于深度学习的人脸识别算法，核心思想是:

角度间隔损失: 在特征空间中增加类间距离，减小类内距离
特征归一化: 将人脸特征映射到超球面上
高维特征: 提取512维特征向量，具有强大的表达能力

3.2.2 特征提取流程

人脸检测: 从图像中定位人脸区域
人脸对齐: 对人脸进行几何变换，标准化姿态
特征提取: 通过深度神经网络提取512维特征向量
特征归一化: 将特征向量归一化到单位超球面

3.2.3 相似度计算

系统使用余弦相似度来比较两个人脸特征:

similarity = cos(θ) = (A · B) / (||A|| × ||B||)

相似度范围: [-1, 1]
阈值设置: 默认0.6，可调整
判断逻辑: similarity ≥ threshold 则认为是同一人

3.2.4 本系统中的实现

classArcFaceRecognizer:defextract_face_embedding(self,face_image):# 提取512维特征向量embedding=self.model.get(face_image)[0].embeddingreturnembeddingdefcompare_faces(self,embedding1,embedding2,threshold=0.6):# 计算余弦相似度similarity=cosine_similarity([embedding1],[embedding2])[0][0]is_match=similarity>=thresholdreturnis_match,similarity

3.3 系统整体算法流程

输入图像 ↓ YOLO人体检测 → 检测到人体边界框 ↓ 提取人脸区域 → 从人体上半部分提取人脸 ↓ ArcFace特征提取 → 生成512维特征向量 ↓ 特征比对 → 与数据库中的特征进行比对 ↓ 身份识别 → 输出识别结果和相似度 ↓ 记录签到 → 保存签到信息到数据库

4. 模型训练与评估

4.1 训练配置

模型架构: YOLOv5/YOLOv8
输入尺寸: 640×640
批次大小: 16
训练轮数: 100+ epochs
优化器: SGD with momentum
学习率: 初始0.01，余弦退火调度
数据增强: Mosaic, MixUp, HSV变换, 随机翻转

4.2 训练结果

上图展示了模型训练过程中的各项指标变化:

train/box_loss: 边界框回归损失，逐渐下降表示模型学习到了准确的位置信息
train/cls_loss: 分类损失，下降表示分类能力提升
train/dfl_loss: 分布焦点损失，用于优化边界框预测
metrics/precision: 精确率，表示检测结果的准确性
metrics/recall: 召回率,表示检测的完整性
metrics/mAP50: 在IoU=0.5时的平均精度
metrics/mAP50-95: 在IoU=0.5:0.95范围内的平均精度

4.3 模型评估指标

4.3.1 精确率曲线 (Precision Curve)

精确率(Precision)曲线展示了在不同置信度阈值下模型的精确率表现。精确率定义为:

Precision = TP / (TP + FP)

TP (True Positive): 正确检测到的目标数量
FP (False Positive): 错误检测的数量

曲线显示随着置信度阈值提高，精确率逐渐上升，说明模型在高置信度下的预测更加可靠。

4.3.2 召回率曲线 (Recall Curve)

召回率(Recall)曲线展示了模型检测到真实目标的能力。召回率定义为:

Recall = TP / (TP + FN)

FN (False Negative): 漏检的目标数量

曲线显示模型在不同置信度下的召回能力，帮助我们选择合适的阈值平衡精确率和召回率。

4.3.3 F1分数曲线 (F1 Score Curve)

F1分数是精确率和召回率的调和平均数:

F1 = 2 × (Precision × Recall) / (Precision + Recall)

F1曲线帮助我们找到精确率和召回率的最佳平衡点。曲线的峰值对应最优的置信度阈值。

4.3.4 PR曲线 (Precision-Recall Curve)

PR曲线展示了精确率和召回率之间的权衡关系。曲线下面积(AUC)越大，模型性能越好。图中显示:

mAP@0.5: 在IoU阈值为0.5时的平均精度
曲线越接近右上角，说明模型同时具有高精确率和高召回率

4.3.5 混淆矩阵 (Confusion Matrix)

混淆矩阵展示了模型预测结果的详细分布:

对角线元素: 正确分类的样本数量
非对角线元素: 错误分类的样本数量
背景(background): 表示背景区域的预测情况

混淆矩阵帮助我们分析模型在哪些类别上表现较好，哪些类别容易混淆。

4.4 验证集预测结果

上图展示了验证集中的真实标注(Ground Truth)，每个人体都被精确标注了边界框。

4.5 模型性能总结

根据训练和评估结果，本系统的YOLO模型达到了以下性能指标:

mAP@0.5: >0.90 (90%以上的平均精度)
检测速度: 实时检测(>30 FPS)
精确率: >0.85
召回率: >0.80

这些指标表明模型具有良好的检测性能，能够满足实际应用需求。

5. 数据库设计

5.1 数据库概述

本系统采用文件数据库的方式存储数据，使用JSON和Pickle格式，具有以下优点:

轻量级，无需安装数据库服务
易于部署和迁移
数据格式清晰，便于调试
适合中小规模应用

5.2 数据库文件结构

系统使用三个主要的数据文件:

文件名	格式	用途	大小
`face_database.pkl`	Pickle	存储人脸特征向量	动态增长
`person_info.json`	JSON	存储人员详细信息	动态增长
`attendance_log.json`	JSON	存储签到记录	动态增长

5.3 人脸特征数据库 (face_database.pkl)

5.3.1 数据结构

{"姓名1":numpy.ndarray([512维特征向量]),"姓名2":numpy.ndarray([512维特征向量]),...}

5.3.2 字段说明

字段名	类型	长度	非空	唯一	说明
姓名(key)	String	不限	✓	✓	人员唯一标识符
特征向量(value)	ndarray	512	✓	-	ArcFace提取的人脸特征

5.3.3 存储原理

使用Python的pickle模块序列化numpy数组
特征向量为float32类型，每个512维
采用字典结构，支持O(1)时间复杂度的查询

5.4 人员信息数据库 (person_info.json)

5.4.1 数据结构

{"zhangsan":{"name":"zhangsan","department":"人事","position":"python","phone":"16666666666","email":"","notes":"备注信息","register_time":"2026-02-12 12:27:54","last_checkin_time":"2026-02-12 12:36:21","total_checkins":1}}

5.4.2 字段详细说明

字段名	类型	长度	非空	唯一	默认值	说明
name	String	50	✓	✓	-	人员姓名，作为主键
department	String	100	✗	✗	“”	所属部门
position	String	100	✗	✗	“”	职位
phone	String	20	✗	✗	“”	联系电话
email	String	100	✗	✗	“”	电子邮箱
notes	String	500	✗	✗	“”	备注信息
register_time	DateTime	19	✓	✗	当前时间	注册时间 (YYYY-MM-DD HH:MM:SS)
last_checkin_time	DateTime	19	✗	✗	null	最后签到时间
total_checkins	Integer	-	✓	✗	0	累计签到次数

5.4.3 数据约束

主键: name字段作为唯一标识
外键关系: name字段与face_database.pkl中的key对应
数据完整性: name和register_time为必填字段
数据格式: 时间格式统一为 “YYYY-MM-DD HH:MM:SS”

5.5 签到记录数据库 (attendance_log.json)

5.5.1 数据结构

[{"timestamp":"2026-02-12 12:36:21","date":"2026-02-12","time":"12:36:21","names":["zhangsan","lisi"]}]

5.5.2 字段详细说明

字段名	类型	长度	非空	唯一	说明
timestamp	DateTime	19	✓	✗	完整的签到时间戳
date	Date	10	✓	✗	签到日期 (YYYY-MM-DD)
time	Time	8	✓	✗	签到时间 (HH:MM:SS)
names	Array[String]	不限	✓	✗	签到人员姓名列表

5.5.3 数据特点

数组结构: 使用JSON数组存储所有签到记录
时间索引: 按时间顺序追加记录
多人支持: names字段为数组，支持一次签到多人
外键关系: names中的每个元素对应person_info中的name

5.5.4 查询优化

# 按日期查询filtered_logs=[logforloginattendance_logiflog['date']=='2026-02-12']# 按人员查询person_logs=[logforloginattendance_logif'zhangsan'inlog['names']]# 日期范围查询range_logs=[logforloginattendance_logifstart_date<=log['date']<=end_date]

5.6 数据库操作接口

5.6.1 数据加载

defload_database(self):"""加载人脸特征数据库"""withopen(self.database_path,'rb')asf:returnpickle.load(f)defload_person_info(self):"""加载人员信息"""withopen(self.person_info_path,'r',encoding='utf-8')asf:returnjson.load(f)defload_attendance_log(self):"""加载签到记录"""withopen(self.attendance_log_path,'r',encoding='utf-8')asf:returnjson.load(f)

5.6.2 数据保存

defsave_database(self):"""保存人脸特征数据库"""withopen(self.database_path,'wb')asf:pickle.dump(self.face_database,f)defsave_person_info(self):"""保存人员信息"""withopen(self.person_info_path,'w',encoding='utf-8')asf:json.dump(self.person_info,f,ensure_ascii=False,indent=2)defsave_attendance_l