【无标题】学生用户画像—考勤主题扩建标签构建
一、实验说明
1.1实验目的
基于已完成的学生考勤主题标签表(student_attendance_stats),使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。
1.2实验环境
- 工具:数据集成平台(助睿ETL)、人工智能平台(AI Studio)、助睿BI可视化探索平台
- 数据库:MySQL(团队私有数据库)
- 前置数据:学生考勤主题标签表
sudent_attendance_stats
二、实验数据与建模思路
2.1数据构成
使用上一实验输出的student_attendance_stats表,包含学生基础信息与考勤次数统计结果,为聚类建模提供干净、标准化的特征数据。
2.2核心字段
字段名 | 说明 | 类型 |
student_id | 学生ID | 连续(整数) |
late_count | 迟到次数 | 连续(整数) |
early_leave_count | 早退次数 | 连续(整数) |
leave_count | 请假次数 | 连续(整数) |
uniform_violate_count | 没穿校服次数 | 连续(整数) |
2.3建模思路
聚焦迟到、早退、请假、校服违规四项核心指标,均为非负整数连续变量,无需哑变量编码;学生离散属性仅用于后续画像解读,不参与聚类,以保证模型稳定可解释。
三、实验步骤(聚类建模+可视化分析+标签回写)
3.1 AI Studio聚类建模
进入实验平台左侧菜单“人工智能” → AI Studio。
3.1.1新建工作流
点击“+” → “新建工作流”,命名为“学生考勤聚类分析”。
3.1.2数据导入
拖拽“数据库加载”组件,配置团队私有数据库连接,选择表student_attendance_stats。仅保留字段:student_id, class_id, late_count, early_leave_count, leave_count, uniform_violate_count,其余字段跳过(skip)。[reference:0]
3.1.3 K-Means聚类建模
拖拽“K-Means”组件并与数据库加载组件连接。设置簇数量= 3,其他默认。运行后每个学生获得簇标签C1/C2/C3。[reference:1]
3.1.4 结果输出与保存
拖拽“数据入库”组件,新建表student_cluster,将聚类结果写入数据库。[reference:2]
3.2 分析聚类簇编号对应的考勤群体分类(助睿BI可视化)
3.2.1连接数据源
点击“助睿BI”进入平台,在“数据源”中新建MySQL连接,输入团队私有数据库信息,测试连接成功。
3.2.2构建数据集
新建数据集“聚类簇编号数据集”,基于student_cluster表,将字段备注改为中文(学生ID、迟到次数、聚类簇编号等)。[reference:4]
3.2.3 制作工作表(6组散点图)
共制作6张工作表,以“迟到vs早退”为例:X轴late_count,Y轴early_leave_count,颜色依据Cluster分组,信息点显示student_id。
3.2.4搭建仪表盘
新建仪表盘“聚类簇分析”,添加文本标题,并将6张工作表拖入画布,调整布局后保存发布。[reference:6]
3.2.5 聚类群体画像解读
基于散点图分布特征,得出业务含义:[reference:7]
簇编号 | 颜色 | 群体分类 | 核心特征 |
C1 | 蓝色 | 自律模范型 | 全维度异常次数极低,出勤稳定,纪律意识强 |
C2 | 青色 | 轻微波动型 | 偶发校服违规或请假,整体纪律可控 |
C3 | 黄色 | 纪律高危型 | 高频违纪行为叠加,存在极端离群记录 |
3.3将映射结果加入学生考勤主题标签表
3.3.1新增扩展字段
在ETL项目中新建转换流“增加考勤主题扩展标签字段”,执行SQL添加cluster和attendance_group字段。[reference:8]
3.3.2聚类簇编号数据获取
新建转换流“增加考勤群体分类标签”,用表输入读取student_cluster表(student_id, Cluster)。[reference:9]
3.3.3字段选择
使用字段选择组件仅保留student_id和Cluster,并将student_id类型转为Integer。[reference:10]
3.3.4聚类簇编号映射(值映射)
添加值映射组件:源字段Cluster →目标字段attendance_group,映射:C1→轻微波动型, C2→自律模范型, C3→纪律高危型。[reference:11]
3.3.5更新学生考勤主题标签表
使用更新组件,目标表student_attendance_stats,查询关键字student_id,更新字段Cluster→cluster, attendance_group→attendance_group。[reference:12]
3.3.6运行转换流
3.3.7查看结果
在元数据中预览student_attendance_stats表,确认cluster和attendance_group字段已填充。[reference:13]
四、纪律高危型学生专题画像分析(可视化深入探索)
4.1实验目的
基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦“纪律高危型”群体,分析其行为特征。相比其他群体,该群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,为精准干预和重点整治提供数据支撑,助力校园精细化管理。[reference:14]
4.2数据准备与数据集构建
基于student_attendance_stats表构建数据集“学生考勤主题数据集”(字段备注已在建表时配置,无需修改)。[reference:15]
4.3制作专题分析工作表
4.3.1整体概况指标卡
分别制作“纪律高危型总人数”“纪律高危型男生人数”“纪律高危型女生人数”“高危型未知性别人数”指标卡。[reference:16]从整体指标卡可以看到,纪律高危型学生总人数为421人,其中男生45人、女生38人、未知性别338人。高危群体整体规模清晰,其中男生人数多于女生,说明高危群体存在明显的性别分布特点,需要从性别角度进一步深入分析。[reference:17]
4.3.2 纪律高危型学生性别特征分析
制作饼图“纪律高危型学生男女人数占比”(过滤性别未知数据),并制作“全校学生男女人数占比”作为对比。[reference:18]
分析发现:全校性别分布中男生占比53.03%,女生占比46.97%;而在纪律高危型群体中,男生占比进一步上升至54.22%,女生占比则下降至45.78%。这表明纪律高危型学生中男生占比偏高,并非由全校性别基数差异导致,而是男生在考勤违纪行为上的真实风险更高。[reference:19]
4.3.3纪律高危型学生年级特征分析
制作柱状图“纪律高危型学生年级特征分析”。[reference:20]从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关。[reference:21]
4.3.4 校区类型+年级交叉特征分析
制作堆叠柱状图“纪律高危型学生校区类型与年级交叉特征分析”,并制作“不同校区类型各年级学生人数”作为基数对比。[reference:22]
分析发现:老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一80人、高二130人、高三261人,高三年级高危人数达到峰值。新校区的高危学生整体规模较小,仅高一10人、高二19人有少量分布,高三年级无高危学生记录。综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区。[reference:23]
4.3.5纪律高危型学生班级特征分析
制作水平条图“纪律高危型学生班级特征分析”。[reference:24]从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三09班高危人数最多(38人),其次为高三08班、高三02班等,多数班级高危人数极少,呈现明显的班级聚集性。高危行为与班级管理强度、班风氛围、同伴影响密切相关,少数薄弱班级需要重点整治。[reference:25]
4.4 搭建综合仪表盘
新建仪表盘“纪律高危型学生用户画像分析”,添加文本标题,并将以上制作的工作表全部拖拽至画布中,调整布局,添加分析结论文本组件,形成完整分析仪表盘。[reference:26]
五、实验总结与分析结论
整体概况
纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。该群体人数占比虽可控,但行为影响大,易引发不良风气,需专项治理。[reference:27]
📌核心特征
- 性别特征:男生为高危群体主体,占比显著高于女生,是高危行为的主要发生对象,与男生规则意识薄弱、时间观念不足相关。[reference:28]
- 年级特征:高度集中于高年级,随年级升高高危学生占比明显上升,高年级学生学业压力大、自主空间广,对考勤纪律重视度下降。[reference:29]
- 校区特征:高危学生高度集中在老校区,新校区风险较低,与校区通勤条件、管理模式、学风氛围密切相关。[reference:30]
- 班级特征:存在明显班级聚集性,集中在少数管理薄弱、班风涣散的班级,与班级管理强度、同伴效应直接相关。[reference:31]
💡管理建议
- 重点关注高年级男生群体:针对性开展考勤纪律教育与时间管理培训,强化规则意识,减少违纪行为发生。[reference:32]
- 加强老校区高年级管理:针对老校区优化通勤管理、强化考勤监督,营造严谨学风氛围,降低学生违纪风险。[reference:33]
- 整治高危学生集中班级:加强班主任监管力度,整顿班风,建立班级考勤责任制,阻断不良风气传染。[reference:34]
- 建立高危学生台账:一对一建档,家校联动,制定个性化矫正方案,跟踪干预效果,防止违纪行为固化。[reference:35]
本次实验基于学生考勤次数数据,通过K-Means聚类算法完成学生考勤群体自动划分,利用次数特征建模保证了聚类结果的稳定性与可解释性。借助助睿BI平台实现可视化分析,为机器生成的聚类簇赋予明确的业务含义,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。[reference:36]
实验人:助睿实验平台|报告日期:2026年5月24日
实验环境:Uniplore Data Science Platform (AI Studio + ETL +助睿BI)
