当前位置: 首页 > news >正文

【无标题】学生用户画像—考勤主题扩建标签构建

一、实验说明

1.1实验目的

基于已完成的学生考勤主题标签表(student_attendance_stats),使用K-Means聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。

1.2实验环境

  • 工具:数据集成平台(助睿ETL)、人工智能平台(AI Studio)、助睿BI可视化探索平台
  • 数据库MySQL(团队私有数据库)
  • 前置数据:学生考勤主题标签表sudent_attendance_stats

二、实验数据与建模思路

2.1数据构成

使用上一实验输出的student_attendance_stats表,包含学生基础信息与考勤次数统计结果,为聚类建模提供干净、标准化的特征数据。

2.2核心字段

字段名

说明

类型

student_id

学生ID

连续(整数)

late_count

迟到次数

连续(整数)

early_leave_count

早退次数

连续(整数)

leave_count

请假次数

连续(整数)

uniform_violate_count

没穿校服次数

连续(整数)

2.3建模思路

聚焦迟到、早退、请假、校服违规四项核心指标,均为非负整数连续变量,无需哑变量编码;学生离散属性仅用于后续画像解读,不参与聚类,以保证模型稳定可解释。

三、实验步骤(聚类建模+可视化分析+标签回写)

3.1 AI Studio聚类建模

进入实验平台左侧菜单人工智能” → AI Studio

3.1.1新建工作流

点击“+” → “新建工作流,命名为学生考勤聚类分析

3.1.2数据导入

拖拽数据库加载组件,配置团队私有数据库连接,选择表student_attendance_stats。仅保留字段:student_id, class_id, late_count, early_leave_count, leave_count, uniform_violate_count,其余字段跳过(skip)[reference:0]

3.1.3 K-Means聚类建模

拖拽“K-Means”组件并与数据库加载组件连接。设置簇数量= 3,其他默认。运行后每个学生获得簇标签C1/C2/C3[reference:1]

3.1.4 结果输出与保存

拖拽数据入库组件,新建表student_cluster,将聚类结果写入数据库。[reference:2]

3.2 分析聚类簇编号对应的考勤群体分类(助睿BI可视化)

3.2.1连接数据源

点击助睿BI”进入平台,在数据源中新建MySQL连接,输入团队私有数据库信息,测试连接成功。

3.2.2构建数据集

新建数据集聚类簇编号数据集,基于student_cluster表,将字段备注改为中文(学生ID、迟到次数、聚类簇编号等)。[reference:4]

3.2.3 制作工作表(6组散点图)

共制作6张工作表,以迟到vs早退为例:Xlate_countYearly_leave_count,颜色依据Cluster分组,信息点显示student_id

3.2.4搭建仪表盘

新建仪表盘聚类簇分析,添加文本标题,并将6张工作表拖入画布,调整布局后保存发布。[reference:6]

3.2.5 聚类群体画像解读

基于散点图分布特征,得出业务含义:[reference:7]

簇编号

颜色

群体分类

核心特征

C1

蓝色

自律模范型

全维度异常次数极低,出勤稳定,纪律意识强

C2

青色

轻微波动型

偶发校服违规或请假,整体纪律可控

C3

黄色

纪律高危型

高频违纪行为叠加,存在极端离群记录

3.3将映射结果加入学生考勤主题标签表

3.3.1新增扩展字段

ETL项目中新建转换流增加考勤主题扩展标签字段,执行SQL添加clusterattendance_group字段。[reference:8]

3.3.2聚类簇编号数据获取

新建转换流增加考勤群体分类标签,用表输入读取student_cluster表(student_id, Cluster)。[reference:9]

3.3.3字段选择

使用字段选择组件仅保留student_idCluster,并将student_id类型转为Integer[reference:10]

3.3.4聚类簇编号映射(值映射)

添加值映射组件:源字段Cluster →目标字段attendance_group,映射:C1→轻微波动型, C2→自律模范型, C3→纪律高危型。[reference:11]

3.3.5更新学生考勤主题标签表

使用更新组件,目标表student_attendance_stats,查询关键字student_id,更新字段Cluster→cluster, attendance_group→attendance_group[reference:12]

3.3.6运行转换流

3.3.7查看结果

在元数据中预览student_attendance_stats表,确认clusterattendance_group字段已填充。[reference:13]

四、纪律高危型学生专题画像分析(可视化深入探索)

4.1实验目的

基于已完成K-Means聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦纪律高危型群体,分析其行为特征。相比其他群体,该群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,为精准干预和重点整治提供数据支撑,助力校园精细化管理。[reference:14]

4.2数据准备与数据集构建

基于student_attendance_stats表构建数据集学生考勤主题数据集(字段备注已在建表时配置,无需修改)。[reference:15]

4.3制作专题分析工作表

4.3.1整体概况指标卡

分别制作纪律高危型总人数”“纪律高危型男生人数”“纪律高危型女生人数”“高危型未知性别人数指标卡。[reference:16]从整体指标卡可以看到,纪律高危型学生总人数为421人,其中男生45人、女生38人、未知性别338人。高危群体整体规模清晰,其中男生人数多于女生,说明高危群体存在明显的性别分布特点,需要从性别角度进一步深入分析。[reference:17]

4.3.2 纪律高危型学生性别特征分析

制作饼图纪律高危型学生男女人数占比(过滤性别未知数据),并制作全校学生男女人数占比作为对比。[reference:18]

分析发现:全校性别分布中男生占比53.03%,女生占比46.97%;而在纪律高危型群体中,男生占比进一步上升至54.22%,女生占比则下降至45.78%。这表明纪律高危型学生中男生占比偏高,并非由全校性别基数差异导致,而是男生在考勤违纪行为上的真实风险更高。[reference:19]

4.3.3纪律高危型学生年级特征分析

制作柱状图纪律高危型学生年级特征分析[reference:20]从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关。[reference:21]

4.3.4 校区类型+年级交叉特征分析

制作堆叠柱状图纪律高危型学生校区类型与年级交叉特征分析,并制作不同校区类型各年级学生人数作为基数对比。[reference:22]

分析发现:老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一80人、高二130人、高三261人,高三年级高危人数达到峰值。新校区的高危学生整体规模较小,仅高一10人、高二19人有少量分布,高三年级无高危学生记录。综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区。[reference:23]

4.3.5纪律高危型学生班级特征分析

制作水平条图纪律高危型学生班级特征分析[reference:24]从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三09班高危人数最多(38人),其次为高三08班、高三02班等,多数班级高危人数极少,呈现明显的班级聚集性。高危行为与班级管理强度、班风氛围、同伴影响密切相关,少数薄弱班级需要重点整治。[reference:25]

4.4 搭建综合仪表盘

新建仪表盘纪律高危型学生用户画像分析,添加文本标题,并将以上制作的工作表全部拖拽至画布中,调整布局,添加分析结论文本组件,形成完整分析仪表盘。[reference:26]

五、实验总结与分析结论

整体概况

纪律高危型学生存在高频迟到、早退、请假及校服违规行为,多维度违纪叠加,是校园考勤管理中最需重点关注的群体。该群体人数占比虽可控,但行为影响大,易引发不良风气,需专项治理。[reference:27]

📌核心特征

  • 性别特征:男生为高危群体主体,占比显著高于女生,是高危行为的主要发生对象,与男生规则意识薄弱、时间观念不足相关。[reference:28]
  • 年级特征:高度集中于高年级,随年级升高高危学生占比明显上升,高年级学生学业压力大、自主空间广,对考勤纪律重视度下降。[reference:29]
  • 校区特征:高危学生高度集中在老校区,新校区风险较低,与校区通勤条件、管理模式、学风氛围密切相关。[reference:30]
  • 班级特征:存在明显班级聚集性,集中在少数管理薄弱、班风涣散的班级,与班级管理强度、同伴效应直接相关。[reference:31]

💡管理建议

  • 重点关注高年级男生群体:针对性开展考勤纪律教育与时间管理培训,强化规则意识,减少违纪行为发生。[reference:32]
  • 加强老校区高年级管理:针对老校区优化通勤管理、强化考勤监督,营造严谨学风氛围,降低学生违纪风险。[reference:33]
  • 整治高危学生集中班级:加强班主任监管力度,整顿班风,建立班级考勤责任制,阻断不良风气传染。[reference:34]
  • 建立高危学生台账:一对一建档,家校联动,制定个性化矫正方案,跟踪干预效果,防止违纪行为固化。[reference:35]

本次实验基于学生考勤次数数据,通过K-Means聚类算法完成学生考勤群体自动划分,利用次数特征建模保证了聚类结果的稳定性与可解释性。借助助睿BI平台实现可视化分析,为机器生成的聚类簇赋予明确的业务含义,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。[reference:36]

实验人:助睿实验平台|报告日期:2026524
实验环境:Uniplore Data Science Platform (AI Studio + ETL +助睿BI)

http://www.jsqmd.com/news/880561/

相关文章:

  • 2026年5月江苏物业选型指南:聚焦诚信服务商的核心价值与选择逻辑 - 2026年企业推荐榜
  • 不用开WPS会员了!这一款电子发票批量打印工具:支持排版 + OCR识别,完全免费!
  • 离线语音识别与物联网在智能家居中的应用与优化
  • 深度强化学习与控制 课程 第二周 课程总结
  • Go语言内存泄漏:pprof与监控
  • 苍穹外卖day4
  • 3D光学流技术在机器人动作生成中的应用与优化
  • 深度学习落地经验:从情感分析业务中学到的5个关键教训
  • SVN SSL证书验证失败的根源与四关卡排障法
  • 事业单位教育类考试人名考点速记笔记
  • 从集合运算到代码:一文搞懂Jaccard系数,附Python/NumPy/Pandas三种实现方法对比
  • Java基础总结(快速入门版)
  • 从黑猩猩内战到人类关系:互动是系统的命脉,遗忘是文明的暗礁
  • 8051 XDATA分页配置与内存管理实战
  • Nsight System和Compute命令行
  • 小学期第二周学习笔记
  • BP算法(反向传播)初步学习
  • SLAM技术路线已收敛?多模态融合如何重启路线之争
  • 安全合规:满足行业安全标准和法规要求
  • 从冶金实验到数据科学:如何用图像特征量化‘看不见’的熔融结晶过程?
  • 【AI问答/前端】现代前端的满天过海局(二)
  • 机器学习与相图计算协同设计增材制造铝合金:从原理到应用
  • 零基础实战逻辑漏洞挖掘:从注册到注销的6大高频场景
  • JAVA---面向对象的三大特性
  • 从‘看山是山’到‘看山不是山’:手把手教你用Landsat8波段组合玩转地物‘透视’
  • 瑞德克斯在手机端的表现稳不稳?是否适合随时查看行情?
  • 芯片合封是个嘛?
  • 面试被问到“你们项目Redis怎么用的?“——我把这套AOP缓存框架甩给他,面试官直接沉默了
  • 【AI问答/前端】前端瞒天过海局(三)
  • 多无人机协同通信-计算