助睿实验作业3-学生用户画像-考勤主题扩展标签构建、可视化
一、实验背景:
1.1 实验目的
考勤主题扩展标签构建:基于已完成的学生考勤主题标签表(student_attendance_stats),使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。
考勤画像可视化分析:基于已完成 K-Means 聚类并标注考勤群体的学生考勤主题标签表,本实验聚焦“纪律高危型”群体,分析其行为特征。相比其他群体,该群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,可为精准干预和重点整治提供数据支撑,助力校园精细化管理。
1.2 实验环境
工具:助睿数智(Uniplore)在线实验平台:https://lab.guilan.cn/, 助睿数智(Uniplore)是AI驱动的一站式数据科学平台,覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能,产品官网为 https://www.uniplore.com/,本次实验主要用到以下功能平台:
数据集成平台(助睿 ETL)
人工智能平台(助睿 AI)
助睿BI 数据可视化探索平台
数据库:MySQL
前置数据:学生考勤主题标签表(student_attendance_stats)
1.3 整体逻辑
考勤主题扩展标签构建:AI Studio 聚类建模→分析聚类簇编号对应的考勤群体分类→将映射结果加入学生考勤主题标签表
考勤画像可视化分析:BI 平台准备与数据接入→制作工作表,按维度拆解高危学生特征→搭建综合仪表盘→画像分析总结
二、实验步骤
1 考勤主题扩展标签构建:
1.1 AI Studio 聚类建模
1.1.1 新建工作流
点击左边菜单“人工智能”,进入人工智能平台(AI Studio),点击”+“,再点击“新建转换流”
在该模块页面中,主要包括三个模块,分别是菜单栏,控件列表以及画布(用于工作流构建)。如下图所示:
1.1.2 数据导入
首先,要将 student_attendance_stats 的数据载入,搜索“数据库加载”控件,拖拽至画布
双击“数据库加载”控件,右边会出现参数配置窗口,将团队私有数据库的信息填入,并点击“连接”
在弹出的窗口中,点击下拉框,选择 student_attendance_stats
选择后会自动加载表信息,我们主要是分析各类异常考勤占比的特征,所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip);为保留的字段选择对应的属性类型,最后点击“确定”
字段对应的属性类型参考如下:
属性名称 属性类型
id skip
student_id categorical
student_name skip
class_id categorical
class_name skip
grade skip
gender skip
birth_date skip
political_status skip
is_boarder skip
campus_type skip
late_count numeric
early_leave_count numeric
leave_count numeric
uniform_violate_count numeric
create_time skip
右键数据库加载空间,点击“运行该控件”
运行成功后可右键点击“查看输出结果”
可以看到保留下来的数据
1.1.3 K-Means 聚类建模
拖入“K-Means”组件,创建数据库加载组件到“K-Means”组件的连线
双击“K-Means”组件,配置窗口中,簇数量选择固定3个,其他保持不变
右键运行该控件,查看输出结果,可以看到每个学生分别标记了对应的簇类C1/C2/C3
1.1.4 结果输出与保存
聚类后的数据我们需要保存到数据库中,以便后续使用
拖拽“数据入库”组件到画布,创建“K-Means”组件到“数据入库”组件的连线
双击“数据入库”组件,数据库配置中输入团队私有数据库的参数,并点击“获取表信息”
在弹出的窗口中,选择“新建数据表”,表名称修改为“student_cluster”,并点击“确定”
运行工作流,各控件均运行成功则工作流运行成功
1.2 分析聚类簇编号对应的考勤群体分类
上一步骤输出的聚类簇编号无法确定对应的考勤群体分类,可要通过助睿BI 可视化分析来确定
点击实验平台左边菜单“助睿BI”,进入助睿BI平台
进入助睿BI 平台的首页,可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些
(如果是进入的页面是登录页面,可以关闭后,重新从实验平台进入)
1.2.1 连接数据源
上一步骤输出的 student_cluster 存放于我们的团队私有数据库中,所以我们需要在助睿BI 平台中创建数据库连接
点击左边菜单中的“数据源”
点击左上角“+” - “新建连接” - “MySQL”
在弹出的窗口中输入自己所在小组在 Uniplore实验平台 的数据库连接账号信息,点击“测试连接”
出现“测试连接成功”表示我们的连接正确,点击“确认”
点击新建的数据库目录,可以看到本次实验所用的学生考勤主题标签表(右键点击-查看表数据,可以预览表内数据)
1.2.2 构建数据集
数据源连接成功后,我们要将需要分析的数据表构建为数据集
点击左边菜单中的“数据集”
点击左上角“+” - “新建数据集”
在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”
数据集创建成功后,会自动跳到该数据集的配置页面,第一步需要先选择数据源,助睿BI平台为防止这个步骤遗漏,做了强提醒,点击“好的,我知道了”可关闭提醒
数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_cluster 所在的目录“se_group_8”
数据源选择完成后,目录下的数据表自动出现在画布左边,将student_cluster 拖拽至画布中
查看数据的表结构及数据,为方便进行后续分析,将字段备注分别修改为中文,在student_id的字段备注输入框中输入“学生ID”,并点击“√”保存
其他字段的字段备注按照同样操作进行修改,字段别名参考如下:
| 原字段名 | 字段备注 |
|---|---|
| student_id | 学生ID |
| class_id | 班级ID |
| late_count | 迟到次数 |
| early_leave_count | 早退次数 |
| leave_count | 请假次数 |
| uniform_violate_count | 没穿校服次数 |
| Cluster | 聚类簇编号 |
| Silhouette | 轮廓系数 |
字段别名修改完成后,点击画布左上角“保存”按钮
在保存提示中点击“保存并发布”,只有发布后的数据集才能在工作表中引用
1.2.3 制作工作表
工作表是助睿BI 平台中用于承载可视化图表、完成数据探索与分析的核心单元,是实现数据可视化展示的基础载体。
接下来我们开始制作聚类簇编号对应的考勤群体分类工作表
点击左边菜单中的“工作表”,进入工作表模块
为了方便管理,我们将本次制作的工作表集中存放在一个目录下,点击左上角的“+” - “新建分组”
在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”
右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”
在操作列表中点击“新建工作表”
在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”
自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒
数据集选择刚刚创建的“聚类簇编号数据集”
图表类型选择“探索器”
将字段“late_count(迟到次数)”拖拽到X轴,“early_leave_count(早退次数)”拖拽到Y轴
点击图形设置按钮,打开设置面板
在设置面板中,点击颜色区域的“+”,在下拉框中选择“Cluster(聚类簇编号)”,并点击“确认”
点击信息区域的“+”,在下拉框中选择“student_id(学生ID)”,并点击“确认”
将“student_id(学生ID)”设置为“维度”
系统默认限额为2000条数据,因此,需要将限额设置为100%,避免数据过多不显示全部
为了区分更明显,我们可以设置聚类簇编号的颜色,点击颜色区域的设置按钮,切换对比强烈的主题
颜色设置后需要点击一下颜色区域外的地方才会生效
点击保存按钮,保存并发布工作表
同样的,重新新建工作表,依次两两分析4个异常考勤次数的3个聚类簇的表现情况
迟到与请假次数的聚类簇分析:
迟到与没穿校服次数的聚类簇分析
早退与请假次数的聚类簇分析:
早退与没穿校服次数的聚类簇分析:
请假与没穿校服次数的聚类簇分析:
1.2.4 搭建仪表盘
为了更好地观察分析以上制作的6个工作表,我们可以将它们放在一起
点击左边菜单“仪表盘”
点击左上角“+” - “新建仪表盘”
仪表盘名字输入“聚类簇分析”,备注信息输入“聚类簇分析”,点击“确认”
在右边组件与工作表区域,点击“基础组件”
拖拽一个文本组件到画布中
文本内容输入“聚类簇分析”,并设置字体颜色、字体大小、加粗、居中
鼠标移至文本组件上,组件右下角可以拖动跳转组件大小
参考下图调整
为了防止后续位置改变,可以点击右上角图钉图表,固定位置
点击工作表组件显示按钮
切换到“工作表”,将1.2.3节中制作的工作表都拖拽至画布中
拖入完毕后,可以按住图标顶部中间位置拖动图标,并使用鼠标对图表大小和布局进行调整
预期效果如下:
点击保存按钮,保存并发布仪表盘
1.2.5 聚类群体画像解读
结合 6 组两两指标散点图的分布特征,我们可以为 C1、C2、C3 三类聚类簇赋予清晰的业务含义,完成从机器编号到可解释学生画像的转化:
- C1(蓝色,自律模范型):在迟到、早退、请假、校服违规次数的所有组合中,数据点高度集中在低频次区间,无明显离群值。这类学生出勤稳定、纪律意识强,各类异常行为极少,是校园考勤行为的正面典型。
- C2(青色,轻微波动型):整体数据点同样集中在低频次区间,但相比 C1 分布略散,少量记录存在轻微的校服违规或请假行为,迟到、早退次数始终保持低位。这类学生整体纪律可控,仅存在偶发的轻微考勤波动,属于需要日常提醒的群体。
- C3(黄色,纪律高危型):数据点呈现明显的 “离群特征”,在迟到次数与其他指标的组合图中,出现了大量高频迟到记录,且伴随有不同程度的早退、请假或校服违规行为,是唯一存在多维度叠加违纪的群体。这类学生考勤问题突出,是校园管理中需要重点关注和干预的核心对象。
最终群体分类映射总结表:
|聚类簇编号|颜色|群体分类名称|核心特征|
| — | — | — | — |
|C1|蓝色|自律模范型|全维度异常次数均极低,出勤表现稳定,纪律意识强|
|C2|青色|轻微波动型|迟到早退次数低,偶发校服违规或请假,整体纪律可控|
|C3|黄色|纪律高危型|全维度异常次数均偏高,高频违纪行为叠加,存在极端离群记录|
1.3 将映射结果加入学生考勤主题标签表
我们需要将最终群体分类数据增加到上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中
1.3.1 新增扩展字段
上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段,需要增加
首先我们需要在 student_attendance_stats 中增加2个字段:
- cluster:聚类簇编号
- attendance_group:考勤群体分类
进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”,拖拽“执行一个SQL脚本”组件到画布中
双击“执行一个SQL脚本”组件,在配置窗口中,数据库连接“团队私有数据库”,输入SQL脚本后点击:“确认”
SQL如下:
-- 为学生考勤统计表添加聚类结果字段ALTERTABLEstudent_attendance_statsADDCOLUMNclusterVARCHAR(10)NULLDEFAULTNULLCOMMENT'聚类簇编号',ADDCOLUMNattendance_groupVARCHAR(30)NULLDEFAULTNULLCOMMENT'考勤群体分类';
执行转换流
1.3.2 聚类簇编号数据获取
接下来,我们需要使用 1.1这步骤中 AI Studio 输出的结果表 student_cluster ,xxx
打开上一个实验创建的项目,创建转换流“增加考勤群体分类标签”
拖拽“表输入”组件到画布中
双击“表输入”组件,从团队私有数据库中获取 1.1步骤中的分类结果表 student_cluster 的所有SQL 查询语句
1.3.3 字段选择
获取的数据中,我们只需保留 student_id、Cluster 字段,拖拽“字段选择”组件到画布中,并创建“表输入”组件到“字段选择”组件的连线
双击“字段选择”组件,点击“移除”选项,并在字段名称下方空白区域右键-点击“获取字段”
选中student_id、Cluster 字段后右键“删除选中的行”
为了保持和 student_attendance_stats 表中字段类型一致,不影响后续数据更新到 student_attendance_stats,需要将 student_id、class_id 的类型修改为Integer,点击元数据选项,插入2行, student_id、class_id 的配置如下:
最后点击“确认”
1.3.4 聚类簇编号映射
原始聚类簇编号以编号形式存储,可读性差,通过映射转换增加中文说明
添加“值映射”组件到画布中,并字段选择组件到值映射组件的连线,并选择“主输出步骤”
双击“值映射”组件,使用的字段名为“Cluster ”, 目标字段名为“attendance_group”
在下方字段值表格空白处右键,点击“插入”
双击插入的行,在源值中输入“C1”,目标值输入“轻微波动型”,代表将原数据中的“C1”统一映射为“轻微波动型”
同样的,再插入2行,设置:
源值:“C2”,目标值:“自律模范型”
源值:“C3”,目标值:“纪律高危型”
并点击“确认”
1.3.5 更新学生考勤主题标签
拖拽“更新”组件到画布中,并创建值映射组件到更新组件的连线
双击“更新”组件,在配置窗口中,数据库连接选择团队私有数据,目标模式为se_group_8
点击目标表后的“浏览”按钮,选择 student_attendance_stats,并点击“确定”
用来查询的关键字表格空白处获取字段,保留 student_id、class_id,表示更新时查询到数据表与流里的字段1相同时,执行更新操作
更新字段表格空白处获取字段,删除 student_id,这里需要注意,我们在增加扩展字段时,聚类簇编号的字段为cluster,所以在表字段的 Cluster 字段中需要双击后点击下拉框选择正确的表字段
最后的配置如下,表示当数据表的student_id与流里的student_id相同时,将流字段Cluster、attendance_group的值更新到表字段cluster、attendance_group中
1.3.6 运行转换流
点击运行按钮
执行结果和日志:
1.3.7 查看结果
切换“元数据”选项,右键“团队私有数据库”,点击“加载元数据”
加载成功后点击“数据探查”
在团队私有数据库中点击 student_attendance_stats ,在点击“查询”,可以看到 cluster、attendance_group的数据已经更新成功了
2 考勤画像可视化分析:
2.1 进入助睿BI
进入实验平台后,点击左边菜单的“助睿BI”,进入助睿BI可视化探索平台
进入助睿BI 平台的首页,可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些
2.2 连接数据源
student_attendance_stats 存放于我们的团队私有数据库中,而上一个实验在“分析聚类簇编号对应的考勤群体分类”时已经创建了团队私有数据库的连接,因此,我们可以直接使用这个数据源,无需再连接数据源。
2.3 构建数据集
接下来,我们使用 student_attendance_stats 构建数据集,用于后续分析
点击左边菜单中的“数据集”
点击左上角“+” - “新建数据集”
在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”
数据集创建成功后,会自动跳到该数据集的配置页面,第一步需要先选择数据源,助睿BI 平台为防止这个步骤遗漏,做了强提醒,点击“好的,我知道了”可关闭提醒
数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_attendance_stats 所在的目录“se_group_8”
数据源选择完成后,labs目录下的数据表自动出现在画布左边,将student_attendance_stats拖拽至画布中
查看数据的表结构及数据,由于我们之前实验中的建表语句中已经包含了字段的中文备注,因此,这里我们不需要设置字段备注,直接点击画布左上角“保存”按钮
在保存提示中点击“保存并发布”,只有发布后的数据集才能在工作表中引用
2.4 制作工作表
工作表是承载可视化图表、开展数据分析的基础单元
点击左边菜单中的“工作表”,进入工作表模块
为方便管理,相同主题分析的工作表最好都放置在一个目录下,点击左上角的“+” - “新建分组”
在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”
2.4.1 整体概况指标卡
指标卡是助睿BI 平台中用于直观展示核心统计数值的基础组件,能够快速呈现关键指标,便于整体把控高危群体概况。
2.4.1.1 纪律高危型总人数
右键或者点击学生考勤主题分析分组的“…”
在操作列表中点击“新建工作表”
在弹窗中输入工作表名称为“纪律高危型人数”、选择所属分组、填写备注信息后点击“确认”
自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒
在数据集下拉框中选择广告构建的数据集“学生考勤主题数据集”
纪录高危型人数=纪律高危型中的所有学生ID去重计数
在左边基础图表中点击“指标卡”
将字段“student_id(学生ID)”拖拽到值
点开字段“student_id”的聚合类型,点击“去重计数”
点击图形设置图标打开设置面板
点击过滤器中的“+”,在下拉框中选择“attendance_group(考勤群体分类)”,并点击“确认”
点击过滤器中“attendance_group”后的“···” - “编辑”
在过滤器配置中点击“包含以下选项”,并勾选“纪律高危型”,在点击“确认”
指标卡即显示纪律高危型人数
接下来,我们可以点击“样式设置”,对指标卡样式进行调整
点开基础设置,将4个边距都改为最大值16
点开标题设置,将标题字体大小改色16,字体颜色改为红色,显示位置改为顶部居中
点开值设置,将字体大小改为30,字体颜色改为红色,粗体开关保持打开,显示位置保持水平居中
点击“保存”按钮
在保存提示中点击“保存并发布”
点击“显示分组”按钮,即可看到学生总人数指标卡已经发布成功
2.4.1.2 纪律高危型男生人数
参考“2.4.1.1 纪律高危型总人数”步骤,重新新建工作表“纪律高危型男生人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“男”
再调整一下样式即可
2.4.1.3 纪律高危型女生人数
参考“2.4.1.1 纪律高危型人数”步骤,重新新建工作表“纪律高危型女生人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“女”
再调整一下样式即可
2.4.1.4 纪律高危型未知性别人数
参考“2.4.1.1 纪律高危型人数”步骤,重新新建工作表“高危型未知性别人数”,完成指标卡的制作,只需要多一步操作:在筛选器中添加“gender(性别)”字段,并设置为包含“未知”
再调整一下样式即可
2.4.1.5 整体指标分析
从整体指标卡可以清晰看到,纪律高危型学生总人数为 195人,其中男生 13 人、女生 11 人、未知性别 171 人。高危群体整体规模清晰,其中男生人数多于女生,说明高危群体存在明显的性别分布特点,需要从性别角度进一步深入分析。
2.4.2 纪律高危型学生性别特征分析
在该环节,我们制作纪律高危型学生性别占比饼图,同时结合全校性别基数数据,分析高危群体的性别倾向
2.4.2.1 纪律高危型学生男女人数占比
新建工作表“纪律高危型学生男女人数占比”
数据集选择“学生考勤主题数据集”,图表类型选择“饼图”
将字段“student_id”拖拽到值,“gender”拖拽到分类,并将“student_id”的聚合方式设置为“去重计数”
可以看到存在性别“未知”数据,需要将“未知”数据过滤掉,点击图像设置,并点击过滤器中的“+”,在下拉列表中选择“gender”,最后点击“确认”
点击过滤器中的“gender”后的“···”,并点击“编辑”
在过滤器设置中点击“排除以下选项”,勾选“未知”,点击“确认”
并点击过滤器中的“+”,在下拉列表中选择“attendance_group”,最后点击“确认”
点击过滤器中的“attendance_group”后的“···”,并点击“编辑”
在过滤器设置中点击“包含以下选项”,勾选“纪律高危型”,点击“确认”
系统默认的饼图没有百分比标签数据,我们可以点击“样式设置” - “图表元素设置” - “标签显示形式” - “勾选百分比”
其他样式可根据自身需求设置,例如图表元素设置中的内环大小设置为“50%”,扇形设置中的扇形圆角半径设置为“10”
还可以修改主题色
样式调整完毕后,点击“保存”按钮,“保存并发布”工作表
2.4.2.2 全校学生男女人数占比
为了排除性别基数差异带来的误判,我们需要分析全校学生男女人数占比
新建工作表“全校学生男女人数占比”
参考“2.4.2.1 纪律高危型学生男女人数占比”步骤,完成饼图制作,过滤器中只需要过滤掉性别“未知”的数据,考勤群体分类“attendance_group”无需做过滤
2.4.2.3 性别特征分析
排除性别未知数据的情况下:
- 从全校性别分布来看,男生本身基数略高于女生,占比为 53.03%,女生占比为 46.97%
- 在纪律高危型学生群体中,男生占比进一步上升至 54.17%,女生占比则下降至 45.83%
- 对比两组数据可以发现,男生在高危群体中的占比(54.17%),略高于其在全校的基数占比(53.03%);而女生在高危群体中的占比(45.83%),则低于其在全校的基数占比(46.97%)
- 这一结果表明,纪律高危型学生中男生占比偏高,并非由全校性别基数差异导致,而是男生在考勤违纪行为上的真实风险更高。男生规则意识、时间观念相对薄弱,更易出现高频违纪行为,因此是高危群体的主要构成对象,后续管理需针对性加强男生考勤纪律引导
2.4.3 纪律高危型学生年级特征分析
在该环节,我们制作纪律高危型学生年级分布堆叠条形图,观察不同年级高危学生的情况
新建工作表“纪律高危型学生年级特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”
将字段“grade”拖拽到X轴,“student_id”拖拽到Y轴,并将“student_id”的聚合方式设置为“去重计数”
点击图像设置按钮,在过滤器中添加字段“attendance_group”
点击“attendance_group”后的“···” - “编辑”
在过滤器配置窗口中点击“包含以下选项”,勾选“纪律高危型”,最后点击“确认”
分析:
从年级分布柱状图可以看出,纪律高危型学生在各年级的分布存在明显差异,其中高三年级的高危学生人数最多,高一和高二年级的高危学生人数相对较少。这可能与高三学生面临的升学压力、在校时间长度以及部分学生的课程安排调整有关,例如备考节奏紧张、校外培训或特殊升学路径安排,都可能导致考勤行为出现波动。
点击“样式设置”,将主题色设置为与上一个饼图的主题色一样,并点击“图表元素设置”,将边框色设置为无边框色
点击“保存”按钮,“保存并发布”工作表
2.4.4 纪律高危型学生校区类型 + 年级交叉特征分析
在该环节,为进一步探究高危学生在不同校区、不同年级的分布规律,我们制作纪律高危型学生校区类型 + 年级交堆叠状图,直观呈现各年级下新、老校区高危学生的人数分布情况,精准定位高危行为的高发区域
新建工作表“纪律高危型学生校区类型与年级交叉特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“柱状图”
参考“2.4.3 纪律高危型学生年级特征分析”的步骤,先完成纪律高危型学生年级分布柱状图
接下来,将字段“campus_type”拖拽至“分组”
将主题色设置成与上一个图表的主题色,并取消边框色
分析:
从校区类型 + 年级交叉柱状图可以看出,纪律高危型学生的校区分布差异显著:
- 老校区是高危学生的主要聚集地,各年级高危人数均明显高于新校区,其中高一28人、高二59人、高三117人,高三年级高危人数达到峰值。
- 新校区的高危学生整体规模较小,仅高一1人、高二8人有少量分布,高三年级无高危学生记录。
仅从高危群体的分布来看,老校区的违纪行为发生率远高于新校区,且高危人数随年级升高呈明显增长态势。为进一步判断这一差异是否由校区本身的学生基数导致,下一步将引入全校新、老校区的学生总人数数据进行交叉对比,排除基数干扰,分析校区管理模式、通勤条件、学风氛围等因素对学生考勤行为的真实影响。
先点击“保存”按钮,“保存并发布”工作表
2.4.5 不同校区类型各年级学生人数
新建工作表“不同校区类型各年级学生人数”
参考“纪律高危型学生校区类型 + 年级交叉特征分析”步骤,完成不同校区类型各年级学生人数堆叠柱状图,过滤器不添加任何字段
分析:
高一:老校区 1169 人,新校区 148 人
高二:老校区 1374 人,新校区 295 人
高三:老校区 1883 人,新校区无学生分布
结合纪律高危型学生校区类型 + 年级交叉特征分析可以发现:
- 高三老校区是高危行为的绝对高发区:高三年级学生全部集中在老校区,且高危学生人数达到 117 人,是所有校区和年级中的最高值,这一结果与高危群体年级分布特征高度吻合。
- 新校区整体风险可控:新校区学生基数较小,高危学生人数也相应较少,且高三年级无学生分布,因此不存在高三高危学生,整体考勤纪律表现优于老校区。
综合来看,老校区,尤其是高三年级,是纪律高危型学生的核心聚集区,后续管理需重点聚焦老校区高年级学生群体,结合校区通勤条件、管理模式、学风氛围等因素,制定针对性的考勤管理措施。
2.4.6 纪律高危型学生班级特征分析
接下来我们分析纪律高危型学生的班级特征,定位高危学生集中的班级
新建工作表“纪律高危型学生班级特征分析”
数据集选择“学生考勤主题数据集”,图表类型选择“水平条图”
将字段“student_id”拖拽至X轴,“class_name”拖拽至Y轴,并将“student_id”的聚合方式设置为“去重计数”
过滤器中添加字段“attendance_group”
点击“attendance_group”后的“···” - “编辑”
过滤器设置中点击“包含以下选项”。勾选“纪律高危型”,最后点击“确认”
为了方便观察高危型学生的集中班级,我们可以将“student_id”按降序排序,这样人数多的班级就排在前面
分析:
从班级水平条图可以清晰看到,纪律高危型学生高度集中在少数班级,其中高三 09 班高危人数最多(19 人),其次为高三 05 班、高三 13 班等,多数班级高危人数极少,呈现明显的班级聚集性。结合年级分布特征来看,高危学生主要集中在高三年级的部分班级,这既与高三学生升学备考节奏紧张、课程安排灵活有关,也说明高危行为与班级管理强度、班风氛围、同伴影响密切相关。少数薄弱班级需要重点整治,通过加强班主任监管、整顿班风,阻断不良风气传染。
点击样式设置,将主题色设置为同之前的图表的主题色一样
点击“保存”按钮,“保存并发布”工作表
2.5 搭建综合仪表盘
点击左边菜单栏中的“仪表盘”
点击左上角“+” - “新建仪表盘”
仪表盘名字输入“纪律高危型学生用户画像分析”,备注信息输入“纪律高危型学生用户画像分析”,点击“确认”
在右边组件与工作表区域,点击“基础组件”,拖拽一个文本组件到画布中
文本内容输入“纪律高危型学生用户画像分析”,并设置字体颜色、字体大小、加粗、居中,并关闭组件窗口
组件右下角拖动调整组件大小,拖动上方调整位置
点击图表组件显示按钮
切换到“工作表”,将2.4节中制作的工作表都拖拽至画布中
拖入完毕后,使用鼠标对图表大小和布局进行调整,同时将以上的分析使用“文本”组件呈现在仪表盘中,形成完成的分析仪表盘,“文本”组件可通过关闭“超出隐藏”开关来实现换行
预期效果如下:
设计完毕后,点击“发布”,保存并发布仪表盘
点击“预览”即可全屏查看仪表盘
发布成功后,可以点击“分享”,并选择不同的分享方式将仪表盘分享给其他人查看
将分享的信息复制发送给其他人,其他人即可点击仪表盘的分享链接进行查看
复制结果如下,其他人可以点击连接查看仪表盘
来自undefined分享的资源
访问地址:http://47.109.153.89/#/share/dashboard/2058746680123199488
三、实验结果:
1 考勤主题扩展标签构建
聚类簇分析:
cluster、attendance_group数据更新成功:
2 考勤画像可视化分析
仪表盘:
分析:
(1)整体概况
纪律高危型学生表现出频繁迟到、早退、请假及校服违规等多重违纪行为,违纪类型叠加,是校园考勤管理中需要重点关注的群体。该群体人数占比虽有限,但其行为影响较大,容易助长不良风气,有必要开展专项治理。
(2)核心特征
- 性别特征:男生是高危群体的主体,占比明显高于女生,是高危行为的主要发生者,与男生规则意识较弱、时间观念不足有关。
- 年级特征:高度集中于高年级,随着年级升高,高危学生比例显著上升。高年级学生面临较大学业压力、更多自主空间及浮躁心态,对考勤纪律的重视程度有所下降。
- 校区特征:不同校区之间分布差异明显,高危学生高度集中在老校区,新校区风险较低,这与校区通勤条件、管理模式及学风氛围密切相关。
- 班级特征:存在显著的班级聚集性,多集中在少数管理薄弱、班风松散的班级,与班级管理强度及同伴效应直接相关。
(3)管理建议
- 重点关注高年级男生群体:有针对性地开展考勤纪律教育及时间管理培训,强化规则意识,减少违纪行为。
- 加强老校区高年级管理:针对老校区优化通勤安排,强化考勤监督,营造严谨的学风氛围,降低学生违纪风险。
- 整治高危学生集中班级:加大班主任监管力度,整顿班风,建立班级考勤责任制,阻断不良风气的传播。
- 建立高危学生台账:实行一对一建档,家校联动,制定个性化矫正方案,跟踪干预效果,防止违纪行为固化。
四、问题与解决:
问题一:创建的ETL工作流,会莫名其妙的消失。或者创建好的工作流,再次打开就被清空了
解决:可能是没有保存或者页面出现异常,后者退出后再次登录又恢复正常了
五、实验总结:
考勤主题扩展标签构建:基于学生考勤次数数据,通过 K-Means 聚类算法完成学生考勤群体自动划分,利用次数特征建模保证了聚类结果的稳定性与可解释性。借助 助睿BI 平台实现可视化分析,为机器生成的聚类簇赋予明确的业务含义,精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签构建,为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。
考勤画像可视化分析:基于已完成 K-Means 聚类并标注考勤群体的学生考勤主题标签表,构建仪表盘,对“纪律高危型”群体的行为特征进行了总结。结果表明,相比其他群体,高三群体、男生群体、老校区群体存在高频违纪、多维度异常叠加等行为特征,是校园考勤管理中风险最高、影响最大的群体。通过专项画像分析,实验为精准干预和重点整治提供了数据支撑,有助于推动校园精细化管理。
