当前位置: 首页 > news >正文

分类数据 EDA 实战:如何发现隐藏的层次结构

探索性数据分析(EDA)的本质不是画图和算统计量,而是不被自己的数据欺骗。

分类列是最容易出问题的地方。

  1. city

  1. category

  1. product

  1. department

  1. role

  1. customer_type

——这些列看起来很简单,跑个

  1. value_counts()

画个柱状图搞定了。

其实分类变量往往藏着隐藏的层次结构。这些关系存在于类别内部,不主动挖掘根本看不出来。一旦忽略那么就会得到错误的结论、垃圾特征、误导性的报表。

这篇文章讲的是如何在 EDA 阶段把这些隐藏结构找出来,用实际的步骤、真实的案例,外加可以直接复用的 Python 代码。

什么是"隐藏层次结构"?

一个分类变量表面看起来是扁平的,实际上却是分层的:这就是隐藏层次结构。

https://avoid.overfit.cn/post/829701eeb5dc40d094b0f69df05c3b15

http://www.jsqmd.com/news/347183/

相关文章:

  • 别让显示屏拖后腿!汽车/电子/医疗行业都在用的气密检测仪显示屏有哪些隐藏指标? - 浴缸里的巡洋舰
  • 【信号变化检测】使用新颖的短时间条件局部峰值速率特征进行信号变化事件异常检测附Matlab代码
  • FPGA外部存储器深度解析 (二)深入理解DDR3基础与FPGA控制器 - 详解
  • 大学有这样几类人员:学生、教师、职员和在职读书的教师。给出这几类人员的类描述。
  • GJ504b 的 React 进阶之路:Day 5
  • LLVM的混淆之旅(五)-手动实现控制流平坦化混淆
  • 在service方法中已经catch异常,Transactional失效怎么办 - 教程
  • 拼多多 最新 anti-content 分析
  • 【信息融合与状态估计】时滞系统的协方差交叉融合估计研究附Matlab代码
  • 建立普通的基类Building,用来存储一座楼房的层数、房间数以及它的总平方米数。建立派生类House,继承Building,并存储下面的内容:卧室与浴室的数量。另外,建立派生类Office,继承Bu
  • 【信息矩阵融合算法】【融合】【Dempster-Shafer】自动驾驶应用中环境感知的目标级融合研究附Matlab代码
  • 【通信】基于DPCM编码及2DPSK调制数字频带通信系统Matlab仿真
  • LLVM的混淆之旅(五)-控制流平坦化混淆
  • 2026-02-05学习
  • 数字图像处理篇---颜色空间
  • 【信号调制】使用不同的分类器(逻辑回归分类器、决策树、随机森林、全连接密集层和CNN)来训练模型,以预测不同信噪比值下信号的调制类型附Python代码
  • 数字图像处理篇---颜色空间的发展历程
  • 软件时代正在终结?2026,一场静默的AI革命正重塑我们的工作与未来
  • 数字图像处理篇---图像高通滤波
  • Redmi AX6 TTL 救砖记录
  • 数字图像处理篇---图像合成
  • 深度学习篇---Diffusion模型
  • 数字图像处理篇---小波变换
  • WSL2 + Aider(Kimi) + Windows Trae 双擎开发环境实施文档
  • 数字图像处理篇---图像低通滤波
  • 数字图像处理篇---图像离散余弦变换
  • 市场风险的防范策略
  • Excel向下舍入利器ROUNDDOWN函数:精准截断与季度计算的优雅解决方案
  • 豆包能投广告吗?如何做豆包推广?一文讲透豆包营销新路径 - 品牌2025
  • SW草图绘制之圆弧绘制