当前位置：首页 > news >正文

4.1 缺失值处理

news 2026/7/2 11:26:36

本章学习目标：
理解什么是缺失值、为什么会出现
学会发现和量化缺失值
掌握4种核心处理方法：删除、均值/中位数填充、众数填充、前向/后向填充
建立决策原则：什么时候用什么方法
不需要记住代码，只需要知道“有什么方法、什么时候用、怎么告诉AI”

一、什么是缺失值？

1.1 缺失值的定义

缺失值，简单说就是“该有数据的地方，没有数据”。

在表格中，缺失值通常表现为：

表现形式	你看到的样子	说明
标准空值	`NaN`、`null`、`None`	程序能识别的标准缺失标记
占位符	`-`、`?`、`N/A`、`unknown`、`/`	人为用某个符号表示缺失
空字符串	`''`（什么都没有）	看起来是空，但类型是文本
特殊数字	`0`、`999`、`-999`	用特殊数字代表“缺失”或“未知”

重要认知：缺失值不一定是“空的”。有时候，0、-1、999等特殊值也可能是缺失值的伪装。

1.2 一个直观的例子

看下面这张“用户信息表”：

user_id	name	age	city	phone
1	张三	28	北京	138****0000
2	李四	NaN	上海	139****1111
3	王五	35	-	空
4	赵六	NaN	NaN	137****2222
5	NULL	42	广州	NULL

表格中有多处缺失：

位置	缺失表现	解读
第2行`age`	`NaN`	标准缺失 —— 没记录年龄
第3行`city`	`-`	占位符 —— 可能是“不详”的替代符号
第3行`phone`	空字符串	文本类型的空值
第4行`age`和`city`	`NaN`	多条缺失
第5行`name`和`phone`	`NULL`	数据库导出的标准缺失

二、为什么会出现缺失值？

理解缺失值产生的原因，能帮助你判断“该怎么处理它”。

2.1 三类主要原因

原因类型	具体场景	举例	处理思路
数据采集问题	系统故障、传感器失灵、人工录入遗漏	温度传感器某天坏了，没记录到数据	需要填充或推断
数据本身不存在	某些字段对部分对象不适用	未婚人士的“配偶姓名”为空	可以保留缺失，或填充“无”
数据清洗/合并问题	多表合并时没匹配上、格式转换出错	用户表和订单表按user_id合并，某些用户没订单 → 订单信息为空	检查合并逻辑

2.2 从业务角度理解缺失

以二手车数据集为例，分析每个字段缺失的可能原因：

字段	缺失比例	可能的原因	性质判断
`model`	极少	极少数车型没记录	随机缺失
`bodyType`	3.3%	部分车辆车身类型未知	信息缺失
`fuelType`	6%	部分车辆燃油类型不详	信息缺失
`gearbox`	4%	部分车辆变速箱类型未记录	信息缺失
`notRepairedDamage`	20%	可能“是否提供检测报告”本身取决于某种条件	非随机缺失 ⚠️

关键洞察：notRepairedDamage缺失比例高达20%，而且“是否填写这项”可能与车况本身有关（车况好的车主更愿意填写）—— 这种缺失不是随机的，处理时需要特别小心。

2.3 缺失的三种模式（进阶概念）

模式	英文	含义	举例
完全随机缺失	MCAR	缺失与任何数据无关	传感器随机故障
随机缺失	MAR	缺失与其他列有关，与本列无关	男性用户更不愿意填“化妆品偏好”
非随机缺失	MNAR	缺失与本列的值本身有关	高收入人群更不愿意填“收入”

对你的意义：大多数情况下，不需要严格区分这三种模式。但要知道：缺失比例越高、越可能与关键业务相关，处理时要越谨慎。如果“是否缺少年收入”与“年收入本身的水平”有关（富人更不愿意填），那么简单地用均值填充会严重偏低估测值。

三、怎么发现缺失值？

数据体检环节已经学过相关工具，这里快速回顾：

3.1 体检工具汇总

工具	作用	怎么告诉AI
`info()`	看每列的非空数量，反推缺失数量	“用info查看哪些列有缺失、缺了多少”
`isnull().sum()`	精确统计每列缺失数量	“统计每列的缺失值数量”
`isnull().mean()`	计算每列缺失比例	“计算每列缺失值的占比”
`isnull().sum().sort_values(ascending=False)`	按缺失数量排序	“哪些列缺失最多？按缺失数量排序”

3.2 常用体检需求

你想知道什么	怎么告诉AI
整体缺失情况	“检查整个数据集的缺失值情况”
缺失最多的列	“找出缺失比例最高的3列”
某列的缺失情况	“查看年龄列有多少缺失值”
行级别的缺失	“找出所有存在缺失值的行”

四、缺失值处理方法总览

有两大类、六种常见方法：

缺失值处理 ├── 方法一：删除 → 直接去掉缺失的行或列 │ ├── 删除整行（na.omit / dropna） │ └── 删除整列（如果缺失太多） │ └── 方法二：填充 → 用一个值替代缺失 ├── 均值填充（适合正态分布数值） ├── 中位数填充（适合偏态数值或有异常值） ├── 众数填充（适合分类变量） ├── 前向/后向填充（适合时间序列） └── 模型预测填充（适合重要列，复杂度高）

本小节重点讲解删除和三种基础填充（均值、中位数、众数、前向填充）。模型预测填充属于进阶内容，可以参考附录。

五、方法一：删除（Deletion）

5.1 什么时候用删除？

场景	是否适合	理由
缺失比例极少（< 3%）	✅ 推荐	删除几行不影响整体分布
缺失比例中等（3%-10%）	⚠️ 谨慎	删除可能丢失信息，需评估
缺失比例很高（> 30%）	⚠️ 考虑删列	填充可能引入偏差，删列是备选
该列对分析不重要	✅ 可以直接删	留着没意义，不如删掉
该列缺失不随机	🔴 避免删除	删除会引入选择偏差

5.2 删除的两种方式

方式	做法	适用场景
删除行	去掉包含缺失值的那些行	缺失比例小，数据量大
删除列	去掉某整列	缺失比例太高（> 50%），或者该列不重要

5.3 实际决策案例（二手车数据集）

列名	缺失比例	删除决策	理由
`model`	0.0007%	✅ 删除行	只有1条缺失，直接删掉这1行
`notRepairedDamage`	20%	❌ 不删列	该列对价格预测可能有价值，20%缺失但可用填充
`offerType`	全部相同值	✅ 删除列	不是缺失问题，是无信息量问题
`bodyType`	3.3%	❌ 删行 or 填充	可选——删掉缺失的行（5000条），或填充

5.4 删除的风险

警告：删除缺失行，意味着你放弃了那些数据。如果缺失不是随机发生的，删除会导致分析结果有偏。

例子：在用户满意度调查中，不满意的人更不愿意填写收入。如果你删除了收入缺失的行，剩下的大多是满意的人——然后你得出结论“用户普遍满意” —— 这是偏差。

六、方法二：填充（Imputation）

6.1 均值填充（Mean Imputation）

它是什么？

用该列的平均值填充缺失值。

什么时候用？

条件	说明
数据近似正态分布	均值能代表“典型值”
没有极端异常值	极端值会拉偏均值
数值型变量	年龄、价格、分数

例子

某班级数学成绩，有几个缺考学生，用全班平均分85分填充：

学生	原成绩	填充后
张三	90	90
李四	NaN	85（填充）
王五	80	80
平均分	85	85

优缺点

优点	缺点
实现简单，计算快	会缩小方差（填充值都在均值附近）
保持整体均值不变	会削弱相关性（填充值与其他列的相关性变弱）
——	数据不是正态分布时效果差

6.2 中位数填充（Median Imputation）

它是什么？

用该列的中位数填充缺失值。

什么时候用？

条件	说明
数据右偏或左偏（有极端值）	中位数比均值更稳健
有异常值存在	均值会被极端值拉偏
数值型变量	收入、房价、里程

例子

小区房价：300万、320万、350万、360万、5000万（豪宅）。中位数350万更能代表“典型房价”。

房产	原价	均值填充	中位数填充
普通住宅A	300	300	300
普通住宅B	320	320	320
普通住宅C	350	350	350
普通住宅D	360	360	360
豪宅	5000	5000	5000
缺失房产	NaN	1266（均值）	350（中位数）

均值1266万的填充值，实际上是“被豪宅拉高的”，并不能代表普通房价。中位数350万更合理。

优缺点

优点	缺点
抗异常值，比均值稳健	同样会缩小方差
适合偏态分布	同样会削弱相关性
比均值更接近“典型值”	——

6.3 众数填充（Mode Imputation）

它是什么？

用该列出现次数最多的值填充缺失值。

什么时候用？

条件	说明
分类变量	性别、城市、车型、燃油类型
有序分类变量（可酌情）	教育程度（小学/初中/高中/大学）
某类别占绝对优势	90%的用户都是“自动挡”

例子

二手车变速箱类型：

变速箱类型	出现次数	占比
自动挡	80,000	80%
手动挡	20,000	20%

缺失的变速箱类型，用众数“自动挡”填充（因为自动挡占绝大多数）。

优缺点

优点	缺点
实现简单	会放大众数比例
适合高众数占比的分类变量	若众数占比不高（如55% vs 45%），填充会引入明显偏差
业务上常合理（填最常见的）	——

6.4 前向/后向填充（Forward/Backward Fill）

它是什么？

用前一行（前向）或后一行（后向）的值填充缺失——利用数据的时间顺序。

什么时候用？

条件	说明
时间序列数据	股价、气温、销售数据
数据有自然顺序	相邻时间点的值通常接近
缺失是连续的几个点	连续缺失也可以逐次填充

例子

某股票每日收盘价：

日期	原股价	前向填充	说明
周一	100	100	正常
周二	NaN	100	用周一的值填充
周三	NaN	100	沿用周二的填充值（100）
周四	105	105	恢复正常
周五	102	102	正常

优缺点

优点	缺点
保持时间趋势	必须有顺序（时间排序）
比均值/中位数合理（时间序列场景）	缺失太长时会“把过去的值拖太久”
简单直接	不适合没有顺序关系的数据

七、决策原则：到底该用哪一种？

7.1 决策流程图

拿到缺失值 │ ▼ 缺失比例多少？ │ ├── < 3% ──────────────────→ 删除行 │ ├── 3% - 30% │ │ │ ▼ │ 列是什么类型？ │ │ │ ├── 数值型，正态分布 ─→ 均值填充 │ ├── 数值型，偏态或有异常值 ─→ 中位数填充 │ ├── 分类变量 ─→ 众数填充 │ └── 时间序列 ─→ 前向/后向填充 │ └── > 50% ────────────────→ 考虑是否删除整列

7.2 快速决策表

数据类型	分布特征	缺失比例	推荐方法
数值型	正态分布	< 30%	均值填充
数值型	偏态或有异常值	< 30%	中位数填充
分类变量	有主导类别（>60%）	< 30%	众数填充
分类变量	类别均衡（50% vs 50%）	< 30%	新增“未知”类别
时间序列	有顺序关系	连续少量缺失	前向/后向填充
任意类型	< 3%	任意	删除行
任意类型	> 50%	——	考虑删除列

7.3 二手车数据集填充决策示例

列名	类型	缺失比例	推荐方法	理由
`model`	分类	0.0007%	删除行	太少，直接删
`bodyType`	分类	3.3%	众数填充	车身类型有限，找最常见的
`fuelType`	分类	6%	众数填充	燃油类型有限，找最常见的
`gearbox`	分类	4%	众数填充	自动挡最常见
`notRepairedDamage`	分类	20%	众数或新增“未知”	0（无损伤）最常见；也可单独设为“未知”类
`power`	数值（偏态）	0%	异常值处理	缺失问题，是异常值问题
`kilometer`	数值（可能偏态）	0%	异常值处理	缺失问题

八、实战场景速查

场景	问题	推荐方法	怎么告诉AI
用户表，年龄缺了2%	缺失很少	删除行	“年龄列缺失很少，删除缺失的行”
员工表，薪资缺了15%	薪资分布右偏（高薪少）	中位数填充	“用薪资的中位数填充缺失值”
产品表，分类缺了10%	分类有主导类别	众数填充	“用商品类别的众数填充缺失值”
用户表，收入缺了25%	收入分布偏态，有离群高管	中位数填充	“收入列用中位数填充”
股票数据，连续3天缺失	时间序列	前向填充	“用前一天的股价填充缺失值”
二手车表，变速器类型缺5%	自动挡占80%	众数填充	“变速器类型用众数填充”
某列缺失60%	缺太多	删除整列	“这一列缺失超过50%，删除整列”

九、本章总结

核心知识点回顾

什么是缺失值：该有数据的地方是空的，表现形式有NaN、-、空字符串等
为什么缺失：采集问题、数据本身不存在、合并问题
怎么发现：info()、isnull().sum()
处理方法：
- 删除：缺失极少时用
- 均值填充：数值型、正态分布
- 中位数填充：数值型、偏态或有异常值
- 众数填充：分类变量
- 前向填充：时间序列
决策原则：看缺失比例 + 数据类型 + 分布形态

决策速查卡

场景	方法
缺失极少（❤️%）	删除行
数值-正态	均值填充
数值-偏态/有异常值	中位数填充
分类变量	众数填充
时间序列	前向填充
缺失>50%	删除整列

核心心法

“没有最好的填充方法，只有最合适的方法。选择取决于：缺失比例 + 数据类型 + 数据分布 + 业务含义。”

十、思考题

某电商平台的“用户收入”列缺失比例为25%。你认为高收入用户和不填写收入的相关性可能是什么？如果简单用均值填充，可能产生什么偏差？
你在处理一个“房屋价格预测”数据集。bedrooms（卧室数量）列缺失了5%。你会用均值、中位数还是众数填充？为什么？
一个酒店预订数据中，“儿童数量”列缺失40%，但大多数预订都没有儿童。你决定用0填充。理由是什么？有没有更好的方案？
股票价格数据中，某只股票连续5个交易日数据缺失。用前向填充合理吗？如果这5天里发生了重大利空/利好消息，填充还是合理的吗？
二手车数据集的notRepairedDamage（是否有未修复损伤）缺失20%。你怀疑“车辆状况好的车主更不愿意花时间填这项”。如果直接删除缺失的行，会有什么后果？