当前位置：首页 > news >正文

Pandas数据清洗实战：3种高效处理NaN缺失值的技巧（附代码示例）

news 2026/3/26 20:06:28

Pandas数据清洗实战：3种高效处理NaN缺失值的技巧（附代码示例）

处理数据时，最常遇到的“拦路虎”之一就是缺失值。它们像数据集中一个个不完整的拼图，直接忽略或用简单粗暴的方式填充，都可能让后续的分析模型得出南辕北辙的结论。对于数据分析师和Python开发者而言，掌握Pandas库中处理NaN的“巧劲”，而不仅仅是“蛮力”，是提升数据预处理效率、保证分析质量的关键一步。今天，我们不谈那些基础操作手册，而是聚焦于实战场景，通过一个模拟的真实数据集案例，深入剖析dropna()、fillna()和isnull()这三个核心方法的组合拳与进阶策略。你会发现，高效处理缺失值，远不止是调用一个函数那么简单，它更像是一门基于业务理解的权衡艺术。

1. 理解缺失值：不仅仅是“空”那么简单

在动手清理之前，我们得先搞清楚要清理的是什么。Pandas中的缺失值通常用NaN（Not a Number）表示，但它并非唯一的“空”形式。None、np.nan、pd.NaT（针对时间序列）都会被Pandas识别为缺失值。理解这一点至关重要，因为不同的来源可能导致缺失值的表现形式不同。

更重要的是，我们需要探究缺失的“机制”。数据为什么会缺失？这通常分为三类：

完全随机缺失（MCAR）：数据的缺失与任何观测到的或未观测到的数据都无关。比如，调查问卷因打印机故障随机丢失了几页。
随机缺失（MAR）：数据的缺失与其他观测到的变量有关，但与未观测到的自身值无关。例如，年轻人群体的收入数据缺失率更高，但在这个年龄群体内，缺失是随机的。
非随机缺失（MNAR）：数据的缺失与未观测到的数据本身有关。例如，高收入人群更倾向于不报告自己的收入。

在实战中，我们往往没有足够信息精确判断缺失机制，但通过isnull()结合数据探索，可以做出合理假设，这直接决定了我们后续选择删除还是填充，以及如何填充。

让我们加载一个模拟的电商用户行为数据集来开启今天的实战：

import pandas as pd import numpy as np # 模拟一个包含多种缺失情况的电商用户数据集 data = { 'user_id': [1001, 1002, 1003, 1004, 1005, 1006, 1007], 'age': [25, np.nan, 34, np.nan, 28, 45, np.nan], 'city': ['北京', '上海', np.nan, '广州', '深圳', np.nan, '北京'], 'last_login_days': [1, 30, np.nan, 7, np.nan, 90, 2], 'total_spent': [1500.50, np.nan, 800.00, 2300.00, np.nan, np.nan, 450.00], 'favorite_category': ['数码', '服饰', '美妆', np.nan, '家居', '数码', np.nan] } df = pd.DataFrame(data) print("原始数据集：") print(df) print(f"\n数据集形状：{df.shape}") print("\n各列缺失值统计：") print(df.isnull().sum())

运行这段代码，你会看到一个典型的、不那么“干净”的数据集。年龄、城市、最近登录天数、总消费金额和喜好品类都存在缺失。我们的任务就是让这个数据集变得可用。

2. 策略一：精准删除 -`dropna()`的参数组合艺术

删除缺失值是最直接的方法，但“一删了之”往往会导致信息损失。dropna()方法提供了多个参数，让我们可以像外科手术一样精准地移除数据，而不是大刀阔斧地砍掉整行整列。

2.1`how`与`axis`: 设定删除的严格程度与方向

默认情况下，df.dropna()会删除任何包含至少一个缺失值的行（how='any'）。这在很多情况下过于严格。

# 默认删除任何包含NaN的行 df_dropped_any = df.dropna() print("默认删除(how='any')后：") print(df_dropped_any) print(f"形状从 {df.shape} 变为 {df_dropped_any.shape}")

你会发现，可能只剩下一行甚至没有数据了，因为只要某行有一个缺失值，整行就被抛弃。这时，how='all'就派上用场了，它只删除整行（或整列）全部为缺失值的记录。

# 只删除全部为NaN的行 df_dropped_all = df.dropna(how='all') print("\n删除全缺失行(how='all')后：") print(df_dropped_all)

在我们的模拟数据中，没有整行全空的情况，所以数据保持不变。但axis参数可以改变操作的方向。例如，如果有一列数据缺失率极高，对分析毫无用处，我们可以考虑删除该列。

# 删除任何包含NaN的列 df_dropped_col = df.dropna(axis=1, how='any') print("\n删除任何包含缺失值的列后：") print(df_dropped_col) print(f"列从 {df.shape[1]} 变为 {df_dropped_col.shape[1]}")

注意：删除列需要格外谨慎，尤其是当该列是重要的标签或关键特征时。务必基于业务逻辑判断，而不仅仅是缺失率。

2.2`thresh`: 基于数据完整度的阈值删除

这是dropna()中非常强大但常被忽略的参数。thresh=n要求行（或列）中至少要有n个非缺失值才被保留。这允许我们设定一个数据完整度的容忍阈值。

假设我们认为，一个用户记录至少需要提供3个有效信息（比如年龄、城市、最近登录）才有分析价值。

# 保留至少包含3个非缺失值的行 df_thresh = df.dropna(thresh=3) print("保留至少3个非缺失值的行：") print(df_thresh)

这个操作非常灵活。例如，在处理传感器数据时，我们可以要求某条时间序列记录必须有至少80%的有效读数才予以保留。

2.3`subset`: 针对关键字段的定向删除

很多时候，我们只关心某些特定列的完整性。例如，在用户分析中，“user_id”是必须的，而“age”的缺失或许可以容忍。subset参数允许我们指定一个列标签列表，只检查这些列是否有缺失值，并据此决定是否删除该行。

# 只检查‘age’和‘city’列，如果这两列中任意一列为空，则删除该行 df_subset = df.dropna(subset=['age', 'city']) print("删除‘age’或‘city’缺失的行：") print(df_subset) # 更严格：只有当‘age’和‘city’同时缺失时才删除该行 df_subset_all = df.dropna(subset=['age', 'city'], how='all') print("\n仅当‘age’和‘city’同时缺失时才删除行：") print(df_subset_all)

subset参数将删除操作从“无差别攻击”变成了“精确制导”，是实战中最常用的技巧之一。它基于业务优先级来决定数据的去留。

3. 策略二：智能填充 -`fillna()`的上下文感知策略

当数据宝贵，删除代价过高时，填充是更优的选择。但填充不是简单地填0或填平均值，糟糕的填充可能比缺失本身更糟。fillna()方法提供了多种智能填充的路径。

3.1 静态值填充：简单但需谨慎

用固定值填充是最简单的方法，适用于类别型数据或含义明确的数值。

# 用‘未知’填充‘city’和‘favorite_category’的缺失 df_filled_static = df.fillna({'city': '未知', 'favorite_category': '未记录'}) # 用0填充‘last_login_days’的缺失（可能意味着当天刚登录） df_filled_static['last_login_days'] = df['last_login_days'].fillna(0) print("静态值填充后：") print(df_filled_static[['user_id', 'city', 'last_login_days', 'favorite_category']])

关键点：为不同列选择不同的填充值。例如，对于“总消费金额”，填0可能意味着该用户没有消费，这与“未知”是截然不同的含义，需要根据分析目标决定。

3.2 统计值填充：均值、中位数与众数

对于数值型数据，用中心趋势度量填充是常见做法。但选择哪一个，大有讲究。

# 计算年龄和总消费的均值与中位数 age_mean = df['age'].mean() age_median = df['age'].median() spent_mean = df['total_spent'].mean() spent_median = df['total_spent'].median() print(f"年龄 - 均值: {age_mean:.2f}, 中位数: {age_median}") print(f"总消费 - 均值: {spent_mean:.2f}, 中位数: {spent_median}") # 使用中位数填充年龄（对异常值更鲁棒） # 使用均值填充总消费（假设数据分布相对对称） df_filled_stats = df.copy() df_filled_stats['age'] = df['age'].fillna(age_median) df_filled_stats['total_spent'] = df['total_spent'].fillna(spent_mean) print("\n使用统计值填充后：") print(df_filled_stats[['user_id', 'age', 'total_spent']])

填充策略	适用场景	优点	缺点
均值填充	数据分布近似对称，无严重异常值	保持数据总体均值不变	对异常值敏感，可能扭曲分布
中位数填充	数据存在偏斜或异常值	对异常值不敏感，更鲁棒	不适用于类别数据
众数填充	类别型数据或离散数值	最常出现的值，符合直觉	可能引入偏差，如果众数本身占比不高

提示：在填充前后，务必检查该列数据的分布是否发生了显著变化。可以使用直方图或箱线图进行可视化对比。

3.3 前后向填充 (`ffill`/`bfill`)：时间序列与有序数据的利器

对于时间序列数据（如股价、传感器读数）或任何有内在顺序的数据，用前一个或后一个有效值填充往往比用全局统计值更合理。

# 假设数据是按时间或某种逻辑顺序排列的 # 前向填充：用上一个有效值填充 df_ffill = df.sort_values('user_id').fillna(method='ffill') print("前向填充 (ffill) 后：") print(df_ffill) # 后向填充：用下一个有效值填充 df_bfill = df.sort_values('user_id').fillna(method='bfill') print("\n后向填充 (bfill) 后：") print(df_bfill)

重要参数limit：你可以限制连续填充的最大数量，防止一个值向前或向后传播得太远，这在处理长序列的缺失段时非常有用。

# 限制最多只向前填充1个缺失值 df_ffill_limit = df.sort_values('user_id').fillna(method='ffill', limit=1) print("限制最多前向填充1个值：") print(df_ffill_limit)

3.4 高级填充：基于模型与分组策略

在更复杂的场景中，简单的统计填充可能不够。我们可以利用数据中其他字段的信息进行更“聪明”的填充。

分组填充：例如，用相同城市用户的平均年龄来填充该城市下某个用户的年龄缺失。

# 按城市分组，用该城市的平均年龄填充本组内的年龄缺失 df['age_filled_by_city'] = df.groupby('city')['age'].transform( lambda x: x.fillna(x.mean()) ) print("按城市分组均值填充年龄：") print(df[['user_id', 'city', 'age', 'age_filled_by_city']])

模型预测填充：对于关键变量，可以使用机器学习模型（如KNN、随机森林）基于其他完整字段来预测缺失值。这虽然计算成本更高，但能最大程度地保持变量间的内在关系。这里给出一个使用简单KNN填充的示例思路：

from sklearn.impute import KNNImputer import warnings warnings.filterwarnings('ignore') # 选择数值型列进行KNN填充示例 numeric_cols = ['age', 'last_login_days', 'total_spent'] df_numeric = df[numeric_cols].copy() imputer = KNNImputer(n_neighbors=2) df_imputed = pd.DataFrame(imputer.fit_transform(df_numeric), columns=numeric_cols) print("KNN填充后的数值列：") print(df_imputed)

4. 策略三：诊断与标记 -`isnull()`的进阶应用与缺失模式分析

isnull()不仅仅用于检查缺失，更是我们理解数据缺失模式、制定清洗策略的侦察兵。

4.1 可视化缺失模式

在动手处理前，将缺失情况可视化能让我们一目了然。

import matplotlib.pyplot as plt import seaborn as sns # 计算缺失比例 missing_percentage = (df.isnull().sum() / len(df)) * 100 missing_percentage = missing_percentage[missing_percentage > 0].sort_values(ascending=False) # 绘制条形图 plt.figure(figsize=(10, 6)) missing_percentage.plot(kind='barh', color='salmon') plt.xlabel('缺失比例 (%)') plt.title('各特征缺失值比例') plt.axvline(x=50, color='gray', linestyle='--', alpha=0.5) # 添加50%参考线 plt.tight_layout() plt.show()

这张图能立刻告诉你哪些列缺失严重。通常，缺失超过50%的字段可能需要考虑直接删除，或者思考其收集过程是否出了问题。

4.2 分析缺失值的共现模式

缺失值是否集中在某些特定的记录里？这可以通过创建“缺失矩阵”来分析。

# 创建缺失指示矩阵（True表示缺失） missing_matrix = df.isnull() # 计算行级别的缺失统计 df['missing_count'] = missing_matrix.sum(axis=1) df['missing_ratio'] = df['missing_count'] / df.shape[1] print("每条记录的缺失数量与比例：") print(df[['user_id', 'missing_count', 'missing_ratio']].sort_values('missing_ratio', ascending=False))

更进一步，我们可以使用热图来观察缺失值的共现模式。

# 绘制缺失值共现热图 plt.figure(figsize=(8, 6)) sns.heatmap(missing_matrix, cbar=False, cmap='viridis', yticklabels=False) plt.title('缺失值分布热图') plt.tight_layout() plt.show()

如果热图显示出明显的区块模式，可能意味着某些问卷部分被整体遗漏，或某些传感器在特定时间段同时失效。这种模式信息对于判断缺失机制（MCAR, MAR, MNAR）非常有帮助。

4.3 创建缺失值指示器

有时，缺失本身可能就是信息。“为什么这个值会缺失？”可能是一个重要的预测信号。在这种情况下，我们不应该简单地填充或删除，而应该将“是否缺失”作为一个新的布尔特征加入模型。

# 为‘age’和‘total_spent’创建缺失指示器 df['age_is_missing'] = df['age'].isnull().astype(int) df['spent_is_missing'] = df['total_spent'].isnull().astype(int) print("添加缺失指示器后的数据集（部分列）：") print(df[['user_id', 'age', 'age_is_missing', 'total_spent', 'spent_is_missing']])

在信贷评分模型中，拒绝提供收入信息的申请人可能本身就属于高风险群体。这时，income_is_missing这个特征可能比填充后的收入值更具预测力。

5. 实战综合案例：电商用户数据集清洗流水线

现在，让我们整合以上所有技巧，为最初的电商用户数据集设计一个完整的清洗流水线。我们的目标是生成一个可用于用户分群或预测模型的干净数据集。

步骤1：探索与诊断我们已经做了，发现total_spent和age缺失较多，city和favorite_category有少量缺失。

步骤2：制定清洗策略

user_id: 无缺失，保留。
age: 数值型，缺失率约43%。考虑用中位数填充（因为年龄可能有异常值），同时创建缺失指示器。
city: 类别型，缺失率约29%。用“未知”填充。
last_login_days: 数值型，缺失率约29%。对于登录行为，用前向填充可能更合理（假设用户持续未登录），但需结合业务。这里我们用该用户所在城市的平均未登录天数进行分组填充。
total_spent: 数值型，缺失率约57%。缺失率过高，简单填充风险大。考虑分箱处理或作为目标变量时直接删除对应行。本例中，我们假设它是特征，用KNN基于其他特征进行填充。
favorite_category: 类别型，缺失率约29%。用众数“数码”填充。

步骤3：实施清洗

def clean_ecommerce_data(df): """ 电商用户数据清洗函数 """ df_clean = df.copy() # 1. 处理 city: 用‘未知’填充 df_clean['city'] = df_clean['city'].fillna('未知') # 2. 处理 age: 用中位数填充，并创建缺失指示器 age_median = df_clean['age'].median() df_clean['age_is_missing'] = df_clean['age'].isnull().astype(int) df_clean['age'] = df_clean['age'].fillna(age_median) # 3. 处理 last_login_days: 按城市分组均值填充 # 先确保city已无缺失 df_clean['last_login_days'] = df_clean.groupby('city')['last_login_days'].transform( lambda x: x.fillna(x.mean()) ) # 如果还有缺失（比如某个城市全缺失），用全局均值填充 df_clean['last_login_days'] = df_clean['last_login_days'].fillna(df_clean['last_login_days'].mean()) # 4. 处理 favorite_category: 用众数填充 favorite_mode = df_clean['favorite_category'].mode()[0] df_clean['favorite_category'] = df_clean['favorite_category'].fillna(favorite_mode) # 5. 处理 total_spent: 使用KNN填充（仅作示例，实际数据需预处理） # 由于KNN需要数值输入，我们先对类别特征进行简单编码 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df_clean['city_encoded'] = le.fit_transform(df_clean['city']) df_clean['category_encoded'] = le.fit_transform(df_clean['favorite_category']) # 选择用于KNN的特征 knn_features = ['age', 'last_login_days', 'city_encoded', 'category_encoded'] df_for_knn = df_clean[knn_features + ['total_spent']].copy() # 应用KNN填充 imputer = KNNImputer(n_neighbors=2) df_imputed_array = imputer.fit_transform(df_for_knn) df_clean['total_spent'] = df_imputed_array[:, -1] # 取最后一列，即填充后的total_spent # 删除临时编码列 df_clean.drop(['city_encoded', 'category_encoded'], axis=1, inplace=True) # 6. 最终检查：删除仍存在缺失的行（理论上应该没有了） df_clean = df_clean.dropna() return df_clean # 应用清洗函数 df_cleaned = clean_ecommerce_data(df) print("清洗后的数据集：") print(df_cleaned) print(f"\n清洗后是否存在缺失值：{df_cleaned.isnull().any().any()}") print(f"清洗后数据集形状：{df_cleaned.shape}")

步骤4：验证与评估清洗完成后，务必进行验证：

缺失值检查：确认所有缺失已被处理。
数据分布对比：对比清洗前后关键字段（如age,total_spent）的分布（均值、标准差、直方图），确保填充没有引入严重偏差。
业务逻辑检查：检查填充值是否符合常识。例如，填充后的年龄是否为负数？登录天数是否异常大？

这个流水线展示了一个基于业务理解的、分步骤的、多策略并用的清洗过程。在实际项目中，你可能需要根据数据的特性和分析目标，反复调整和优化这个流程。记住，没有一成不变的“最佳”清洗方法，最适合当前数据和业务目标的方法，就是最好的方法。处理缺失值永远是在信息损失、引入偏差和计算成本之间寻找最佳平衡点的过程。

查看全文

http://www.jsqmd.com/news/468235/