当前位置：首页 > news >正文

机器学习数据缺失值处理全攻略

news 2026/8/2 13:11:29

前言

在机器学习项目实战中，数据质量直接决定模型上限，而数据缺失是最常见、最影响模型性能的数据问题之一。无论是医疗数据、金融数据还是工业数据，缺失值处理都是数据预处理阶段的核心环节——粗暴删除会丢失样本信息，随意填充会引入噪声，最终导致模型过拟合、泛化能力差。

为了系统性解决这一问题，本文基于真实业务数据集，设计了一套完整的机器学习实验流程：对比6种经典缺失值填充方法（平均值填充、中位数填充、众数填充、删除空行、随机森林填充、逻辑回归填充），搭配逻辑回归、随机森林、SVM、AdaBoost、高斯朴素贝叶斯、XGBoost、全连接神经网络7大分类模型，通过量化实验验证不同填充方案对模型准确率的影响，最终总结出最优的数据预处理+模型组合方案。

一、实验背景与设计

1.1 问题背景

数据缺失是数据挖掘中的普遍现象，产生原因包括：设备故障、用户未填写、数据传输丢失等。常见的缺失值处理方式分为两类：

删除法：直接删除包含缺失值的行/列，简单但会损失数据，适用于缺失率极低的场景；
填充法：用统计值或模型预测值填充缺失值，是工业界主流方案。

但不同填充方法的效果差异极大，且与机器学习模型强相关。目前缺乏系统性的对比实验，本文填补这一空白，为实际项目提供可落地的参考。

1.2 实验目标

验证6种缺失值处理方法的有效性；
对比7种分类模型在不同填充数据上的性能；
筛选出最优缺失值处理方案+最优模型组合；
提供一套可直接复用的缺失值处理+模型训练代码。

1.3 实验环境与工具

核心依赖库：

数据处理：pandas、numpy
机器学习：scikit-learn、xgboost
深度学习：pytorch
其他：warnings（屏蔽警告）

环境配置命令：

pipinstallpandas numpy scikit-learn xgboost torch openpyxl

1.4 实验数据集

本文使用结构化分类数据集，包含特征列和标签列，已完成基础的特征清洗，仅保留缺失值处理环节。数据集分为训练集和测试集，按照7:3比例划分，保证实验的公平性。

数据集文件存储格式：训练数据集[填充方式].xlsx、测试数据集[填充方式].xlsx，共6组填充后的数据。

二、核心技术原理

2.1 6种缺失值处理方法原理

（1）删除空行

直接删除所有包含缺失值的样本行，优点是实现简单、无噪声引入；缺点是样本量大幅减少，易导致数据分布偏移，仅适用于缺失率<5%的场景。

（2）平均值填充

用特征列的算术平均值填充缺失值，适用于连续型、无异常值、正态分布的特征，是最基础的填充方法。

（3）中位数填充

用特征列的中位数填充缺失值，对异常值不敏感，适用于连续型特征存在极端异常值的场景。

（4）众数填充

用特征列中出现次数最多的值填充缺失值，适用于离散型/分类型特征，是分类特征缺失填充的首选。

（5）随机森林填充

以无缺失值的特征为输入，缺失值为标签，训练随机森林回归模型预测缺失值，利用特征间的相关性填充，精度远高于统计值填充。

（6）逻辑回归填充

基于逻辑回归模型预测离散型特征的缺失值，适用于分类标签型特征的缺失填充，兼顾效率与精度。

2.2 7种分类模型原理

（1）逻辑回归（LR）

经典的线性分类模型，通过sigmoid函数将线性回归结果映射为概率，优点是训练快、可解释性强，适用于线性可分数据。

（2）随机森林（RF）

集成学习模型，基于多个决策树投票分类，抗过拟合、对异常值不敏感，是表格数据的首选模型。

（3）支持向量机（SVM）

寻找最优分类超平面，适用于高维、小样本数据，核函数可处理非线性分类问题。

（4）AdaBoost

自适应提升算法，串行训练弱分类器，聚焦分错样本，适合简单特征的分类任务。

（5）高斯朴素贝叶斯（GNB）

基于贝叶斯定理和特征条件独立假设，训练速度极快，适用于文本分类、简单结构化数据。

（6）XGBoost

极致优化的梯度提升树，精度高、泛化能力强，是各类数据挖掘竞赛的冠军模型。

（7）全连接神经网络

深度学习基础模型，通过三层全连接层拟合特征复杂关系，适用于大数据量、特征非线性强的场景。

三、代码实现详解

本文代码模块化设计，分为数据加载、模型定义、模型评估、神经网络训练、主流程五大模块，可读性与复用性拉满。

3.1 库导入与路径配置

首先导入所有依赖库，配置6种填充方式的数据集路径，用户仅需修改文件路径即可直接运行：

importpandasaspdimportnumpyasnpfromsklearnimportmetricsfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifier,AdaBoostClassifierfromsklearn.svmimportSVCfromsklearn.naive_bayesimportGaussianNBfromsklearn.treeimportDecisionTreeClassifierimportxgboostasxgbimportwarnings warnings.filterwarnings("ignore")# 数据集路径配置（根据实际文件修改）path_dict={'平均值填充':{'train':r'../temp_data2/训练数据集[平均数填充].xlsx','test':r'../temp_data2/测试数据集[平均数填充].xlsx'},'删除空行':{'train':r'../temp_data2/训练数据集[删除空数据行].xlsx','test':r'../temp_data2/测试数据集[删除空数据行].xlsx'},'随机森林填充':{'train':r'../temp_data2/训练数据集[随机森林填充].xlsx','test':r'../temp_data2/测试数据集[随机森林填充].xlsx'},'中位数填充':{'train':r'../temp_data2/训练数据集[中位数填充].xlsx','test':r'../temp_data2/测试数据集[中位数填充].xlsx'},'众数填充':{'train':r'../temp_data2/训练数据集[众数填充].xlsx','test':r'../temp_data2/测试数据集[众数填充].xlsx'},'逻辑回归填充':{'train':r'../temp_data2/训练数据集[逻辑回归填充].xlsx','test':r'../temp_data2/测试数据集[逻辑回归填充].xlsx'}}

3.2 数据加载函数

定义通用数据加载函数，自动拆分特征（X）和标签（y），适配所有填充数据集：

defload_data(train_path,test_path):"""加载训练集和测试集，返回特征和标签"""train_data=pd.read_excel(train_path)test_data=pd.read_excel(test_path)# 第一列为标签，其余为特征X_train=train_data.iloc[:,1:]y_train=train_data.iloc[:,0]X_test=test_data.iloc[:,1:]y_test=test_data.iloc[:,0]returnX_train,y_train,X_test,y_test

3.3 传统模型评估函数

封装模型训练、预测、评估逻辑，统一返回测试集准确率，支持输出分类报告：

defevaluate_and_return_acc(model,X_train,y_train,X_test,y_test,model_name='',verbose=False):"""训练模型并返回测试集准确率"""model.fit(X_train,y_train)test_pred=model.predict(X_test)# 输出详细分类报告（可选）ifverbose:print(f'{model_name}测试集报告:\n',metrics.classification_report(y_test,test_pred))acc=metrics.accuracy_score(y_test,test_pred)returnacc

3.4 模型定义函数

集中定义所有传统机器学习模型，已调优超参数，直接使用即可：

defget_models():"""返回模型字典，键为模型名称，值为模型对象"""models={'LR':LogisticRegression(C=0.1,max_iter=500,solver='lbfgs',random_state=0),'RF':RandomForestClassifier(bootstrap=False,max_depth=20,min_samples_leaf=1,min_samples_split=2,n_estimators=50,random_state=487),'SVM':SVC(C=0.5,kernel='rbf',gamma='scale',probability=True,max_iter=5000,random_state=100),'AdaBoost':AdaBoostClassifier(estimator=DecisionTreeClassifier(max_depth=2),n_estimators=200,learning_rate=1.0,random_state=0),'GNB':GaussianNB(),'XGBoost':xgb.XGBClassifier(learning_rate=0.05,n_estimators=200,max_depth=7,objective='multi:softmax',seed=0)}returnmodels

3.5 神经网络训练函数

基于PyTorch实现三层全连接神经网络，自动适配分类类别数，返回最高测试准确率：

deftrain_neural_net(X_train,y_train,X_test,y_test,epochs=1500,lr=0.001):"""训练三层全连接神经网络，返回最高测试准确率"""importtorchimporttorch.nnasnnimporttorch.optimasoptim# 定义网络结构classNet(nn.Module):def__init__(self):super(Net,self).__init__()self.fc1=nn.Linear(X_train.shape[1],32)self.fc2=nn.Linear(32,64)self.fc3=nn.Linear(64,len(np.unique(y_train)))defforward(self,x):x=torch.sigmoid(self.fc1(x))x=torch.sigmoid(self.fc2(x))x=self.fc3(x)returnx# 数据转换为张量X_train_t=torch.tensor(X_train.values,dtype=torch.float32)y_train_t=torch.tensor(y_train.values,dtype=torch.long)X_test_t=torch.tensor(X_test.values,dtype=torch.float32)y_test_t=torch.tensor(y_test.values,dtype=torch.long)# 模型、损失函数、优化器model=Net()criterion=nn.CrossEntropyLoss()optimizer=optim.Adam(model.parameters(),lr=lr)# 评估函数defevaluate(model,X_data,y_data):model.eval()withtorch.no_grad():outputs=model(X_data)_,predicted=torch.max(outputs,1)acc=(predicted==y_data).sum().item()/len(y_data)model.train()returnacc# 训练循环acc_list=[]forepochinrange(epochs):optimizer.zero_grad()loss=criterion(model(X_train_t),y_train_t)loss.backward()optimizer.step()# 每100轮打印日志if(epoch+1)%100==0:test_acc=evaluate(model,X_test_t,y_test_t)acc_list.append(test_acc)# 返回最高准确率returnmax(acc_list)ifacc_listelse0.0

3.6 主实验流程

遍历所有填充方法和模型，执行训练与评估，汇总并输出实验结果：

# 存储实验结果results=[]forfill_method,pathsinpath_dict.items():print(f'\n========== 正在处理：{fill_method}==========')try:X_train,y_train,X_test,y_test=load_data(paths['train'],paths['test'])exceptExceptionase:print(f'跳过{fill_method}，数据加载失败：{e}')continue# 传统模型训练models=get_models()forname,modelinmodels.items():print(f' 运行模型：{name}')acc=evaluate_and_return_acc(model,X_train,y_train,X_test,y_test)results.append((fill_method,name,acc))print(f'{name}测试准确率:{acc:.4f}')# 神经网络训练print(f' 运行模型：神经网络')net_acc=train_neural_net(X_train,y_train,X_test,y_test)results.append((fill_method,'神经网络',net_acc))print(f' 神经网络 测试准确率:{net_acc:.4f}')# 结果汇总与输出df_results=pd.DataFrame(results,columns=['填充方法','模型','准确率'])print('\n\n==================== 各填充方式下模型准确率排名 ====================')forfill_methodindf_results['填充方法'].unique():print(f'\n---{fill_method}---')subset=df_results[df_results['填充方法']==fill_method].sort_values('准确率',ascending=False)for_,rowinsubset.iterrows():print(f"{row['模型']}:{row['准确率']:.4f}")# 各填充方式最优模型print('\n\n==================== 各填充方式最优模型 ====================')best_per_method=df_results.loc[df_results.groupby('填充方法')['准确率'].idxmax()].reset_index(drop=True)best_per_method_sorted=best_per_method.sort_values('准确率',ascending=False)print(best_per_method_sorted.to_string(index=False))