当前位置：首页 > news >正文

数据预处理全流程（一个数据集贯穿），入门级包学包会

news 2026/6/26 18:17:58

假设原始数据是一张用户表：

ID	年龄	薪资	城市	购买次数
1	25	8000	北京	5
2	30	?	上海	12
3	25	8000	北京	5
4	200	12000	深圳	3
5	35	15000	?	8
6	28	10000	广州	0

① 缺失值处理

方法	怎么做	本例结果
删除	直接去掉该行	删掉 ID=2（缺薪资）、ID=5（缺城市）
填充均值	用其他行的平均值填	薪资`?` → (8000+12000+10000)/3 =10000
填充众数	用出现最多的值填	城市`?` →北京（出现2次最多）
填充固定值	统一填一个数	城市`?` →未知

实际最常用：数值型填均值，类别型填众数。

② 重复值处理

ID=1 和 ID=3 完全一样：

操作	结果
删除重复	留一行，删一行
保留最后出现	留 ID=3

python df.drop_duplicates() # 默认保留第一条

③ 异常值处理

ID=4 年龄=200，明显是异常：

方法	怎么做	本例结果
删除	直接删	删掉 ID=4
截断（Capping）	超过上限的全部设为上限	年龄 >100 的全改成100
视为缺失	当成缺失值，再用均值填	年龄=200 → 缺失 → 填均值 28

业务敏感数据（如年龄）用截断，不要直接删。

④ 编码（让机器能读懂文字）

城市是文字，模型看不懂，必须转数字：

方法	结果	适用场景
Label Encoding	北京=0, 上海=1, 深圳=2, 广州=3	有大小关系的（如等级）
One-Hot Encoding	北京→[1,0,0,0]，上海→[0,1,0,0]...	无大小关系的（如城市）

One-Hot 后的表：

年龄	薪资	北京	上海	深圳	广州	购买次数
25	8000	1	0	0	0	5
30	10000	0	1	0	0	12
...	...	...	...	...	...	...

⑤ 标准化 / 归一化（让量纲一致）

年龄范围 20~100，薪资范围 5000~20000，数字差距太大，模型会被薪资主导。

方法	公式	结果范围	本例（年龄25）
归一化 (Min-Max)	`(x - min) / (max - min)`	[0, 1]	(25-20)/(100-20) =0.0625
标准化 (Z-Score)	`(x - μ) / σ`	均值0，标准差1	(25-28)/4 ≈-0.75

选哪个？

有明确上下界（如0~100分）→ 归一化

没有明确边界（如薪资）→ 标准化

树模型（随机森林、XGBoost）→不需要做

⑥ 二值化（刚才讲过）

购买次数 → 是否活跃：

原始	阈值≥5	结果
5	≥5	1（活跃）
12	≥5	1
0	<5	0（不活跃）

⑦ 特征选择（少即是多）

方法	思路
删低方差列	所有人城市都一样 → 删掉
删高相关列	薪资和年收入几乎一样 → 留一个
业务判断	ID 对预测没用 → 删掉

完整流程一览

原始数据 → ① 缺失值处理（填/删） → ② 重复值处理（删） → ③ 异常值处理（删/截断/填） → ④ 编码（文字→数字） → ⑤ 标准化/归一化（量纲统一） → ⑥ 二值化/分箱（按需） → ⑦ 特征选择（降维） → 干净数据 → 喂模型

查看全文

http://www.jsqmd.com/news/1082900/

盘锦盛缘全屋定制风格该怎么选

Apex Legends压枪宏终极指南：轻松掌握精准射击技巧

LinkSwift：重新定义网盘下载体验的技术解耦方案

okbiye 数据分析模块：告别 SPSS 与 Python，自动生成可直接粘贴进论文的 DOCX 统计报告

大湾区汽配厂海外建厂亏损760万，全链路落地方案6个月降本24%

目录遍历漏洞实战：从原理到防御的完整攻防指南

Fansly下载器终极指南：如何轻松离线保存你喜爱的创作者内容

废标风险一网打尽埃文AI标书内置实时法规库的三大校验场景

八大网盘直链下载助手：免费解锁下载限速的终极解决方案

056、pickle 与序列化：安全性警告、协议版本、替代方案 json、msgpack

从67%到82%！AnomalyGPT 实战进阶：Vicuna-7B 升级全记录（附双卡推理方案）

shein、亚马逊自养号采购下单技术：跨境采购新利器

3分钟搞定！BetterNCM安装器：网易云音乐插件管理终极神器

QQ音乐用遥控笔播放设置

paperxie AI PPT 生成器｜网页端一站式制作汇报幻灯片，告别熬夜排版

HS2-HF_Patch终极指南：5分钟让你的Honey Select 2游戏体验焕然一新

如何快速掌握Sketchfab模型下载：3D爱好者的完整实践指南

JMeter汇总报告深度解读：从核心指标到性能瓶颈定位实战

免费跨平台绘图神器：draw.io桌面版完整使用指南

AI智能体分类及其应用解析（9）

YOLO骨干网络改进-第15篇：EfficientNetV2 compound scaling缩放策略

老Mac焕新终极指南：用OpenCore Legacy Patcher免费升级到最新macOS

BetterNCM安装器：3分钟搞定网易云音乐插件一键安装的终极指南

Rufus 4.15 Beta发布：修复装机卡死、ARM设备崩溃，还补上两大安全漏洞

从 RNN 到 GPT：大模型架构演化史

PS 怎么把人像 p 到另一张照片上？零基础无痕合成完整教程

GmSSL架构实战：国密算法在现代安全系统中的深度集成方案

告别DLL错误：Visual C++ Redistributable AIO一键解决Windows程序运行难题 [特殊字符]

凭什么要用余弦退火，不用正弦退火

双材料打印服务，精准定制每一件精品