当前位置：首页 > news >正文

Python描述性统计分析在机器学习数据预处理中的应用

news 2026/4/26 5:51:01

1. 为什么需要描述性统计分析机器学习数据

第一次拿到机器学习数据集时，我常会感到无从下手。上百个特征列、数十万行数据，就像面对一个黑箱。五年前参与电商用户行为分析项目时，曾因忽略数据分布检查，导致训练的推荐模型完全失效——后来发现原始数据中80%的数值字段存在异常零点。这个教训让我深刻认识到：描述性统计(Descriptive Statistics)是机器学习工作流中不可逾越的起点。

Python生态提供了完整的工具链来实现数据"摸底"。通过基础的统计量计算、分布可视化和质量检查，我们能快速识别数据特征、发现潜在问题，为后续的特征工程和模型选择提供依据。这就像医生问诊时的基础体检，虽简单却至关重要。

2. 核心统计量计算与解读

2.1 集中趋势指标

使用pandas的describe()方法可以快速获取关键统计量。以下是对某房价数据集的输出示例：

import pandas as pd df = pd.read_csv('housing.csv') print(df[['price', 'area']].describe())

输出结果包含：

count：非空值数量（检查数据完整性）
mean：算术平均值（受异常值影响大）
std：标准差（衡量离散程度）
min/max：极值（识别异常点）
25%/50%/75%：分位数（分布形态参考）

对于偏态分布的数据，中位数(median)比均值更能代表典型值。我曾分析过某城市收入数据，均值比中位数高出47%，就是因为少数高收入者拉高了整体水平。

2.2 离散程度测量

除了标准差，还有两个重要指标：

方差：标准差的平方，反映数据波动幅度
IQR（四分位距）：Q3-Q1，用于识别异常值（Tukey's fences方法）

计算示例：

q1 = df['price'].quantile(0.25) q3 = df['price'].quantile(0.75) iqr = q3 - q1 print(f"IQR: {iqr}")

2.3 分布形态分析

通过scipy.stats可以计算更专业的分布指标：

from scipy import stats skewness = stats.skew(df['price']) kurtosis = stats.kurtosis(df['price']) print(f"偏度: {skewness:.2f}, 峰度: {kurtosis:.2f}")

偏度>0表示右偏（均值>中位数）
峰度>3表示尖峰分布（比正态分布更集中）

3. 数据可视化技术

3.1 直方图与密度图

import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(12,4)) plt.subplot(121) sns.histplot(df['price'], kde=True) plt.subplot(122) sns.boxplot(x=df['price']) plt.show()

直方图能直观展示数据分布形态，而箱线图则突出显示中位数、IQR和异常值。在分析某医疗数据集时，箱线图帮助我们快速定位到5%的异常检测结果。

3.2 Q-Q图

检验数据是否服从特定分布（如正态分布）：

from statsmodels.graphics.gofplots import qqplot qqplot(df['price'], line='s') plt.show()

如果点基本落在对角线上，则符合正态分布。这个检查对线性回归等假设正态分布的算法尤为重要。

3.3 散点矩阵

观察多个变量间关系：

sns.pairplot(df[['price','area','rooms']]) plt.show()

4. 高级分析技巧

4.1 分组统计

使用groupby进行多维分析：

df.groupby('district')['price'].agg(['mean','median','count'])

这能发现不同群组间的差异。例如分析发现某学区房均价比其他区域高58%。

4.2 时间序列分析

对时间索引数据可计算滚动统计量：

df['price_7d_ma'] = df['price'].rolling(window=7).mean()

4.3 缺失值模式分析

import missingno as msno msno.matrix(df) plt.show()

这个可视化能显示缺失值在各列的分布情况，帮助判断是随机缺失还是系统性缺失。

5. 实战案例解析

以Kaggle的房价预测数据集为例，完整分析流程：

加载并快速查看数据

df = pd.read_csv('train.csv') print(df.shape) print(df.dtypes.value_counts())

数值型特征分析

num_cols = df.select_dtypes(include=['int64','float64']).columns print(df[num_cols].describe().T.sort_values('std', ascending=False))

类别型特征分析

cat_cols = df.select_dtypes(include=['object']).columns print(df[cat_cols].nunique())

目标变量分析

plt.figure(figsize=(10,5)) sns.histplot(df['SalePrice'], kde=True) plt.axvline(df['SalePrice'].mean(), color='r') plt.axvline(df['SalePrice'].median(), color='g') plt.show()

关键特征相关性分析

corr_matrix = df.corr() sns.heatmap(corr_matrix[['SalePrice']].sort_values('SalePrice', ascending=False), annot=True) plt.show()

6. 常见问题与解决方案

6.1 处理偏态分布数据

当遇到严重偏态数据时（如收入、房价）：

对右偏数据取对数变换：np.log1p(x)
使用Box-Cox变换（需数据为正数）：

from scipy.stats import boxcox transformed, _ = boxcox(df['price'])

6.2 异常值处理策略

根据业务场景选择：

删除：df = df[df['price'] < upper_bound]
缩尾处理：df['price'] = np.clip(df['price'], lower, upper)
视为特殊类别（需领域知识支持）

6.3 高基数类别特征

对于取值过多的类别特征（如邮编）：

按频次合并低频类别
计算目标变量统计量（如平均房价）后编码
使用目标编码(Target Encoding)

6.4 内存优化技巧

处理大型数据集时：

指定数据类型：dtype={'column': 'category'}
使用稀疏矩阵格式
分块处理：chunksize=10000

7. 自动化分析工具推荐

7.1 Pandas Profiling

一键生成完整分析报告：

from pandas_profiling import ProfileReport profile = ProfileReport(df, title='Data Report') profile.to_file('report.html')

7.2 Sweetviz

对比两个数据集（如训练集/测试集）：

import sweetviz as sv report = sv.compare([train_df, 'Train'], [test_df, 'Test']) report.show_html()

7.3 D-Tale

交互式分析工具：

import dtale dtale.show(df)

这些工具虽方便，但建议先手动分析几个数据集以培养直觉。我在教学时发现，过度依赖自动化工具会弱化对数据的敏感度。

8. 经验分享与最佳实践

分析流程标准化：

每次新数据集都从相同的检查清单开始
建立自己的分析模板函数库
记录常见数据问题的应对方案

领域知识融合：

与业务专家讨论统计发现的含义
区分统计异常和业务异常
建立业务指标与统计量的映射关系

分析报告技巧：

优先展示影响模型的关键发现
用对比突出异常（如"该特征缺失率比其他高10倍"）
可视化时保持统一的配色和尺度

性能优化经验：

对超大数据集先采样分析
使用Dask替代pandas处理内存不足问题
缓存中间结果避免重复计算

最后分享一个真实案例：在为银行分析贷款数据时，描述性统计发现某地区收入中位数异常高。进一步调查发现是数据录入错误（将年薪误录为月薪）。这个发现直接避免了后续建模的灾难性错误。这就是为什么我始终坚持：好的数据科学家必须首先是优秀的数据侦探。

查看全文

http://www.jsqmd.com/news/701737/

Qianfan-OCR辅助数据库课程设计：实现纸质调查问卷的数字化与分析

基于Qwen3-0.6B-FP8的数据库智能助手：自然语言转SQL实战

异常检测技术：隔离森林与核密度估计实战指南

2026若尔盖核心景点周边景区运营技术全解析：若尔盖景区推荐/若尔盖景区景点/若尔盖景区游玩攻略/若尔盖景点一日游路线/选择指南 - 优质品牌商家

PyTorch实现图像分类：从零构建Softmax分类器

3步搞定B站缓存合并：Android专业工具让离线追番更高效

AI智能体服务化实战：从单体Agent到生产级工具箱架构解析

BEYOND REALITY Z-Image分辨率指南：1024x1024为什么是黄金尺寸

机器学习中随机性的核心作用与实现方法

2026苏州农业灌溉钻深井标杆名录：浙江打井队、深水井钻井、钻井工程队、钻深水井、农业灌溉打井、农村家用钻井、家庭打深水井选择指南 - 优质品牌商家

Z-Image Atelier 在AIGC内容创作中的应用：批量生成社交媒体配图实战

2026年4月防腐管厂家哪家专业：环氧煤沥青防腐管厂家/聚氨酯防腐管/聚氨酯防腐管厂家/衬塑复合管厂家/衬塑管厂家/选择指南 - 优质品牌商家

2026年Q2印刷面板号码工艺升级与行业适配指南：防刮面板/防水面板/鼓包面板/PC面板/丝印面板/亚克力面板/选择指南 - 优质品牌商家

机器人锂电池完整方案（选型 + 设计 + 厂家推荐）【浩博电池】

原生 Python 实现 ReAct Agent（计算器版）

煌上煌2025年净利润大增102.32% 2026年一季度开局稳健

Graphormer模型服务网络优化：降低后端服务间通信延迟

Markdown 完全指南：从入门到精通，程序员必会的轻量标记语言

Fish Speech-1.5镜像部署标准化：Docker Compose一键启停最佳实践

Qwen3-4B-Instruct部署教程：GPU内存不足时的kill进程优先级策略

新手友好！Qwen3-ForcedAligner部署教程：本地运行无网络依赖

3分钟掌握Illustrator智能填充：告别手动排列，拥抱自动化设计

Wan2.2-I2V-A14B镜像优化特性：GPU算力专属调度策略技术白皮书

创业，兼职，副业，别总盯着那些大生意，你身边就有很多小麻烦等着你去解决，找到一个做透它，你就能开始赚钱。

如何用罗技鼠标宏实现PUBG零后坐力射击？终极配置指南

为什么你的C++ MCP网关在32核服务器上CPU利用率始终卡在65%？：揭秘NUMA绑定+SO_REUSEPORT+无锁RingBuffer协同失效真相

网络安全SRC漏洞挖掘学习路线 (四）：常见漏洞挖掘实操，实现首次挖洞突破

PyCharm 大模型开发环境配置：从零到跑通 GPT，这篇就够了

Qwen3.5-9B-GGUF效果实测：混合注意力架构下代码生成准确率提升案例

FLUX.1-Krea-Extracted-LoRA惊艳效果展示：真实感商业摄影作品集