当前位置：首页 > news >正文

Python数据分析实战：艾姆斯房价数据集描述性统计

news 2026/7/15 13:29:17

1. 项目概述：用描述性统计解锁艾姆斯房价数据集

刚接触数据分析时，我常被各种统计术语弄得晕头转向，直到发现了艾姆斯房价数据集这个"教学神器"。这个包含美国爱荷华州艾姆斯市2006-2010年房价信息的经典数据集，就像一份完整的数据分析练习册——79个字段涵盖了房屋面积、建造年份、社区评分等结构化数据，甚至连壁炉数量、车道材质这样的细节都记录在案。本文将带您用Python和基础统计工具，像侦探一样挖掘这些数字背后的故事。

描述性统计作为数据分析的"第一把手术刀"，能快速将杂乱数据转化为直观的分布特征、集中趋势和离散程度指标。通过这个项目，您将掌握：

用单变量统计描述房屋特征的基本分布
通过交叉分析发现房价与房屋属性的隐藏关联
识别数据集中的异常值和数据质量问题
用可视化让统计结果"开口说话"

提示：本文代码基于Python 3.8 + Jupyter Notebook环境，主要使用pandas、numpy、matplotlib和seaborn库。数据集可直接从Kaggle下载（搜索"Ames Housing Dataset"）。

2. 核心统计工具包解析

2.1 集中趋势三剑客

分析房价这类连续变量时，均值(mean)、中位数(median)和众数(mode)各有所长：

均值：所有销售价格总和除以房屋数量，对极端值敏感。计算发现均价约18万美元，但最高价达75.5万，说明存在右偏分布
中位数：将房价排序后取中间值16.3万，比均值低10%，印证了右偏判断
众数：出现频率最高的价格段在12-15万区间，反映市场主流需求

# Python计算示例 print(f"均值: {df['SalePrice'].mean():.2f}") print(f"中位数: {df['SalePrice'].median():.2f}") print(f"众数: {df['SalePrice'].mode()[0]:.2f}")

2.2 离散程度度量组合

仅知道中心位置还不够，还需要衡量数据的"波动幅度"：

极差：最大最小值之差（75.5万-3.4万）虽直观但易受异常值影响
四分位距(IQR)：第75百分位数减第25百分位数，过滤极端值干扰
标准差：各数据点与均值的平均距离，房价标准差达7.9万，说明波动显著

# 离散指标计算 q1 = df['SalePrice'].quantile(0.25) q3 = df['SalePrice'].quantile(0.75) print(f"IQR: {q3 - q1:.2f}") print(f"标准差: {df['SalePrice'].std():.2f}")

2.3 分布形态诊断

通过偏度(skewness)和峰度(kurtosis)判断数据分布形态：

偏度：房价偏度系数1.88>0，证实右偏——少数豪宅拉高整体水平
峰度：6.5>3，比正态分布更尖峰厚尾，需考虑对数变换

from scipy.stats import skew, kurtosis print(f"偏度: {skew(df['SalePrice']):.2f}") print(f"峰度: {kurtosis(df['SalePrice']):.2f}")

3. 实战分析：从单变量到多变量探索

3.1 房价分布可视化

通过直方图+核密度估计(KDE)叠加呈现分布特征：

import seaborn as sns sns.histplot(df['SalePrice'], kde=True, bins=30) plt.axvline(df['SalePrice'].mean(), color='r', linestyle='--') plt.axvline(df['SalePrice'].median(), color='g', linestyle='-')

图表清晰显示：

红色虚线(均值)在绿色实线(中位数)右侧
主峰值集中在12-20万区间
右侧长尾延伸至70万以上

3.2 关键影响因素分析

用箱线图分析不同类别特征对房价的影响：

sns.boxplot(x='OverallQual', y='SalePrice', data=df)

房屋总体质量(1-10评分)与房价呈明显正相关
但质量评分为10的房屋价格波动反而更大

3.3 数值特征相关性

计算皮尔逊相关系数并绘制热力图：

corr_matrix = df.select_dtypes(include=['int64','float64']).corr() sns.heatmap(corr_matrix[['SalePrice']].sort_values('SalePrice', ascending=False), annot=True)

关键发现：

与房价最相关的三个特征：
1. OverallQual (0.79)
2. GrLivArea (0.71)
3. GarageCars (0.64)
地下室相关特征呈现弱负相关，可能反映老旧房屋价值规律

4. 数据质量问题处理实录

4.1 缺失值排查

按列统计缺失比例并排序：

missing = df.isnull().sum()/len(df)*100 missing[missing > 0].sort_values(ascending=False)

PoolQC (99.5%缺失)：多数房屋无游泳池
MiscFeature (96%缺失)：特殊设施非常少见
Alley (93%缺失)：多数房屋无小巷通道

处理策略：

高缺失率特征直接删除
低缺失率数值列用中位数填充
类别型缺失作为独立类别"None"

4.2 异常值检测

通过散点图发现离群点：

sns.scatterplot(x='GrLivArea', y='SalePrice', data=df)

右下角两处异常：超大面积(>4000平方英尺)但超低价(<20万)
经查为农业用地上的房屋，应从住宅分析中剔除

4.3 特征工程尝试

对右偏变量进行对数变换：

df['LogPrice'] = np.log1p(df['SalePrice']) sns.histplot(df['LogPrice'], kde=True)

变换后偏度从1.88降至0.12
更符合统计模型的正态分布假设

5. 分析报告撰写技巧

5.1 统计摘要表制作

用pandas的describe()生成专业报告：

price_stats = df['SalePrice'].describe(percentiles=[.01, .05, .25, .5, .75, .95, .99]) price_stats.to_frame().T.style.format("{:.2f}")

输出示例：

count	mean	std	min	1%	5%	25%	50%	75%	95%	99%	max
1460	180921.20	79442.50	34900	86500	108000	129975	163000	214000	326100	478000	755000

5.2 动态交互可视化

使用plotly创建可探索的图表：

import plotly.express as px fig = px.scatter(df, x='YearBuilt', y='SalePrice', color='Neighborhood', hover_data=['GrLivArea','BedroomAbvGr']) fig.show()