当前位置：首页 > news >正文

学习记录：机器学习入门案例——波士顿房价预测（三）-波士顿房价预测与加州房价预测对比

news 2026/5/29 2:05:16

2026年4月7日

波士顿房价预测与加州房价预测都已经运行成功，不禁疑惑，二者都是线性回归模型，有什么区别呢。

一、核心共同点：骨架完全相同

从代码层面看，这两个例子本质上执行的是同一套工作流程，这也是任何机器学习项目的基础流程：

步骤	具体操作	波士顿房价	加州房价
1. 加载数据	从CSV文件读取数据	✅`pd.read_csv()`	✅`pd.read_csv()`
2. 数据探索	查看基本信息、统计描述、缺失值	✅ 详细（形状、列名、缺失值逐列）	⚠️ 简化版
3. 处理缺失值	填充或删除缺失数据	✅中位数填充	❌缺失！未处理
4.特征标准化	StandardScaler：均值=0，标准差=1	✅ 完整实现	✅ 完整实现
5. 划分数据集	训练集/测试集分割	✅ test_size=0.2, random_state=42	✅ test_size=0.2, random_state=42
6. 训练模型	LinearRegression().fit()	✅	✅
7. 预测	model.predict()	✅	✅
8. 评估模型	MSE、R²、SSE等指标	✅ 完整（含RMSE）	✅ 基础版
9. 可视化分析	散点图、残差图、热力图	✅有残差图	⚠️ 无残差图

二、关键不同点：细节里的差异

2.1 数据来源和背景不同

对比项	波士顿房价	加州房价
数据年代	1978年	1990年
样本数量	506条	20640条
特征数量	13个（加上目标共14列）	8个（加上目标共9列）
目标变量	MEDV（千美元）	medianHouseValue（美元）
当前状态	sklearn 1.2+已移除	仍在使用，是官方推荐的替代数据集

2.2 数据预处理差异

这是初学者最容易忽略但非常重要的区别：

处理步骤	波士顿代码	加州代码
缺失值检查	✅ 检查并显示每列缺失数	❌ 只检查总数，没逐列显示
缺失值处理	✅用中位数填充	❌完全没有处理！

加州代码的"坑"：

python

print("检查缺失值") print(data.isnull().sum()) # 只打印，不处理！

如果原始数据有缺失值（比如某些房子的"房龄"没填），加州代码会直接报错或产生错误预测。

波士顿代码的"正确做法"：

python

for column in df.columns: if df[column].isnull().any(): median_value = df[column].median() df[column].fillna(median_value, inplace=True)

注意：缺失值处理是数据清洗的必修课！实际工作中，你拿到的数据几乎总是"不干净"的，要学会像波士顿代码那样处理。

2.3 输出信息的详细程度

输出内容	波士顿代码	加州代码
数据形状	✅ 打印	❌ 没打印
数据列名	✅ 打印	❌ 没打印
缺失值详情	✅ 逐列显示	⚠️ 只显示总数
特征系数	✅ 循环打印所有特征	❌ 手动一个个写死
回归方程式	✅ 动态构建	⚠️ 手动拼接（易错）
特征重要性排序	✅ 按绝对值排序	❌ 没有

波士顿代码更"专业"的例子：

python

# 动态构建回归方程（优雅、可扩展） equation = f"回归方程式: y = {intercept:.4f}" for name, coef in zip(feature_names, model.coef_): equation += f" + ({coef:.4f} * {name})"

加州代码的"硬编码"问题：

python

# 手动写死8个特征（如果特征数量变化，代码就要改） slope0 = model.coef_[0] slope1 = model.coef_[1] # ... 一共8行 print(f'y={slope0}*x0 + {slope1}*x1 ...')

对初学者的启示：波士顿代码的写法更"专业"——尽量用循环和动态拼接，而不是硬编码。这样当数据变化时（比如换成有20个特征的数据集），代码不需要重写。

2.4 可视化分析深度

可视化	波士顿代码	加州代码
目标变量分布图	✅ 带KDE的直方图	✅ 带KDE的直方图
相关性热力图	✅ 带相关系数标注	✅ 热力图
实际vs预测散点图	✅有理想预测参考线	✅ 有参考线
残差图	✅有！检验模型假设	❌ 没有