当前位置：首页 > news >正文

用Python从零搭建房价预测模型：手把手教你处理sklearn数据集

news 2026/7/3 6:58:13

用Python从零搭建房价预测模型：手把手教你处理sklearn数据集

房价预测一直是机器学习领域最经典的入门案例之一。对于刚接触Python数据分析的新手来说，如何从原始数据一步步构建预测模型，往往是最令人困惑的环节。本文将带你完整走一遍数据处理、特征分析和模型构建的全流程，使用sklearn内置的波士顿房价数据集，通过代码实操演示每个关键步骤。

1. 数据准备与环境搭建

在开始建模之前，我们需要先准备好Python环境和必要的数据分析工具包。推荐使用Anaconda创建独立的Python 3.8+环境，这样可以避免包版本冲突的问题。

首先安装核心依赖库：

pip install numpy pandas matplotlib seaborn scikit-learn jupyter

接下来在Jupyter Notebook中导入我们将要用到的所有模块：

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score # 设置绘图样式 plt.style.use('seaborn') %matplotlib inline

加载sklearn内置的波士顿房价数据集：

boston = load_boston() print(boston.DESCR) # 查看数据集描述

这个数据集包含506个样本，每个样本有13个特征变量和1个目标变量（房价中位数）。特征包括犯罪率、房间数、师生比等各种可能影响房价的因素。

2. 数据探索与初步分析

将数据转换为更易处理的DataFrame格式：

df = pd.DataFrame(boston.data, columns=boston.feature_names) df['MEDV'] = boston.target # 添加目标列 print(df.head())

检查数据的基本情况：

df.info() # 查看数据类型和缺失值 df.describe().T # 统计描述

关键观察点：

所有特征都是数值型，没有缺失值
各特征的量纲差异较大（如CRIM范围0-89，CHAS只有0/1）
目标变量MEDV（房价中位数）范围5-50（千美元）

绘制各特征的分布直方图：

df.hist(figsize=(12,10), bins=30) plt.tight_layout()

3. 特征工程与数据预处理

3.1 特征相关性分析

计算特征与目标变量的相关系数：

corr_matrix = df.corr() plt.figure(figsize=(12,8)) sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm') plt.title('特征相关性热力图')

重点关注与MEDV相关性强的特征：

RM（房间数）：0.7（强正相关）
LSTAT（低收入人群比例）：-0.74（强负相关）
PTRATIO（师生比）：-0.51（中等负相关）

3.2 特征选择与可视化

选取关键特征绘制散点图：

sns.pairplot(df[['RM', 'LSTAT', 'PTRATIO', 'MEDV']]) plt.show()

从散点图中可以直观看到：

RM与MEDV呈现明显的线性正相关
LSTAT与MEDV呈现非线性负相关
某些特征组合可能存在多重共线性

3.3 数据标准化

由于各特征量纲差异大，建议进行标准化处理：

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(df.drop('MEDV', axis=1)) y = df['MEDV'].values

4. 构建线性回归模型

4.1 数据集划分

将数据分为训练集和测试集：

X_train, X_test, y_train, y_test = train_test_split( X_scaled, y, test_size=0.2, random_state=42)

4.2 模型训练与评估

创建并训练线性回归模型：

lr = LinearRegression() lr.fit(X_train, y_train) # 在测试集上评估 y_pred = lr.predict(X_test) # 计算指标 mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(f"均方误差(MSE): {mse:.2f}") print(f"R平方值(R2): {r2:.2f}")

4.3 结果可视化

绘制真实值与预测值的对比图：

plt.figure(figsize=(10,6)) plt.scatter(y_test, y_pred, alpha=0.7) plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) plt.xlabel('真实房价') plt.ylabel('预测房价') plt.title('真实值 vs 预测值') plt.grid(True)

分析回归系数：

coef_df = pd.DataFrame({ '特征': boston.feature_names, '系数': lr.coef_ }).sort_values('系数', ascending=False) print(coef_df)

5. 模型优化与改进

5.1 尝试其他回归算法

比较不同算法的表现：

算法	MSE	R2	训练时间
线性回归	24.3	0.67	0.01s
决策树	18.7	0.75	0.02s
随机森林	12.5	0.83	0.15s
梯度提升	10.2	0.86	0.3s

实现梯度提升回归示例：

from sklearn.ensemble import GradientBoostingRegressor gbr = GradientBoostingRegressor(n_estimators=100, random_state=42) gbr.fit(X_train, y_train) y_pred_gbr = gbr.predict(X_test) print(f"GBR MSE: {mean_squared_error(y_test, y_pred_gbr):.2f}") print(f"GBR R2: {r2_score(y_test, y_pred_gbr):.2f}")

5.2 特征工程进阶

尝试多项式特征扩展：

from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import make_pipeline poly_model = make_pipeline( PolynomialFeatures(degree=2, include_bias=False), LinearRegression() ) poly_model.fit(X_train, y_train) y_pred_poly = poly_model.predict(X_test)

5.3 超参数调优

使用网格搜索优化随机森林参数：

from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import GridSearchCV param_grid = { 'n_estimators': [50, 100, 200], 'max_depth': [None, 5, 10], 'min_samples_split': [2, 5] } rf = RandomForestRegressor(random_state=42) grid_search = GridSearchCV(rf, param_grid, cv=5, scoring='neg_mean_squared_error') grid_search.fit(X_train, y_train) print("最佳参数:", grid_search.best_params_) best_rf = grid_search.best_estimator_

6. 模型部署与应用

将训练好的模型保存以便后续使用：

import joblib joblib.dump(best_rf, 'boston_housing_model.pkl') # 加载模型 loaded_model = joblib.load('boston_housing_model.pkl')

创建预测函数示例：

def predict_house_price(features): """ 输入: 标准化后的特征数组(13维) 输出: 预测的房价(千美元) """ model = joblib.load('boston_housing_model.pkl') return model.predict([features])[0]

在实际项目中，你还可以：