当前位置：首页 > news >正文

从数据清洗到模型融合：手把手教你用Python搞定阿里天池二手车价格预测（附完整代码）

news 2026/7/16 2:12:37

从数据清洗到模型融合：Python实战阿里天池二手车价格预测全流程解析

二手车交易市场近年来持续升温，如何准确评估车辆价格成为买卖双方共同关注的焦点。阿里天池竞赛平台提供的二手车交易价格预测项目，为数据科学爱好者提供了一个绝佳的实战机会。本文将手把手带你完成从数据探索到模型融合的全流程，不仅提供可运行的完整代码，还会分享实际项目中容易踩坑的细节。

1. 环境准备与数据初探

工欲善其事，必先利其器。在开始项目前，我们需要配置合适的开发环境。推荐使用Anaconda创建独立的Python环境，避免包版本冲突：

conda create -n used_car python=3.8 conda activate used_car pip install pandas numpy matplotlib seaborn scikit-learn xgboost lightgbm

数据集包含训练集(used_car_train_20200313.csv)和测试集(used_car_testB_20200421.csv)，首先我们加载数据并初步观察：

import pandas as pd import numpy as np train_df = pd.read_csv('used_car_train_20200313.csv', sep=' ') test_df = pd.read_csv('used_car_testB_20200421.csv', sep=' ') print(f"训练集形状: {train_df.shape}, 测试集形状: {test_df.shape}") print("训练集列名:", train_df.columns.tolist())

关键发现：

训练集包含15万条记录，31个特征
测试集包含5万条记录，缺少价格字段(price)
主要特征包括：车辆品牌(brand)、车型(model)、注册日期(regDate)、上架日期(creatDate)等

注意：探索性分析(EDA)只能使用训练集数据，避免数据窥探偏误(data leakage)，这是竞赛中常见的错误。

2. 深度数据清洗与特征工程

高质量的特征工程往往比模型选择更能提升预测性能。我们需要系统性地处理以下问题：

2.1 缺失值分析与处理

首先检查各特征的缺失情况：

missing_values = train_df.isnull().sum().sort_values(ascending=False) missing_values = missing_values[missing_values > 0] print("缺失值统计:\n", missing_values)

常见处理方法对比：

特征类型	缺失比例	处理方法	理由
model	20%	保留为单独类别	车型信息重要
bodyType	15%	众数填充	车身类型有限
fuelType	10%	众数填充	燃料类型有限
gearbox	8%	模型预测填充	变速箱影响价格

2.2 类别特征编码技巧

对于品牌、车型等类别特征，常规的one-hot编码会导致维度爆炸。我们采用以下优化策略：

# 高频类别保留，低频合并为'其他' def reduce_categories(series, threshold=0.01): counts = series.value_counts(normalize=True) mask = counts < threshold return series.where(~series.isin(counts[mask].index), '其他') train_df['brand'] = reduce_categories(train_df['brand'])

2.3 时间特征构造

从注册日期(regDate)和上架日期(creatDate)可以衍生出有价值的时间特征：

def create_time_features(df): df['regDate'] = pd.to_datetime(df['regDate'], format='%Y%m%d', errors='coerce') df['creatDate'] = pd.to_datetime(df['creatDate'], format='%Y%m%d', errors='coerce') df['car_age'] = (df['creatDate'] - df['regDate']).dt.days / 365 df['days_on_market'] = (df['creatDate'].max() - df['creatDate']).dt.days return df train_df = create_time_features(train_df)

3. 模型构建与优化策略

经过特征工程后，我们进入模型构建阶段。针对二手车价格预测这类回归问题，树模型通常表现优异。

3.1 基准模型建立

首先建立简单的线性回归基准：

from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_absolute_error lr = LinearRegression() lr.fit(X_train, y_train) y_pred = lr.predict(X_val) print(f"线性回归MAE: {mean_absolute_error(y_val, y_pred):.2f}")

3.2 集成模型对比

我们对比三种主流集成方法的表现：

模型	优点	缺点	适用场景
RandomForest	抗过拟合	训练慢	中小规模数据
XGBoost	精度高	调参复杂	各类规模数据
LightGBM	训练快	对噪声敏感	大规模数据

LightGBM实现示例：

import lightgbm as lgb params = { 'boosting_type': 'gbdt', 'objective': 'regression', 'metric': 'mae', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9 } train_data = lgb.Dataset(X_train, label=y_train) model = lgb.train(params, train_data, num_boost_round=1000)

3.3 超参数优化实战

使用Optuna进行自动化超参数搜索：

import optuna def objective(trial): params = { 'num_leaves': trial.suggest_int('num_leaves', 20, 100), 'max_depth': trial.suggest_int('max_depth', 3, 15), 'learning_rate': trial.suggest_loguniform('learning_rate', 0.01, 0.3), 'min_child_samples': trial.suggest_int('min_child_samples', 10, 100) } model = lgb.LGBMRegressor(**params) scores = cross_val_score(model, X_train, y_train, scoring='neg_mean_absolute_error', cv=5) return -np.mean(scores) study = optuna.create_study(direction='minimize') study.optimize(objective, n_trials=50)

4. 模型融合与结果提升

单一模型往往难以达到最佳效果，我们采用加权融合策略：

# 定义各基模型 models = { 'lgb': lgb.LGBMRegressor(**best_params), 'xgb': xgb.XGBRegressor(max_depth=6, learning_rate=0.1), 'rf': RandomForestRegressor(n_estimators=100) } # 训练并评估各模型 val_preds = [] for name, model in models.items(): model.fit(X_train, y_train) pred = model.predict(X_val) mae = mean_absolute_error(y_val, pred) val_preds.append(pred) print(f"{name} MAE: {mae:.2f}") # 动态权重计算 errors = [mean_absolute_error(y_val, p) for p in val_preds] weights = np.array([1/e for e in errors]) weights /= weights.sum() # 加权融合预测 ensemble_pred = np.zeros_like(val_preds[0]) for i in range(len(models)): ensemble_pred += weights[i] * val_preds[i] print(f"融合后MAE: {mean_absolute_error(y_val, ensemble_pred):.2f}")

实际项目中，这种融合方式通常能比单一模型提升3-5%的准确率。

查看全文

http://www.jsqmd.com/news/889883/