当前位置：首页 > news >正文

电影票房预测：5种回归模型Stacking融合实战，RMSE降低至0.2934

news 2026/7/6 0:52:20

电影票房预测：5种回归模型Stacking融合实战，RMSE降低至0.2934

电影票房预测一直是数据科学在娱乐产业中的重要应用场景。随着机器学习技术的快速发展，如何通过模型融合技术提升预测精度成为业界关注的焦点。本文将深入探讨Stacking集成方法在票房预测中的实战应用，通过5种基础回归模型的有机组合，最终将RMSE指标优化至0.2934，为从业者提供一套可复现的技术方案。

1. 数据准备与特征工程

电影票房预测的质量首先取决于数据的完整性和特征的代表性。我们从公开数据源获取了包含电影类型、上映档期、导演、演员等核心特征的原始数据集，共计7398条记录。这些数据经过严格的清洗和转换过程，确保模型训练的可靠性。

关键特征处理技术包括：

文本特征向量化：将电影名称、发行公司等文本信息转换为数值特征

# 电影名称长度特征 movie_df['movie_name_len'] = movie_df['Movie_Name'].map(len) del movie_df['Movie_Name'] # 发行公司名称长度特征 movie_df['Domestic_Distributor'] = movie_df['Domestic_Distributor'].map(len)

分类变量编码：对MPAA评级等类别特征进行独热编码

# MPAA评级编码 tmp = pd.get_dummies(movie_df['MPAA'], prefix='MPAA') del movie_df['MPAA'] movie_df = pd.concat([movie_df, tmp], axis=1)

时间特征分解：将上映日期拆分为月、日等周期性特征

# 上映日期特征工程 movie_df['Earliest_Release_Date'] = pd.to_datetime(movie_df['Earliest_Release_Date']) movie_df['Earliest_Release_Month'] = movie_df['Earliest_Release_Date'].dt.month movie_df['Earliest_Release_Day'] = movie_df['Earliest_Release_Date'].dt.day del movie_df['Earliest_Release_Date']

标签转换：对票房收入进行log1p转换，使其更符合正态分布

# 标签转换 movie_df['Movie_Income'] = np.log1p(movie_df['Movie_Income'])

2. 基础模型构建与评估

我们选择了5种具有代表性的回归模型作为Stacking的第一层基学习器，每种模型都采用K折交叉验证进行训练和评估，确保结果的可靠性。

2.1 多元线性回归模型

作为基准模型，线性回归提供了对数据线性关系的初步理解。我们使用scikit-learn的LinearRegression实现，并采用5折交叉验证：

from sklearn.linear_model import LinearRegression from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=True, random_state=42) pred_train_full_lr = np.zeros(train_all_x.shape[0]) pred_test_full_lr = 0 cv_scores = [] for i, (train_index, val_index) in enumerate(kf.split(train_all_x, train_all_y)): train_x, val_x = train_all_x.iloc[train_index, :], train_all_x.iloc[val_index, :] train_y, val_y = train_all_y[train_index], train_all_y[val_index] model = LinearRegression() model.fit(train_x, train_y) predict_valid = model.predict(val_x) valid_rmse = rmse(predict_valid, val_y) cv_scores.append(valid_rmse) pred_train_full_lr[val_index] = predict_valid pred_test_full_lr += model.predict(test_x) pred_test_full_lr /= 5 mean_cv_scores = np.mean(cv_scores)

线性回归模型的平均交叉验证RMSE为0.328，测试集RMSE为0.320，作为基准表现尚可，但仍有较大优化空间。

2.2 决策树回归模型

决策树能够捕捉数据中的非线性关系，我们使用GradientBoostingRegressor实现：

from sklearn.ensemble import GradientBoostingRegressor model = GradientBoostingRegressor() model.fit(train_x, train_y) predict_valid = model.predict(val_x) valid_rmse = rmse(predict_valid, val_y)

决策树模型的交叉验证RMSE降至0.285，测试集RMSE为0.306，相比线性回归有明显提升。

2.3 Ridge与Lasso回归模型

为了处理特征间的共线性问题，我们引入了Ridge和Lasso两种正则化线性模型：

from sklearn.linear_model import Ridge, Lasso # Ridge回归 ridge = Ridge(alpha=1.0) ridge.fit(train_x, train_y) # Lasso回归 lasso = Lasso(alpha=0.1) lasso.fit(train_x, train_y)

这两种模型在保持线性模型可解释性的同时，通过正则化约束提升了泛化能力。

2.4 随机森林回归模型

随机森林作为强大的集成方法，能够自动处理非线性关系和特征交互：

from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(n_estimators=100, random_state=42) rf.fit(train_x, train_y)

随机森林表现出色，交叉验证RMSE达到0.279，成为表现最佳的单一模型。

3. Stacking模型融合技术

Stacking是一种高级集成技术，通过将多个基学习器的预测结果作为新特征输入元学习器，能够充分利用不同模型的优势。我们的Stacking架构分为两层：

3.1 第一层：基学习器预测

将5种基学习器的预测结果进行拼接，形成新的特征矩阵：

# 维度变换 pred_train_full_lr = np.reshape(pred_train_full_lr, (pred_train_full_lr.shape[0], 1)) pred_train_full_gbr = np.reshape(pred_train_full_gbr, (pred_train_full_gbr.shape[0], 1)) pred_train_full_ridge = np.reshape(pred_train_full_ridge, (pred_train_full_ridge.shape[0], 1)) pred_train_full_lasso = np.reshape(pred_train_full_lasso, (pred_train_full_lasso.shape[0], 1)) pred_train_full_rf = np.reshape(pred_train_full_rf, (pred_train_full_rf.shape[0], 1)) # 特征拼接 oof_train_x = np.concatenate([ pred_train_full_lr, pred_train_full_gbr, pred_train_full_ridge, pred_train_full_lasso, pred_train_full_rf ], axis=1)

3.2 第二层：元学习器训练

使用随机森林作为元学习器，对第一层的预测结果进行融合：

model = RandomForestRegressor(n_estimators=100, random_state=42, verbose=1, min_samples_split=2, max_depth=32) model.fit(oof_train_x, train_all_y) # 测试集预测 predict_test = model.predict(oof_test_x) test_rmse = rmse(predict_test, test_y) print('Final Test RMSE:', test_rmse)

经过Stacking融合后，最终测试集RMSE降至0.2934，相比最佳单一模型（随机森林的0.306）提升了约4.1%。