当前位置：首页 > news >正文

泰迪杯B题实战：用LightGBM搞定产品需求预测的5个关键步骤

news 2026/8/1 14:58:41

泰迪杯B题实战：用LightGBM搞定产品需求预测的5个关键步骤

在数据科学竞赛中，产品需求预测一直是热门赛题类型。无论是泰迪杯、Kaggle还是企业级数据挑战，需求预测问题都考验着参赛者对业务的理解、数据的处理以及模型的选择能力。本文将从一个实战者的视角，分享如何用LightGBM这类高效算法，在有限时间内构建出具备竞争力的预测模型。

1. 数据预处理：从原始数据到建模样本

数据预处理是任何机器学习项目的基石。在泰迪杯这类比赛中，组织方提供的数据往往包含大量噪声和缺失值。以产品订单数据为例，我们通常会遇到以下几种典型问题：

缺失值处理：某些商品的销售记录存在间断，特别是新品上市初期
异常值检测：促销活动导致的销量激增，或是数据录入错误
数据格式统一：日期格式、分类变量的编码方式需要标准化

针对异常值，我们开发了一套动态阈值检测方法：

def detect_outliers(series, threshold=3): z_scores = (series - series.mean()) / series.std() return abs(z_scores) > threshold

提示：对于检测出的异常值，建议先分析业务背景再决定处理方式。促销期间的销量激增虽然是统计上的异常，但属于合理业务现象。

我们还将原始交易数据按商品ID、区域和月份进行聚合，构建了结构化数据集。这个过程中，一个常见陷阱是错误的时间颗粒度选择。太细的颗粒度（如按天）会导致数据稀疏，太粗的颗粒度（如按季度）又会丢失重要模式。

2. 特征工程：构建预测能力的核心

特征工程往往决定了模型性能的上限。在需求预测问题中，有效的特征可以归为以下几类：

特征类型	示例	构建方法
滞后特征	过去3个月的销量	shift操作
滚动统计	季度平均销量	rolling窗口计算
时间特征	月份、周数、节假日	日期提取
商品属性	价格区间、类别	原始数据提取
交叉特征	类别×区域的销量趋势	分组聚合

构建滞后特征时，需要特别注意避免数据泄露。正确的做法是：

# 正确的滞后特征构建方式 df['lag_1'] = df.groupby('product_id')['sales'].shift(1) # 错误的方式（会导致数据泄露） df['lag_1_wrong'] = df['sales'].shift(1)

我们在实践中发现，商品分层策略能显著提升预测精度。将商品分为新品、流星品、睡眠品和常规品后，可以为不同类型商品设计差异化特征：

新品：侧重同类商品的历史表现
常规品：利用自身完整历史数据
流星品：捕捉短期爆发模式
睡眠品：识别突然下降的预警信号

3. LightGBM模型调优实战

LightGBM因其训练速度快、内存占用低的特点，成为时间序列预测的首选算法。在泰迪杯B题中，我们通过以下步骤实现了模型优化：

3.1 参数搜索策略

采用贝叶斯优化进行超参数调优，核心参数包括：

params = { 'boosting_type': 'gbdt', 'objective': 'regression', 'metric': 'rmse', 'num_leaves': 31, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'verbose': 0 }

注意：比赛初期不必过早进行精细调参，应先确保特征工程和流程的正确性。

3.2 评价指标选择

需求预测问题中，简单的RMSE可能无法反映业务实质。我们对比了三种指标方案：

原始RMSE：平等对待所有商品误差
对数RMSE：减小高销量商品的主导
Tweedie损失：更好处理零膨胀分布

最终选择了Tweedie损失，因其能同时处理以下情况：

普通商品的常规波动
高价商品的精确预测需求
新品上市初期的零销量

4. 模型融合与进阶技巧

单一模型再优秀，也可能存在系统性偏差。我们尝试了三种融合策略：

加权平均：LightGBM + XGBoost + CatBoost
堆叠集成：用初级模型的预测作为新特征
时序交叉验证：按时间顺序划分训练/验证集

其中，时序交叉验证的实现尤为关键：

from sklearn.model_selection import TimeSeriesSplit tss = TimeSeriesSplit(n_splits=5) for train_idx, test_idx in tss.split(X): X_train, X_test = X.iloc[train_idx], X.iloc[test_idx] y_train, y_test = y.iloc[train_idx], y.iloc[test_idx] # 训练和评估模型

针对预测集中新品较多的情况，我们单独训练了新品专项模型，其特征工程侧重：