当前位置：首页 > news >正文

天猫用户复购预测完整可运行项目：含预训练LightGBM模型、特征重要性图与一键预测脚本

news 2026/6/17 16:50:30

本文还有配套的精品资源，点击获取

简介：一套开箱即用的天猫用户复购行为预测实战资源，基于天池学习赛真实数据构建，覆盖从原始数据加载、特征工程（user_log_format1.csv/user_info_format1.csv等）、模型训练到结果提交全流程。提供带详细中文注释的dataset.py、train.py和test.py脚本，Python 3.7+环境下安装requirements.txt依赖后即可运行。内置已训练好的LightGBM模型文件（model_20201209_104143.model），跳过耗时训练直接调用predict接口生成提交文件（如ans_20201209_104933.csv）。附带可视化输出：feature_importance.png直观展示各特征对复购预测的贡献度；time_left.tsv和learn_error.tsv辅助训练过程分析；catboost_info目录为对比实验保留。data目录结构清晰区分原始数据与处理后样本，和model目录分别存放预测结果与模型快照，README.md说明每步操作及常见问题。适合课程设计、机器学习入门实践或快速验证复购建模思路。

1. 项目概述：这不是一个“玩具模型”，而是一套能直接交作业、跑通天池赛题的实战闭环

你有没有遇到过这种情况：老师布置了一个“用户复购预测”的机器学习大作业，你翻遍B站、知乎、CSDN，看到的全是“手撕逻辑回归”“用sklearn跑个demo”“画个混淆矩阵就收工”的教程？代码跑得通，但数据是人造的，特征是凑的，模型是调参调出来的，最后提交文件格式都不对——更别说复现天池学习赛的真实分数了。我带过三届本科生课程设计，每年都有至少12个同学卡在“怎么把模型输出变成ans_xxx.csv”这一步，不是列名写错，就是user_id顺序乱了，或者predict_proba没取正类概率……结果明明模型AUC有0.85，提交后线上得分只有0.62。

这个项目，就是为解决这些“真实卡点”而生的。它不是教学演示，而是从阿里天池学习赛真实赛题（编号TianChi-2020-Recall）完整复刻下来的可运行工程。核心目标非常明确：给定天猫平台脱敏后的用户行为日志（user_log_format1.csv）、用户基础画像（user_info_format1.csv）、历史购买记录（train_format1.csv），预测未来7天内哪些用户会再次下单（二分类任务）。整个流程不绕弯、不抽象、不缺环节——从原始CSV加载开始，到最终生成符合天池格式的提交文件结束，每一步都经过实测验证，且所有关键函数都带中文注释，连dataset.py里读取log文件时为什么要用chunksize=50000都写了原因：“避免内存溢出，因user_log_format1.csv超300万行”。

它真正做到了“开箱即用”四个字的全部含义：你不需要懂LightGBM的直方图算法原理，也能双击test.py直接出结果；你不需要手动构造时间窗口特征，dataset.py里build_user_features()函数已封装好滑动7天/30天/90天的统计逻辑；你甚至不需要装XGBoost或CatBoost——项目默认使用LightGBM，不仅因为其在该赛题上公开排行榜Top 5中占了3席，更因为它对稀疏行为日志的拟合稳定性远高于XGBoost（后面会细说为什么）。那个model_20201209_104143.model不是随便命名的，它是我在2020年12月9日用完整训练集+5折交叉验证训出来的最优快照，本地验证AUC 0.872，线上提交得分0.869（天池学习赛满分0.90），完全满足课程设计“高分复现”的硬性要求。更重要的是，它附带的feature_importance.png不是一张摆设图——图中排前三的特征是“近30天加购次数”“近7天浏览品类数”“用户等级”，这和天猫运营同学实际反馈的复购驱动因子高度一致，说明模型学到了业务逻辑，而不是死记硬背噪声。如果你是零基础学生，按README.md一步步走，2小时内就能跑通全流程；如果你已有基础，这个项目就是你的“校准器”——用它的特征工程方式、模型结构、评估逻辑，去反推自己方案的偏差在哪。它不教你“什么是过拟合”，但它会让你亲眼看到learn_error.tsv里训练集loss持续下降而验证集loss突然抬头的那一刻，从而真正理解什么叫“早停”。

2. 整体架构与设计思路：为什么选LightGBM？为什么特征工程比模型更重要？

2.1 为什么放弃XGBoost和深度学习，坚定选择LightGBM？

在最初搭建这个项目时，我也试过XGBoost和一个简单的两层DNN。XGBoost在小样本上表现不错，但一上全量数据（train_format1.csv + user_log_format1.csv 合并后特征维度超200维，样本量120万+），训练时间直接飙升到47分钟（i7-9750H），而且内存占用峰值达11GB，很多同学的笔记本根本跑不动。DNN更不用说，光是embedding层初始化就让train.py卡在model.compile()阶段，更别提调参了——学习率设高了梯度爆炸，设低了收敛太慢，batch_size调来调去，最后AUC还比LightGBM低0.015。

LightGBM胜出的关键，在于它对用户行为日志这类极度稀疏、高基数类别型特征的原生友好。举个具体例子：user_log_format1.csv里有个字段叫item_id，全量有280万个不同值，传统one-hot编码会炸出280万列，XGBoost必须靠max_cat_to_onehot硬砍，但会损失大量区分度；而LightGBM的categorical_feature参数可以直接告诉模型“这是类别型变量”，内部用基于直方图的决策树分裂策略，自动处理高基数ID，既保留信息又不膨胀维度。实测下来，同样用item_id、cat_id、brand_id做特征，LightGBM训练耗时仅12分钟，内存峰值6.2GB，AUC反而高出0.008。这不是玄学，是算法底层设计决定的：XGBoost按特征值排序找最优切分点，面对百万级ID要排序百万次；LightGBM按直方图bin聚合，只排几十个bin，计算量降了两个数量级。

还有一个常被忽略的点：可解释性落地。课程设计答辩时，老师一定会问“你模型凭什么认为这个用户会复购？”——如果你答“神经网络黑盒输出”，基本等于放弃加分项。而LightGBM的feature_importance_属性，配合plot_importance()，能直接导出feature_importance.png，图中每个条形长度代表该特征在所有树中被用作分裂点的总次数。我们项目里这张图之所以可信，是因为它和业务常识强对齐：排第一的“近30天加购次数”权重最高，因为加购是复购最前置、最确定的行为信号；排第二的“近7天浏览品类数”次之，说明用户兴趣广度影响复购意愿；而“用户注册年限”只排第17位，印证了天猫真实情况——新客通过红包、首单补贴快速转化，老客反而可能流失。这种可解释性，不是PPT里的漂亮图表，而是嵌入在train.py第89行的lgb.plot_importance(bst, figsize=(12,8), max_num_features=20)，你运行一次就能拿到。

2.2 特征工程：为什么说80%的工作量在这里，而不是模型调参？

很多人以为机器学习=调参，尤其看到train.py里那几行params = {...}就以为重点在num_leaves或learning_rate。错了。在这个项目里，真正的技术含量，90%藏在dataset.py里。我给你拆解一个最典型的特征：“用户最近一次行为距今小时数”。表面看很简单，max(log_time) - now就行。但实际呢？user_log_format1.csv里的时间字段是time_stamp，单位是秒，且是13位时间戳（毫秒级），直接减会溢出；更麻烦的是，同一个用户一天内可能有上百条日志，max()取的是最后一条，但如果最后一条是凌晨3点的无效爬虫请求呢？所以dataset.py里get_last_active_hour()函数做了三重过滤：先转成datetime对象，再剔除time_stamp < 1577836800（2020年1月1日）的脏数据，最后按user_id分组后，对time_stamp取quantile(0.95)而非max()——用95分位数规避异常峰值。这一行代码，就让该特征的IV值（信息价值）从0.12提升到0.31，直接拉升AUC 0.007。

再比如“用户活跃度衰减权重”。简单统计“近7天点击次数”是静态的，但真实业务中，昨天的点击比前天的点击重要，前天的比大前天的重要。dataset.py里build_decay_features()函数实现了指数衰减：weight = np.exp(-(now - log_time).dt.total_seconds() / (24*3600*3))，分母的3代表半衰期3天——意思是3天前的行为影响力只剩一半。这个设计灵感来自天猫推荐系统的公开论文，实测让模型对“突发性活跃用户”（比如领了优惠券猛逛半天）的识别准确率提升23%。

还有个容易被忽视的细节：负样本采样策略。原始train_format1.csv里正样本（复购）只占6.3%，直接训练会导致模型严重偏向负样本。dataset.py的sample_negative()函数没用简单的随机下采样，而是按user_id分层：先保证每个正样本用户都保留，再从负样本中按“用户历史购买频次”分桶，高频用户桶多采些，低频桶少采些，确保采样后负样本的分布仍贴近真实场景。这样训出来的模型，在test_format1.csv上的F1-score比随机采样高0.041，这才是工业级做法。

提示：不要跳过dataset.py的阅读。里面每个函数名都对应一个业务问题，比如get_user_purchase_interval()算的是用户两次购买的平均间隔（单位：天），这个值小于7的用户，复购概率天然就高——模型学到这个规律，比任何调参都管用。

3. 核心模块详解与实操要点：从数据加载到一键预测的每一步

3.1 数据准备与目录结构：为什么`data/`目录要分三层？

项目根目录下的data/不是随便建的，它严格遵循Kaggle/天池竞赛的通用规范，分为三层：

data/raw/：存放原始下载文件，如user_log_format1.csv、train_format1.csv等。这些文件绝对禁止修改，哪怕只是删个空行。为什么？因为dataset.py里所有路径都是硬编码os.path.join('data', 'raw', 'xxx.csv')，改了路径脚本直接报错；更重要的是，原始文件是赛题基准，你后续发现结果异常，必须能回溯到原始输入是否被污染。
data/processed/：存放dataset.py处理后的中间文件，如train_sampled.csv（采样后的训练集）、test_with_features.csv（测试集+所有特征）。这里的关键是processed目录下的文件必须带时间戳，比如train_sampled_20201209.csv。我吃过亏：某次调试时覆盖了旧文件，结果train.py读到的是未加衰减权重的版本，AUC掉了0.012，排查了3小时才发现是文件名冲突。
data/final/：存放最终喂给模型的数据，即X_train.npy、y_train.npy、X_test.npy。用numpy二进制格式（.npy）而非CSV，原因很实在：train.py加载120万样本的CSV要23秒，加载.npy只要1.8秒，且内存占用降低40%。dataset.py第215行np.save(os.path.join('data', 'final', 'X_train.npy'), X_train)就是干这个的。

你可能会问：为什么不用数据库？因为课程设计场景下，SQLite或MySQL安装配置又是一道门槛，而.npy文件双击就能用文本编辑器打开前几行看结构，对新手极其友好。generate_sample_data.py的作用，就是帮你快速生成一个迷你版数据集（各文件取前1000行），用于验证环境是否配好——运行它，5秒内就能看到data/final/X_train.npy生成成功，比等全量数据加载快10倍。

3.2 模型训练：`train.py`里藏着哪些不写在注释里的技巧？

train.py表面看就是标准的LightGBM训练流程：加载数据→设置参数→lgb.train()→保存模型。但第67行callbacks=[lgb.early_stopping(stopping_rounds=50, verbose=True)]背后，有三个必须知道的细节：

第一，stopping_rounds=50不是拍脑袋定的。我用learn_error.tsv（训练过程日志）做了实证：在验证集loss开始上升前，通常会有连续32~47轮平稳期，设50是留足安全余量。如果设太小（如20），模型可能在最优解前就停了；设太大（如100），又浪费算力。这个数字，是你在learn_error.tsv里用Excel画出loss曲线后，肉眼观察确定的。

第二，verbose=True输出的不只是“best iteration”，它还会打印每轮的valid_0's binary_logloss和valid_1's binary_logloss。注意，valid_0是训练集，valid_1才是验证集。很多同学只看best iteration，却忽略了valid_1的logloss在第213轮是0.321，到第263轮升到0.328——这说明213轮就是真正的拐点，早停点应设在此处。train.py里第72行print(f"Best iteration: {bst.best_iteration}")输出的就是这个数。

第三，模型保存用的是bst.save_model()而非joblib.dump()，原因在于.model文件是LightGBM原生格式，跨Python版本兼容性更好。model_20201209_104143.model这个文件，你用Python 3.7训的，换到3.9环境lgb.Booster(model_file='xxx.model')照样能加载，而joblib在3.7和3.9之间经常报UnpicklingError。

注意：train.py默认不启用GPU加速。虽然LightGBM支持device_type='gpu'，但在该赛题数据规模下，GPU版本比CPU版本慢15%——因为数据搬运到显存的IO开销，超过了CUDA计算的收益。除非你有A100显卡，否则别碰GPU参数。

3.3 一键预测：`test.py`如何保证输出100%符合天池格式？

这是整个项目最“抠细节”的部分。天池提交要求：CSV文件必须且只能有两列——user_id和predicted_score，且predicted_score必须是0~1之间的浮点数，保留6位小数，user_id顺序必须和test_format1.csv原始顺序完全一致。

test.py是怎么做到的？看第45行：test_df = pd.read_csv(os.path.join('data', 'raw', 'test_format1.csv'), usecols=['user_id'])。注意usecols=['user_id']——它只读user_id这一列，不读其他任何字段。为什么？因为test_format1.csv里其实有merchant_id等冗余列，如果用pd.read_csv('xxx.csv')全读，pandas会自动按字母序排列列，导致user_id不在第一列，后续pd.concat([test_df, pred_df], axis=1)时列对不齐。

再看第52行：pred_df = pd.DataFrame({'user_id': test_df['user_id'], 'predicted_score': y_pred_proba[:, 1]})。这里y_pred_proba[:, 1]取的是正类（复购）概率，不是y_pred（0/1预测值）。很多同学栽在这儿：用model.predict()输出0/1，提交后得分直接归零。天池要求的是概率分，不是硬分类。

最关键的是第55行：pred_df.to_csv(os.path.join('result', f'ans_{timestamp}.csv'), index=False, float_format='%.6f')。float_format='%.6f'强制保留6位小数，index=False禁用行索引——否则CSV第一列会是0,1,2...的索引号，导致天池判题系统读错。timestamp用的是datetime.now().strftime('%Y%m%d_%H%M%S')，所以你的提交文件永远是ans_20240520_143022.csv这样的格式，和赛题要求的ans_YYYYMMDD_HHMMSS.csv完全匹配。

实测下来，用这套流程生成的ans_xxx.csv，上传天池后“格式校验”通过率100%，再也不用担心因为小数位数或列顺序被扣分。

4. 实操过程与核心环节实现：手把手带你跑通全流程

4.1 环境搭建：为什么`requirements.txt`里指定了lightgbm==3.3.5？

别急着pip install -r requirements.txt。先打开requirements.txt，你会看到：

pandas==1.3.5 numpy==1.21.6 lightgbm==3.3.5 scikit-learn==1.0.2

为什么不是最新版？因为LightGBM 4.x版本重构了categorical_feature的处理逻辑，导致dataset.py里第138行lgb.Dataset(X_train, label=y_train, categorical_feature=cats)会报错ValueError: categorical_feature must be list of str or int。3.3.5是最后一个稳定支持list[int]索引方式的版本。我试过升级到4.0.0，光是修复这个错误就花了2小时改源码，最后发现不如锁版本省事。

正确操作步骤：
1. 创建虚拟环境：python -m venv tianmao_env
2. 激活环境：Windows用tianmao_env\Scripts\activate.bat，Mac/Linux用source tianmao_env/bin/activate
3. 升级pip：python -m pip install --upgrade pip
4.关键一步：先装lightgbm，因为它的编译依赖最多：pip install lightgbm==3.3.5
5. 再装其他：pip install -r requirements.txt

如果第4步报Microsoft Visual C++ 14.0 is required（Windows常见），别去下Visual Studio，直接用pip install --only-binary=all lightgbm==3.3.5，强制装预编译wheel包。

4.2 数据下载与校验：`dataset_download.txt`里的链接为什么失效了？

天池学习赛的原始数据链接确实会过期。dataset_download.txt里写的https://tianchi.aliyun.com/competition/entrance/xxx/dataDownload，现在点开是404。正确做法是：
- 打开天池官网，搜索“天猫用户复购预测学习赛”
- 进入赛题页，找到“学习赛”标签页（不是正式赛）
- 点击“数据集”，下载train_format1.csv、test_format1.csv、user_info_format1.csv、user_log_format1.csv四个文件
-校验MD5值：dataset_download.txt末尾有四个MD5，比如user_log_format1.csv对应a1b2c3d4e5f67890...。下载后，在命令行运行：
bash # Windows certutil -hashfile user_log_format1.csv MD5 # Mac/Linux md5sum user_log_format1.csv
输出的前32位必须和txt里一致。我见过三次MD5不匹配：两次是浏览器下载中断，一次是百度网盘转存时损坏。不校验，后续dataset.py读取会报pandas.errors.ParserError，卡在第10万行。

4.3 首次运行：从`generate_sample_data.py`到`test.py`的完整链路

别一上来就跑全量！按这个顺序走：
1. 运行python generate_sample_data.py：它会从原始CSV各取前1000行，生成data/processed/train_sampled_1000.csv等文件。成功标志：data/final/下出现X_train_1000.npy。
2. 运行python dataset.py：它会读取data/processed/下的采样文件，构建特征，输出data/final/X_train_1000.npy和y_train_1000.npy。成功标志：控制台打印Feature engineering completed. Shape: (1000, 187)。
3. 运行python train.py --sample：注意--sample参数，它会让train.py加载采样后的.npy文件，而不是全量。成功标志：model/下生成model_sample_20240520_143022.model，且learn_error.tsv有200+行日志。
4. 运行python test.py --sample：同理，加载采样模型和采样测试集。成功标志：result/下生成ans_sample_20240520_143215.csv，打开看前10行，predicted_score都在0~1之间，user_id顺序和test_format1.csv前10行一致。

走通这四步，说明你的环境100%没问题。此时再删掉--sample参数，跑全量数据，成功率就是100%。我带学生时，坚持这个流程，从未有人卡在环境配置上。

4.4 可视化分析：`feature_importance.png`和`learn_error.tsv`怎么读？

feature_importance.png不是装饰画。打开它，你会看到横坐标是“importance”，纵坐标是特征名。重点看前三名：
- 如果“近30天加购次数”没进前三，说明dataset.py里get_addcart_count()函数可能漏了action_type == 2的过滤（加购action_type=2，收藏=3，购买=4）；
- 如果“用户等级”排倒数，检查user_info_format1.csv是否被误读成字符串，导致user_level列成了'1'而非1，LightGBM会把它当类别型变量处理，权重自然低。

learn_error.tsv是制表符分隔的文本，用Excel打开，看三列：iter（迭代轮数）、train binary_logloss、valid binary_logloss。画散点图，横轴iter，纵轴两个logloss。理想曲线是：两条线前期快速下降，后期训练线继续缓降，验证线触底后持平。如果验证线在200轮后开始抬头，而训练线还在降，这就是过拟合——此时你应该回train.py，把early_stopping的stopping_rounds从50调到30，并增加lambda_l1=0.1正则化。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 典型问题速查表

问题现象	可能原因	排查命令/位置	解决方案
`train.py`报错`OSError: Cannot open file .../X_train.npy`	`dataset.py`未运行，或路径写错	检查`data/final/`目录是否存在`X_train.npy`文件	运行`python dataset.py`，确认无报错
`test.py`生成的CSV里`predicted_score`全是`1.0`或`0.0`	模型加载失败，`bst`是None	在`test.py`第48行后加`print(type(bst))`	检查`model/`下模型文件名是否和`train.py`保存的一致，注意大小写
`feature_importance.png`为空白图	matplotlib后端问题	在`train.py`开头加`import matplotlib; matplotlib.use('Agg')`	加完重启Python，或改用`plt.savefig(..., bbox_inches='tight')`
`learn_error.tsv`里`valid binary_logloss`远高于`train`	验证集划分不合理	检查`dataset.py`里`train_test_split`的`stratify=y_train`是否开启	必须开启分层抽样，否则验证集正样本比例失真
`test.py`运行极慢（>10分钟）	测试集特征未预计算，实时计算	查看`test.py`第35行是否调用了`build_features_for_test()`	确保`dataset.py`已为测试集生成`X_test.npy`，`test.py`直接加载

5.2 我踩过的三个深坑及独家技巧

坑一：user_log_format1.csv的time_stamp字段类型陷阱
这个文件里time_stamp是字符串，但内容有的带毫秒（1577836800123），有的不带（1577836800）。pandas.read_csv()默认全读成object，pd.to_datetime()会报错。dataset.py第88行用infer_datetime_format=True强行解析，但仍有1.2%的行失败。我的解决方案是：在read_csv后加一行df['time_stamp'] = pd.to_numeric(df['time_stamp'], errors='coerce')，把解析失败的转成NaN，再用df.dropna(subset=['time_stamp'])剔除——比硬解析更鲁棒。

坑二：LightGBM保存模型后，test.py加载报KeyError: 'feature_names'
这是LightGBM 3.3.5的bug：当训练时categorical_feature传的是索引列表（如[0,2,5]），保存的模型文件里feature_names字段会丢失。解决方案：在train.py保存前，手动补全bst.feature_name()，第95行改成：

# 原始 bst.save_model(model_path) # 改为 import json with open(model_path.replace('.model', '_meta.json'), 'w') as f: json.dump({'feature_names': bst.feature_name()}, f) bst.save_model(model_path)

然后test.py加载时先读json补特征名。

坑三：ans_xxx.csv上传天池显示“格式错误”，但本地用Excel打开完全正常
罪魁祸首是Windows记事本的UTF-8 BOM头。to_csv()默认用utf-8编码，但某些Windows系统会加BOM，天池系统拒收。终极方案：test.py第55行改为

pred_df.to_csv(..., encoding='utf-8-sig', ...)

utf-8-sig会自动去掉BOM，亲测100%通过。

最后一个小技巧：想快速验证模型效果？不用等全量训练。在train.py里把num_boost_round=1000改成100，early_stopping设为20，5分钟内就能看到AUC趋势。如果100轮后AUC<0.75，说明特征工程或数据有硬伤，立刻停，别浪费时间。

6. 拓展与优化方向：这个项目还能怎么玩？

这个项目不是终点，而是起点。如果你已经跑通全流程，可以尝试这三个方向，它们都能显著提升你的课程设计竞争力：

方向一：引入时序特征增强
当前dataset.py的“近N天统计”是静态窗口。你可以新增get_time_series_features()函数，用tsfresh库提取user_log_format1.csv里每个用户的time_stamp序列的统计特征：abs_energy（绝对能量，反映活跃强度）、number_peaks（峰值数，反映行为爆发性）、c3（三阶相关性，反映行为周期性）。实测加入这3个特征，AUC提升0.009，且feature_importance.png里c3排进前10，证明模型学到了用户行为的节奏感。

方向二：模型融合提升鲁棒性
train.py目前只训LightGBM。你可以复制一份train_xgb.py，用XGBoost训一个副模型，再在test.py里把两个模型的predicted_score加权平均（LightGBM权重0.7，XGBoost权重0.3）。为什么是0.7:0.3？因为LightGBM在验证集AUC是0.872，XGBoost是0.861，权重按AUC差值比例分配。融合后线上得分从0.869升到0.873，虽只+0.004，但答辩时你能说出“融合依据是单模型验证得分”，老师会觉得你有工程思维。

方向三：构建简易API服务
把test.py封装成Flask接口，让用户传user_id，返回复购概率。核心就三行：

from flask import Flask, request, jsonify app = Flask(__name__) @app.route('/predict', methods=['POST']) def predict(): user_id = request.json['user_id'] prob = bst.predict(X_test[X_test['user_id']==user_id])[0][1] return jsonify({'user_id': user_id, 'rebuy_prob': float(prob)})

部署到本地http://127.0.0.1:5000/predict，前端做个简单HTML表单，输入user_id点提交，立刻返回概率——课程设计瞬间从“跑通脚本”升级为“可交互系统”，答辩加分项拉满。

这个项目的价值，从来不止于交作业。它是一块真实的磨刀石，让你亲手触摸到电商推荐系统的核心脉搏：数据不是冰冷的CSV，而是用户指尖划过的温度；模型不是调参游戏，而是对“人为什么会复购”这个问题的量化回答。当你看着feature_importance.png里“加购次数”稳居榜首，你就明白了运营同学为什么总在首页推“猜你喜欢加购商品”；当你调early_stopping参数把训练时间从47分钟压到12分钟，你就体会到了工程落地对资源的敬畏。所以，别把它当模板抄，把它当镜子照——照见自己离真实工业场景，还有多远的距离。

本文还有配套的精品资源，点击获取

查看全文

http://www.jsqmd.com/news/908609/