当前位置：首页 > news >正文

从用户购物车到精准推荐：用PCA降维+K-means聚类，实战Kaggle Instacart用户分群完整流程

news 2026/7/17 7:06:04

从购物车行为到精准推荐：基于PCA与K-means的电商用户分群实战解析

在电商平台每天产生的海量交易数据中，隐藏着用户最真实的消费偏好与行为模式。如何从这些看似杂乱的数据中挖掘出有价值的用户分群信息，成为提升推荐系统效果的关键。本文将带您深入Kaggle Instacart数据集，通过PCA降维与K-means聚类的技术组合，实现从原始数据到商业洞察的全流程解析。

1. 电商用户行为分析的数据准备

1.1 数据集概览与特征理解

Instacart公开数据集包含多个关联表格，我们需要先理清各表之间的关联关系：

orders.csv：记录用户订单基本信息
- order_id：订单唯一标识
- user_id：用户唯一标识
- order_number：用户下单顺序号
- order_dow：下单星期几
- order_hour_of_day：下单小时
products.csv：商品基础信息
- product_id：商品唯一标识
- product_name：商品名称
- aisle_id：商品所属通道ID
- department_id：商品所属部门ID
order_products__prior.csv：订单商品明细
- order_id：关联订单ID
- product_id：商品ID
- add_to_cart_order：加入购物车顺序
- reordered：是否重复购买
aisles.csv：商品通道分类
- aisle_id：通道ID
- aisle：通道名称（如"fresh fruits"）

1.2 数据合并与特征工程

构建用户-商品类别的交叉矩阵是分析的基础：

import pandas as pd # 数据合并 orders = pd.read_csv('orders.csv') order_products = pd.read_csv('order_products__prior.csv') products = pd.read_csv('products.csv') aisles = pd.read_csv('aisles.csv') # 四级表合并 merged = pd.merge(order_products, products, on='product_id') merged = pd.merge(merged, orders, on='order_id') merged = pd.merge(merged, aisles, on='aisle_id') # 构建用户-商品类别交叉表 user_aisle = pd.crosstab(merged['user_id'], merged['aisle'])

得到的交叉表示例：

user_id	fresh fruits	packaged vegetables	yogurt	...
1	5	2	3	...
2	1	4	0	...

2. 高维稀疏数据的降维处理

2.1 数据稀疏性问题分析

原始用户-商品类别矩阵通常是高维且稀疏的：

维度：商品类别可能多达数百种
稀疏性：单个用户通常只购买少量类别
噪声：存在偶然性购买行为

print(f"原始数据维度: {user_aisle.shape}") print(f"稀疏度: {(user_aisle == 0).mean().mean():.2%}")

典型输出：

原始数据维度: (206209, 134) 稀疏度: 93.80%

2.2 PCA降维技术实现

主成分分析(PCA)能有效压缩信息并去除噪声：

from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler # 数据标准化 scaler = StandardScaler() scaled_data = scaler.fit_transform(user_aisle) # PCA降维（保留95%方差） pca = PCA(n_components=0.95) pca_data = pca.fit_transform(scaled_data) print(f"降维后保留主成分数: {pca.n_components_}") print(f"累计解释方差比: {sum(pca.explained_variance_ratio_):.2%}")

关键参数说明：

n_components：可设为保留方差比例或指定主成分数
explained_variance_ratio_：各主成分解释的方差比例

提示：PCA前务必进行特征标准化，避免量纲影响

3. K-means聚类算法优化实践

3.1 确定最佳聚类数

肘部法则与轮廓系数结合评估：

from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt # 测试不同K值 k_range = range(2, 15) sse = [] silhouette = [] for k in k_range: kmeans = KMeans(n_clusters=k, random_state=42) labels = kmeans.fit_predict(pca_data) sse.append(kmeans.inertia_) if k > 1: # 轮廓系数需要至少2个簇 silhouette.append(silhouette_score(pca_data, labels)) # 绘制肘部曲线 plt.figure(figsize=(10, 4)) plt.subplot(1, 2, 1) plt.plot(k_range, sse, 'bo-') plt.xlabel('Number of clusters') plt.ylabel('SSE') # 绘制轮廓系数 plt.subplot(1, 2, 2) plt.plot(k_range[1:], silhouette, 'ro-') plt.xlabel('Number of clusters') plt.ylabel('Silhouette Score') plt.tight_layout() plt.show()

3.2 K-means++初始化优化

避免随机初始化导致的局部最优：

# 使用K-means++初始化 kmeans = KMeans(n_clusters=6, init='k-means++', n_init=10, # 多次初始化取最优 max_iter=300, random_state=42) user_clusters = kmeans.fit_predict(pca_data)

参数说明：

init='k-means++'：智能选择初始中心点
n_init=10：进行10次不同初始化的训练，选择最佳结果
max_iter=300：最大迭代次数

4. 聚类结果分析与商业应用

4.1 用户分群特征解析

将聚类标签合并回原始数据进行分析：

# 添加聚类标签 user_aisle['cluster'] = user_clusters # 计算各簇在不同商品类别的平均购买量 cluster_profile = user_aisle.groupby('cluster').mean().T # 找出每个簇最突出的商品类别 top_categories = {} for cluster in cluster_profile.columns: top = cluster_profile[cluster].sort_values(ascending=False).head(5) top_categories[cluster] = top.index.tolist()

典型分群结果示例：

群组	主要特征类别	典型行为
0	新鲜水果、有机蔬菜	健康饮食偏好，高频购买
1	零食、饮料	便利食品为主，冲动消费
2	婴儿食品、尿布	母婴用品刚需用户
3	烘焙原料、奶酪	烹饪爱好者
4	冷冻食品、即食餐	时间敏感型用户
5	酒类、派对食品	社交场景消费

4.2 推荐系统应用策略

基于用户分群的差异化推荐策略：

群组0（健康饮食）：
- 推荐有机新品和应季蔬果
- 搭配推荐：超级食品、冷压果汁
群组1（便利食品）：
- 促销组合装推荐
- 新品试吃活动推送
群组2（母婴用户）：
- 定期补货提醒
- 成长阶段相关商品推荐

# 示例：为目标用户生成推荐 def generate_recommendations(user_id, model, n_recommend=5): user_cluster = model.predict(pca_data[user_id]) top_categories = cluster_profile[user_cluster].sort_values(ascending=False).index # 排除已购买过的类别 purchased = user_aisle.loc[user_id][user_aisle.loc[user_id] > 0].index recommendations = [cat for cat in top_categories if cat not in purchased] return recommendations[:n_recommend]