当前位置：首页 > news >正文

从用户分群到商品推荐：K-Means和KNN在电商数据分析里的真实应用案例

news 2026/8/3 14:15:19

从用户分群到商品推荐：K-Means和KNN在电商数据分析里的真实应用案例

电商平台每天产生海量用户行为数据，如何从这些数据中挖掘商业价值？本文将带你用K-Means和KNN算法解决两个核心业务问题：用户价值分群和个性化推荐。无需复杂数学推导，我们直接进入实战环节。

1. 用户价值分群：K-Means结合RFM模型

电商运营中常见的痛点：有限的营销预算该如何精准分配？通过K-Means聚类，我们可以将用户划分为具有不同价值的群体。

1.1 数据准备与RFM指标构建

首先需要从数据库中提取以下基础数据：

SELECT user_id, MAX(order_date) as recency, COUNT(DISTINCT order_id) as frequency, SUM(order_amount) as monetary FROM orders GROUP BY user_id

RFM指标说明：

Recency：最近一次消费距今天数（值越小越好）
Frequency：消费频次（值越大越好）
Monetary：消费总金额（值越大越好）

注意：不同业务可能需要调整指标定义，如高频低客单价与低频高客单价行业的衡量标准不同。

1.2 K-Means聚类实施

使用Python的sklearn库进行聚类：

from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans # 数据标准化 scaler = StandardScaler() rfm_scaled = scaler.fit_transform(rfm_data) # 寻找最佳K值 inertia = [] for k in range(2, 10): kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(rfm_scaled) inertia.append(kmeans.inertia_) # 根据肘部法则选择K值（假设K=4最优） kmeans = KMeans(n_clusters=4, random_state=42) clusters = kmeans.fit_predict(rfm_scaled)

1.3 业务解读与策略制定

典型的分群结果示例：

群组	RFM特征	占比	运营策略
高价值用户	近期活跃、高频高消费	5%	专属VIP服务、新品优先体验
潜力用户	近期活跃但消费中等	15%	交叉销售、会员升级激励
流失风险用户	历史消费高但近期不活跃	20%	召回活动、专属优惠券
低活跃用户	各项指标均低	60%	常规促销信息推送

2. 商品推荐系统：KNN实战应用

"看了又看"、"买了又买"这些推荐功能背后，往往是KNN算法在发挥作用。

2.1 数据准备与相似度计算

构建用户-商品交互矩阵：

用户ID | 商品A | 商品B | 商品C | ... -------+-------+-------+-------+----- 用户1 | 1 | 0 | 1 | ... 用户2 | 0 | 1 | 1 | ...

关键步骤：

选择距离度量标准（余弦相似度更适合稀疏数据）
处理冷启动问题（新商品/新用户的默认推荐策略）
实时性要求（近实时更新用户行为数据）

2.2 KNN推荐实现代码

from sklearn.neighbors import NearestNeighbors from scipy.sparse import csr_matrix # 创建稀疏矩阵 interaction_matrix = csr_matrix(user_item_values) # 训练KNN模型 model = NearestNeighbors(metric='cosine', algorithm='brute') model.fit(interaction_matrix) # 为指定用户生成推荐 user_index = 123 distances, indices = model.kneighbors( interaction_matrix[user_index], n_neighbors=5 ) # 获取推荐商品ID recommended_items = item_ids[indices.flatten()]

2.3 效果评估与优化

关键评估指标：

指标	计算公式	达标阈值
点击率(CTR)	点击次数/曝光次数	>3%
转化率(CVR)	购买次数/点击次数	>1.5%
推荐多样性	推荐商品类目数	≥5类

常见优化方向：

加入时间衰减因子（近期行为权重更高）
融合多算法结果（KNN+矩阵分解）
业务规则过滤（库存、价格带等限制）

3. 参数调优实战技巧

3.1 K值选择方法论

肘部法则改进版：

计算不同K值的轮廓系数
结合业务理解确定合理群组数
进行AB测试验证效果

from sklearn.metrics import silhouette_score silhouette_scores = [] for k in range(2, 10): kmeans = KMeans(n_clusters=k, random_state=42) preds = kmeans.fit_predict(rfm_scaled) score = silhouette_score(rfm_scaled, preds) silhouette_scores.append(score)

3.2 距离度量的选择

不同场景下的距离度量选择建议：

场景	推荐度量	原因
用户分群	马氏距离	考虑特征相关性
商品推荐	余弦相似度	对稀疏数据更鲁棒
地理位置相关	哈弗辛公式	球面距离计算

4. 工程化落地注意事项

4.1 性能优化方案

当数据量超过百万级时：

使用近似最近邻(ANN)算法
采用分批次处理策略
建立特征索引加速查询

# 使用Facebook的Faiss库加速 import faiss index = faiss.IndexFlatL2(feature_dim) index.add(training_vectors) D, I = index.search(query_vectors, k)

4.2 常见问题排查

问题现象：推荐结果过于集中

检查数据是否存在偏差
加入多样性惩罚项
验证特征权重设置

问题现象：分群结果不稳定

检查随机种子设置
增加迭代次数
尝试K-Means++初始化

在实际电商项目中，我们曾遇到KNN推荐效果突然下降的情况，最终发现是用户行为数据管道出现了延迟，导致近三天的行为数据缺失。这个案例告诉我们，算法效果波动时，首先要检查数据质量而非急于调整模型参数。

查看全文

http://www.jsqmd.com/news/894078/

新手也能懂：PX4固定翼姿态控制器，从手动飞行到串级PID的保姆级拆解

Apache Superset CVE-2023-27524未授权访问漏洞深度解析

从GitHub到Colab：我的病理图像分析项目复现踩坑实录与完整避坑指南

从功放到调音台：手把手拆解电位器在音频电路里的6种经典玩法（附电路图）

用PyCharm+TensorFlow给Webots小车做强化学习避障，保姆级环境配置与代码调试指南

用HS0038红外接收头DIY万能遥控器：配合ESP8266和Home Assistant实现家电控制

别再让程序跑飞了！手把手教你用SP706硬件看门狗给STM32上保险（附电路图与代码）

为什么92%的企业AI项目将在2028年前失效？从Transformer到Neuromorphic AI的工具代际断层全解析

别再只用Multi Query了！用LangChain + RAG Fusion提升你的检索质量（附完整代码）

微软MAI三模型实战：语音转写、文字转语音与文生图全链路部署指南

从单打独斗到团队协作：如何用CVAT的项目(Project)和任务(Task)功能管理你的标注团队

别再用暴力循环了！用C++筛法分解质因数，效率提升100倍（附完整代码）

牛顿法工程实践：从收敛失效到鲁棒求解的四步闭环

STM32G431串口通信实战：用CubeMX和HAL库搞定蓝桥杯嵌入式赛题（附完整代码）

避坑指南：CVX搭配MOSEK求解器安装后不生效？检查这3个地方（Win/Mac系统）

别再让主进程摸鱼了！聊聊并行遗传算法中‘富农+长工’模式的性能提升

2025-2026年本地生活服务商推荐：五大专业评测夜宵引流技巧案例适用场景

Windows Cleaner：三步告别C盘爆红，让Windows重获新生

用IR2104和LR7843给大功率电机搭个‘家’：从原理图到PCB的保姆级避坑指南

避开这些坑！ESP32C3驱动PCM5102A播放WAV文件实战指南（附完整工程）

NVIDIA Profile Inspector技术深度解析：驱动程序配置管理架构与实践指南

JMeter Http接口压测的系统性诊断方法论

状态模式（State Pattern）

别再只会转格式了！FFmpeg的-i、-f、-ss参数组合，5分钟搞定视频精准裁剪与格式转换

LM Studio本地大模型实战指南：零基础部署、RAG优化与生产API配置

通过taotoken用量看板分析并优化ai应用月度消耗的实践

51单片机PWM调速避坑指南：为什么你的电机抖动、不转或烧芯片？从驱动电路到代码的常见问题排查

GNURadio实战：一台电脑插两个RTL-SDR电视棒，同时收听不同FM电台的完整配置流程

DeepSeek V4 Pro 永久降价：AI 模型价格战背后的技术逻辑与开发者的新机遇

别再死记硬背了！用UE4 DS做联机游戏，搞懂Role和Replication这一篇就够了

从用户分群到商品推荐：K-Means和KNN在电商数据分析里的真实应用案例

1. 用户价值分群：K-Means结合RFM模型

1.1 数据准备与RFM指标构建

1.2 K-Means聚类实施

1.3 业务解读与策略制定

2. 商品推荐系统：KNN实战应用

2.1 数据准备与相似度计算

2.2 KNN推荐实现代码

2.3 效果评估与优化

3. 参数调优实战技巧

3.1 K值选择方法论

3.2 距离度量的选择

4. 工程化落地注意事项

4.1 性能优化方案

4.2 常见问题排查

相关文章：