当前位置：首页 > news >正文

从Excel到Python：手把手教你用Pandas+Seaborn搞定手游RFM用户分群（附完整代码）

news 2026/8/3 12:30:32

从Excel到Python：手把手教你用Pandas+Seaborn搞定手游RFM用户分群（附完整代码）

在手游运营的日常工作中，我们经常需要回答这样的问题：哪些玩家最有可能继续付费？哪些高价值玩家正在流失？如何针对不同类型的玩家制定差异化的运营策略？传统Excel虽然直观，但当数据量达到数十万行时，公式卡顿、图表刷新缓慢等问题就会接踵而至。本文将带你用Python的Pandas和Seaborn工具包，实现一套可复用的RFM分析流水线。

1. 理解手游场景下的RFM模型

RFM模型最早起源于传统零售行业，但在手游领域有三个关键差异点：

时间窗口更短：手游用户生命周期通常以周为单位计算，因此我们建议将R（最近一次付费）的时间跨度设置为7-14天
付费结构特殊：手游中存在"鲸鱼玩家"现象，TOP 5%的玩家可能贡献90%收入
行为数据丰富：除了付费记录，我们还能获取登录频次、关卡进度等辅助指标

# 典型的手游付费数据字段 raw_data.columns # ['player_id', 'payment_time', 'amount', 'item_id', 'server_id', 'vip_level']

提示：在计算F（付费频次）时，建议先过滤掉小额付费（如6元首充），这些可能属于"试探性消费"

2. 数据准备与清洗实战

我们从游戏数据库中导出了最近90天的付费记录，原始数据包含37万条交易记录。首先需要处理几个典型问题：

常见数据质量问题及解决方案：

问题类型	检测方法	处理代码
测试账号	VIP等级为999	`df = df[df.vip_level < 100]`
异常金额	3σ原则或百分位法	`q = df.amount.quantile(0.999)`
时间错误	未来时间戳	`df = df[df.payment_time <= pd.Timestamp.now()]`

# 数据清洗完整示例 def clean_payment_data(raw_df): # 去除测试账号 clean_df = raw_df[~raw_df['player_id'].str.startswith('test')] # 金额异常值处理（保留99.9%分位数以下） amount_upper = clean_df['amount'].quantile(0.999) clean_df = clean_df[clean_df['amount'] <= amount_upper] # 时间格式标准化 clean_df['payment_time'] = pd.to_datetime(clean_df['payment_time']) return clean_df

3. 计算RFM指标的核心逻辑

不同于传统行业的等权处理，我们根据手游特性设计了加权算法：

def calculate_rfm(df, end_date): # 计算R值：最近一次付费距今的天数（倒序） rfm = df.groupby('player_id').agg( R=('payment_time', lambda x: (end_date - x.max()).days), F=('player_id', 'count'), # 付费次数 M=('amount', 'sum') # 付费总额 ) # 标准化处理（注意R值需要反向处理） rfm['R_score'] = 1 - (rfm['R'] - rfm['R'].min()) / (rfm['R'].max() - rfm['R'].min()) rfm['F_score'] = np.log1p(rfm['F']) # 对数变换处理偏态分布 rfm['M_score'] = np.log1p(rfm['M']) # 手游特化权重：R(50%) > F(30%) > M(20%) rfm['RFM_score'] = 0.5*rfm['R_score'] + 0.3*rfm['F_score'] + 0.2*rfm['M_score'] return rfm

注意：对F和M取对数是为了降低"鲸鱼玩家"对整体分布的影响，使分群结果更具普适性

4. 可视化分析与业务解读

使用Seaborn可以快速生成专业级图表，这里推荐三种关键可视化：

4.1 相关性热力图

import seaborn as sns corr_matrix = rfm[['R_score', 'F_score', 'M_score']].corr() sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

图示说明：在二次元卡牌游戏中，我们常发现R与F呈现负相关（近期付费频繁的玩家往往付费次数多）

4.2 RFM三维散点图

import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(10,8)) ax = fig.add_subplot(111, projection='3d') ax.scatter(rfm['R_score'], rfm['F_score'], rfm['M_score'], c=rfm['RFM_score'], cmap='viridis') ax.set_xlabel('Recency') ax.set_ylabel('Frequency') ax.set_zlabel('Monetary')

4.3 分群箱线图对比

# 先定义分群规则 def segment_users(rfm_df): conditions = [ (rfm_df['RFM_score'] >= 0.8), (rfm_df['RFM_score'] >= 0.6) & (rfm_df['RFM_score'] < 0.8), (rfm_df['RFM_score'] >= 0.4) & (rfm_df['RFM_score'] < 0.6), (rfm_df['RFM_score'] < 0.4) ] labels = ['高价值', '潜力用户', '一般用户', '流失风险'] rfm_df['segment'] = np.select(conditions, labels) return rfm_df # 绘制分群对比 plt.figure(figsize=(12,6)) sns.boxplot(x='segment', y='RFM_score', data=rfm, order=labels)

5. 运营策略落地建议

根据最终分群结果，我们可以制定针对性策略：

高价值玩家（Top 5%）：
- 提供专属客服通道
- 提前体验新版本特权
- 定制化虚拟商品（如限定头像框）
潜力用户（Top 6-20%）：
- 推送高性价比月卡
- 战斗数据周报（刺激竞争心理）
- 组队玩法邀请奖励
流失风险用户：
- 30天未登录触发召回邮件
- 回归礼包梯度设计（首日/三日/七日）
- 重要版本更新Push通知

# 生成运营名单示例 high_value = rfm[rfm['segment'] == '高价值'].index.tolist() print(f"需要重点维护的高价值玩家共{len(high_value)}人：") print(high_value[:5]) # 展示前5个ID

在实际项目中，我们将这套分析流程封装成了Jupyter Notebook模板，新游戏上线后只需替换数据路径就能自动生成分群报告。相比原来用Excel手动处理的方式，现在完成全部分析只需15分钟，且能动态调整参数实时查看结果。

查看全文

http://www.jsqmd.com/news/686104/

Phi-mini-MoE-instruct真实生成效果：MATH竞赛题分步推导+LaTeX公式渲染效果展示

自定义形状电击穿路径仿真模拟：利用有限元COMSOL相场法与PDE模块实现可视化模拟

CentOS 8离线部署GCC 8.5.0完整指南：从下载依赖包到强制安装的保姆级教程

Qianfan-OCR代码实例：基于requests的带Layout分析OCR封装类

快速体验BERT文本分割：上传文档点击即用，效果立竿见影

Wan2.2-I2V-A14B惊艳效果展示：粒子特效+镜头推拉运镜视频生成案例

视频即坐标：室内人员高精度无感定位技术白皮书——构建位置、轨迹、预警一体化的空间智能体系

经营分析会怎么开？开好经营分析会就这5个思路

2026年武汉高中数学老师费用揭秘，熟悉教材的老师怎么收费 - mypinpai

NVIDIA License Server 与 GRID vGPU 官方软件安装包一站式获取指南

07华夏之光永存：黄大年茶思屋榜文解法「12期7题」

Docker调试不再黑盒：基于eBPF+低代码面板的实时容器内核态追踪方案（含GitHub私有仓库访问密钥限时发放）

让空间看懂人 ——室内多视角相机高精度无感定位与行为感知白皮书

Windows右键菜单管理终极指南：让你的右键菜单快如闪电 [特殊字符]

智慧树自动刷课插件：3分钟安装，彻底告别手动操作烦恼

如何快速将B站视频转为文字？bili2text完整使用指南

Dgraph v25.3.3 发布：升级依赖版本，修复多个 CVE 漏洞

消息队列点对点和发布订阅模式对比和总结

戴尔G15终极散热控制指南：开源方案彻底解决游戏本过热问题

探讨能树立学生信心的高中数学老师，传思习得教育哪家分校好？ - 工业设备

Docker AI调度性能断崖式下跌？3个关键指标（SLO Violation Rate、GPU Utilization Entropy、Queue Wait P99）实时监控配置全公开

连续变量量子密钥分发与高斯后选择技术解析

抖音下载神器终极指南：3分钟搞定无水印批量下载

Three.js 工程向：GPU Overdraw 诊断与前端渲染优化

计算机毕业设计：Python股票多维度诊断与LSTM预测平台 Flask框架 TensorFlow LSTM 数据分析可视化大数据大模型（建议收藏）✅

Phi-3.5-mini-instruct轻量大模型选型指南：7.6GB模型在4090上的性价比实测

【限时开源】GitHub Star 2.4k的docker-storage-analyzer工具深度评测：3分钟定位存储热点容器、镜像、卷——仅剩最后200个企业版License配额

Windows右键菜单终极清理指南：用ContextMenuManager让右键菜单回归清爽高效

简单几步！VoxCPM-1.5-WEBUI实现文字转语音，支持在线试听