当前位置：首页 > news >正文

pandas多维聚合实战：银行风控中的生产级groupby策略

news 2026/6/18 20:37:50

1. 项目概述：为什么多维聚合不是“加个groupby”就完事了？

我在银行风控部门干了八年，从最初写SQL跑日报，到后来带团队搭实时反欺诈引擎，踩过最多的坑，八成出在数据聚合这一步。很多人觉得pandas的groupby就是个语法糖，df.groupby('col').sum()敲完一按回车，结果就出来了。但现实是——你拿到的从来不是干净的交易流水，而是每天凌晨三点ETL跑崩后甩过来的、带着时区错乱、商户编码映射失效、甚至同一笔交易被拆成三行的“原始数据”。这时候，一个简单的mean()可能让你误判整个区域的欺诈风险水位；一次没处理好的unstack()可能让下游BI报表直接报错；而滚动窗口里漏掉的min_periods=1参数，可能让某天的异常波动彻底消失在平滑曲线里。

这篇讲的“多维聚合”，根本不是教你怎么用agg()函数，而是讲清楚：当业务问题同时横跨时间、空间、产品、客户四个维度时，你手里的数据到底该“怎么切”、 “往哪堆”、“如何解释”。比如，风控同事问：“华北区餐饮类商户近7天单笔交易金额的标准差，比上月同期高了多少？”——这句话里藏着至少五层嵌套逻辑：地理维度（华北）、行业维度（餐饮）、时间窗口（近7天 vs 上月同期）、统计口径（标准差）、对比基准（环比）。任何一个环节选错方法，结果就偏了50%以上。

我见过最典型的翻车现场，是某次信用卡逾期预测模型上线前验证。团队用groupby(['customer_id', 'month']).agg({'balance': 'mean'})算月均余额，结果发现模型对年轻客群的预测偏差极大。查了三天才发现：mean()把当月刚开户、余额为0的新客和持有十年的老客混在一起平均了。真正该用的是expanding().mean()——因为新客的“历史”只有1天，老客有3600天，强行拉平时间长度，等于用小学生数学水平去考博士生试卷。后来我们改用“滚动窗口+最小观测期”双约束，模型AUC立刻提升了0.12。

所以别再把聚合当成数据清洗的收尾步骤。它其实是业务逻辑的翻译器——你写的每一行代码，都在把“老板说的那句话”翻译成机器能懂的数学语言。今天要拆解的五个核心模式：多列异构聚合、自定义业务函数、滚动窗口、扩展窗口、多级分组透视，全是我从银行、保险、支付公司的真实生产环境里抠出来的“保命招式”。没有理论推导，只有实测参数、避坑清单和血泪教训。如果你正被“这个指标怎么算才对”折磨得睡不着，接下来的内容，就是你的止痛片。

2. 核心思路拆解：为什么这些模式必须组合使用？

2.1 多维聚合的本质是“降维决策树”

先破除一个迷思：所谓“多维”，不是指你groupby的字段越多越好。我见过最离谱的案例，有人写groupby(['region','province','city','district','store_id','product_category','sub_category','brand','season','weekday','hour'])——23个字段，结果内存爆到80G，跑了一整晚。这不是多维，这是自杀式降维。

真正的多维聚合，本质是构建一棵业务决策树。每个维度都是一个判断节点，而聚合函数是节点上的决策规则。比如银行做商户风险评级，第一层看地域（北上广深/强二线/弱二线/县域），第二层看行业（餐饮/零售/教育/医疗），第三层看交易特征（单笔均值/方差/7日滚动变化率）。这三个层级不是并列关系，而是主次嵌套：先锁定高风险地域，再在其中筛选高风险行业，最后用动态指标确认风险等级。

所以我们在设计聚合方案时，永远要问三个问题：

哪个维度是业务决策的第一锚点？（比如监管要求必须按省分行汇报，那province就是根节点）
哪些维度需要“同时存在”才能定义业务实体？（比如“华东区某连锁超市的生鲜品类”必须region+chain_name+category三者共存，缺一不可）
哪些维度需要“动态剥离”以适配不同场景？（比如给总行看全国汇总，给分行看省内明细，给支行看网点数据——这时unstack()和stack()就是切换视角的遥控器）

这就是为什么Part 20开篇强调“production-grade grouping strategies”——生产级不是指代码多炫酷，而是指它能像手术刀一样，根据业务需求精准切开数据，既不遗漏关键维度，也不引入噪声维度。

2.2 五种模式的协同逻辑：从静态快照到动态脉搏

把这五种技术想象成医院的五台设备：

多列异构聚合= 血常规化验单（同时输出红细胞、白细胞、血小板计数）
自定义函数= 基因测序仪（检测特定突变位点，比如transaction_range就是查“交易金额波动基因”）
滚动窗口= 心电监护仪（实时捕捉每秒心跳变化，window=7就是观察一周心律趋势）
扩展窗口= 电子病历系统（记录从出生到现在的全部健康数据，expanding().sum()就是累计消费总额）
多级分组透视= CT三维重建（把器官、血管、骨骼分层渲染，unstack()就是把region转成行、product转成列的立体视图）

单独用任何一台设备都只能看到局部。但当你把心电监护（滚动）和电子病历（扩展）结合，就能判断“这次心跳加速是偶发应激还是慢性心衰恶化”；把血常规（多列聚合）和基因测序（自定义函数）结合，才能确诊“白细胞升高是细菌感染还是白血病”。

我在某股份制银行做反洗钱系统时，就用这五种模式搭了一个“风险热力图”：

第一层：groupby(['branch_code','customer_type'])（物理网点+客户类型，决策树根节点）
第二层：agg({'transaction_amount':['mean','std','count'],'fee_rate':['min','max']})（多列异构，看基础特征）
第三层：rolling(window=30).mean()（滚动30天，过滤日常波动）
第四层：apply(lambda x: (x['amount_std']/x['amount_mean'])*100)（自定义函数，计算变异系数）
第五层：unstack('customer_type')（把个人/企业客户转成列，方便分行行长横向对比）

最终输出一张表：横轴是网点，纵轴是客户类型，单元格里是“30日变异系数”，颜色越深代表资金流动越异常。这套逻辑上线后，可疑交易识别率提升37%，误报率下降52%。关键不是技术多先进，而是五种模式像齿轮一样咬合，把业务语言完整翻译成了数据语言。

2.3 为什么不能只用SQL？——生产环境的三重枷锁

有人会问：这些功能SQL窗口函数都能实现，为什么非要用pandas？这里必须说透三个现实枷锁：

枷锁一：ETL链路的不可控性
银行核心系统导出的CSV，经常出现“字段错位”（第5列本该是金额，实际是商户名）、“编码污染”（UTF-8文件里混入GBK乱码）、“空值陷阱”（空字符串''和NULL混用）。SQL在解析这类脏数据时极其脆弱，而pandas的read_csv(dtype=str, na_values=['', 'N/A'], keep_default_na=False)能精准控制每一处解析逻辑。我经手过一个项目，SQL脚本在测试库跑得好好的，上线后因源系统新增了'--'作为空值标识，导致所有聚合结果全错。pandas里加一行df.replace({'--': np.nan})就解决了。

枷锁二：业务逻辑的快速迭代压力
风控规则每周都在变。上周要求“单笔超5万且当日累计超20万触发预警”，这周变成“单笔超5万且近3小时累计超15万”。SQL需要DBA改存储过程、走审批流、停服发布；pandas只需改两行Python代码，rolling('3H').sum()替换rolling('1D').sum()，5分钟热更新。某次监管突击检查，我们4小时内迭代了7版风险模型，全靠pandas的敏捷性撑住。

枷锁三：资源调度的硬约束
银行生产环境严禁直连核心数据库。所有分析必须在独立的数据沙箱里跑。沙箱里只有导出的T+1快照数据，没有实时连接能力。而pandas的rolling和expanding能在本地内存完成所有计算，不依赖数据库窗口函数。我们曾用一台16G内存的笔记本，处理2TB交易数据（分块读取+Dask并行），SQL方案则需要申请专用OLAP集群，排期等了三周。

所以这不是技术偏好，而是生产环境倒逼出的生存策略——当业务需求像野马一样狂奔，而基础设施像老牛一样慢吞吞，pandas就是那副能随时套在老牛身上的加速鞍具。

3. 核心细节解析与实操要点：每个参数背后的血泪史

3.1 多列异构聚合：别让层级索引毁掉你的下游流程

原文示例中result = df.groupby('merchant_category').agg({'transaction_amount': ['mean','median'], 'processing_fee': ['min','max']})输出的层级列名（MultiIndex），看着很酷，但在真实生产中，它是个定时炸弹。

为什么层级索引是隐患？

BI工具（Tableau/Power BI）导入时会把('transaction_amount', 'mean')识别成非法字段名，报错“column name contains parentheses”
Excel导出后自动变成transaction_amount_mean，但transaction_amount_median可能被截断成transaction_amount_medi（Excel列名长度限制）
后续做merge时，left_on=('transaction_amount', 'mean')这种写法会让新人崩溃

我的解决方案：三步扁平化

# 步骤1：用命名元组避免歧义（比lambda更安全） agg_dict = { 'amount_mean': ('transaction_amount', 'mean'), 'amount_median': ('transaction_amount', 'median'), 'fee_min': ('processing_fee', 'min'), 'fee_max': ('processing_fee', 'max') } # 步骤2：强制生成单层索引 result = df.groupby('merchant_category').agg(agg_dict) result.columns = result.columns.get_level_values(0) # 直接取第一层名 # 步骤3：终极保险——重命名列（适配所有下游系统） result = result.rename(columns={ 'amount_mean': 'avg_txn_amt', 'amount_median': 'med_txn_amt', 'fee_min': 'min_proc_fee', 'fee_max': 'max_proc_fee' })

提示：永远用get_level_values(0)而不是droplevel(1)，因为后者在单层索引时会报错。我在某城商行吃过亏，测试环境数据少，droplevel没问题；上线后数据量大，部分分组结果为空，索引层级自动降为1层，脚本直接中断。

关键参数深挖：numeric_only的生死线
当你的DataFrame里混有日期、ID、文本字段时，agg()默认会尝试对所有列应用函数，遇到非数值列就报错。原文没提这个参数，但它是生产环境必加的保命符：

# 危险写法（遇到'customer_name'列直接报错） df.groupby('region').agg({'revenue':'sum', 'cost':'mean'}) # 安全写法（自动跳过非数值列） df.groupby('region').agg({'revenue':'sum', 'cost':'mean'}, numeric_only=True)

我经手过一个项目，因源系统导出的“备注”字段里混入了数字（如"REF#12345"），numeric_only=False导致聚合中断，影响了当日监管报送。从此所有聚合操作都加numeric_only=True，宁可少算一列，也不能崩盘。

3.2 自定义函数：业务逻辑必须可审计、可追溯

原文用lambda x: x.max() - x.min()演示范围计算，这在教学中没问题，但在银行系统里，所有lambda函数都是审计雷区。监管检查时，审计师会要求提供“每个计算公式的业务依据文档”，而lambda无法添加docstring，无法版本管理，无法追溯修改人。

我的生产规范：三要素函数模板

def calc_txn_volatility(series: pd.Series, threshold: float = 300.0, business_rule: str = "CMB_RISK_2024_V1") -> float: """ 计算交易金额波动率（标准差/均值），用于识别高风险商户 Args: series: 交易金额序列 threshold: 高价值交易阈值（单位：元），用于分层计算 business_rule: 对应的业务规则编号，见《招商银行商户风险管理办法》第3.2条 Returns: float: 波动率百分比（保留2位小数） Business Logic: 1. 过滤掉小于threshold的交易（视为常规消费） 2. 对剩余交易计算标准差与均值比值 3. 结果乘以100转为百分比，四舍五入到小数点后2位 Example: >>> calc_txn_volatility(pd.Series([100,200,500,800]), threshold=300) 42.86 """ # 强制类型转换，防止int/float混合引发精度问题 series_clean = pd.to_numeric(series, errors='coerce').dropna() # 业务规则校验：必须有至少3笔高价值交易才计算 high_value_mask = series_clean >= threshold if high_value_mask.sum() < 3: return 0.0 high_value_series = series_clean[high_value_mask] if len(high_value_series) == 0: return 0.0 volatility = (high_value_series.std() / high_value_series.mean()) * 100 return round(volatility, 2) # 在agg中调用 result = df.groupby('merchant_id').agg({ 'txn_amount': calc_txn_volatility })

注意：函数签名里必须包含business_rule参数。这是为了在数据库里建audit_log表时，能把每次计算对应的业务规则编号存进去。某次银保监检查，就靠这个字段快速定位到所有波动率计算的合规依据。

为什么不用@numba.jit加速？
虽然@numba.jit能让计算快3倍，但它会破坏函数的可调试性——你无法在Jupyter里print()中间变量，无法用pdb断点调试。在风控场景，可解释性永远比速度重要。我宁愿用cython重写核心算法，也要保证每一步都能被审计师随时抽查。

3.3 滚动窗口：窗口大小不是数学问题，是业务问题

原文用rolling(window=3)计算3日均值，但没告诉你：window参数的单位取决于你的索引类型。这是90%新手栽跟头的地方。

索引类型决定窗口语义

索引类型	window=3 的含义	适用场景	我的血泪教训
默认整数索引	最近3行记录	无序数据（如商户列表）	某次把交易时间排序后忘了`set_index('date')`，3日滚动变成了“最近3笔交易”，完全失真
DatetimeIndex	最近3个自然日	日频数据（如每日营收）	某基金公司用`window=3`算周收益，结果周末无数据，3日窗口实际只含1个交易日
PeriodIndex	最近3个周期	月度/季度数据	某保险公司用`window=3`算季度保费，但2023Q4数据延迟，窗口包含2023Q2-Q3，漏掉最新一期

生产级滚动窗口四步法

# 步骤1：强制转换为DatetimeIndex（哪怕源数据是字符串） df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d', errors='coerce') df = df.set_index('date').sort_index() # 步骤2：用offset参数替代window，明确业务语义 # 错误：df.rolling(window=7).mean() → 7行记录 # 正确：df.rolling('7D').mean() → 7个自然日（自动处理周末/节假日） # 更正确：df.rolling('5B').mean() → 5个交易日（B=business day） # 步骤3：设置min_periods=1（关键！） # 默认min_periods=window，导致前n-1行全是NaN # 生产环境必须设为1，否则前端图表显示大片空白 df['7d_avg'] = df.groupby('merchant_id')['revenue'].rolling('7D', min_periods=1).mean() # 步骤4：处理边界值（监管要求必须说明） # 某次监管问询：“首日滚动均值为何是NaN？” # 我们回复：“因首日无历史数据，按《银行业数据质量指引》第7条，采用首日原始值填充” df['7d_avg'] = df['7d_avg'].fillna(df['revenue']) # 首日用原始值

窗口大小选择的业务法则

反欺诈监测：用'1H'或'24H'（小时级/天级波动）
客户行为分析：用'30D'（覆盖完整月度周期）
宏观经济指标：用'90D'（消除季节性噪音）
绝对禁忌：不要用window=7这种数字，必须用'7D'或'5B'，否则交接给新人时必然出错。

3.4 扩展窗口：累计计算的三大死亡陷阱

原文expanding().sum()看起来简单，但生产环境里，扩展窗口是聚合函数里最危险的一个。我见过三次重大事故，全因它而起。

死亡陷阱一：索引顺序未校验

# 危险！如果date列有重复值或乱序，expanding()会按原始行序计算 df = pd.DataFrame({'date':['2024-01-03','2024-01-01','2024-01-02'], 'amt':[100,200,300]}) df['cumsum'] = df['amt'].expanding().sum() # 结果：100,300,600（按输入顺序，非时间顺序） # 正确：必须先排序再计算 df = df.sort_values('date').reset_index(drop=True) df['cumsum'] = df['amt'].expanding().sum() # 结果：200,500,600（按时间顺序）

死亡陷阱二：分组内扩展未重置

# 危险！以下代码会让C001和C002的累计值串在一起 df.groupby('customer_id')['amt'].expanding().sum() # 错误：未指定group_keys # 正确：必须用reset_index(level=0, drop=True)重置索引 df_sorted = df.sort_values(['customer_id','date']) cumsum = df_sorted.groupby('customer_id')['amt'].expanding().sum() df_sorted['cumsum'] = cumsum.reset_index(level=0, drop=True)

死亡陷阱三：空值传播失控

# 危险！第一个值是NaN，后续所有累计值都是NaN df = pd.DataFrame({'amt':[np.nan,100,200,300]}) df['cumsum'] = df['amt'].expanding().sum() # 全是NaN # 正确：用method='bfill'向前填充首个有效值 first_valid = df['amt'].first_valid_index() if first_valid is not None: df.loc[:first_valid, 'amt'] = df.loc[first_valid, 'amt'] df['cumsum'] = df['amt'].expanding().sum()

我的扩展窗口黄金模板

def safe_expanding_sum(series: pd.Series, group_col: str = None, date_col: str = None) -> pd.Series: """生产级累计求和，解决三大死亡陷阱""" # 步骤1：处理空值（用首个有效值填充开头） series_clean = series.copy() first_valid = series_clean.first_valid_index() if first_valid is not None: series_clean.iloc[:first_valid] = series_clean.iloc[first_valid] # 步骤2：若需分组，先排序再分组 if group_col and date_col: # 构造临时DataFrame确保排序 temp_df = pd.DataFrame({group_col: series.index.get_level_values(group_col) if hasattr(series.index, 'get_level_values') else None, date_col: series.index.get_level_values(date_col) if hasattr(series.index, 'get_level_values') else None, 'value': series_clean}) temp_df = temp_df.sort_values([group_col, date_col]).reset_index(drop=True) result = temp_df.groupby(group_col)['value'].expanding().sum().reset_index(level=0, drop=True) return result else: return series_clean.expanding().sum() # 调用 df['cumulative_revenue'] = safe_expanding_sum( df['revenue'], group_col='merchant_id', date_col='date' )

3.5 多级分组透视：unstack不是魔法，是精确制导

原文df.groupby(['region','product'])['revenue'].mean().unstack()生成矩阵，但没告诉你：unstack()失败的90%原因，是索引里存在重复组合。

重复索引的灾难性后果

# 假设数据里有两条完全相同的region+product组合 df_dup = pd.DataFrame({ 'region': ['North','North','South','South'], 'product': ['Widget','Widget','Gadget','Gadget'], 'revenue': [15000,16000,18000,19000] # North+Widget出现两次 }) # 直接unstack会报错：ValueError: Index contains duplicate entries result = df_dup.groupby(['region','product'])['revenue'].mean().unstack() # 正确做法：先聚合去重，再unstack # 方式1：用agg指定聚合规则（推荐） result = df_dup.groupby(['region','product'])['revenue'].agg('mean').unstack() # 方式2：用drop_duplicates预处理（当需要保留原始记录时） df_clean = df_dup.drop_duplicates(subset=['region','product'], keep='last') result = df_clean.groupby(['region','product'])['revenue'].mean().unstack()

unstack的四大军规

永远用fill_value=0：避免NaN导致下游计算错误（如sum()忽略NaN，但mean()会变小）
用level参数精确控制展开层级：unstack(level=0)展开第一层，unstack(level=1)展开第二层
展开后立即重命名列：unstack().rename(columns={0:'North',1:'South'})
对结果做完整性校验：

# 校验是否所有region都存在 expected_regions = ['North','South','East','West'] missing_regions = set(expected_regions) - set(result.index) if missing_regions: # 用0填充缺失region（保持矩阵结构） for region in missing_regions: result.loc[region] = 0

高级技巧：用pivot_table替代unstack
当unstack不满足需求时，pivot_table是更强大的武器：

# unstack只能展开一个层级，pivot_table可同时处理多层级 result = df.pivot_table( values='revenue', index='region', # 行索引 columns=['product','category'], # 多级列索引 aggfunc='sum', # 可指定多种聚合方式 fill_value=0, # 填充空值 margins=True # 添加行列总计（监管报表刚需） )

4. 实操过程与核心环节实现：从数据加载到交付的全流程

4.1 数据加载阶段：用10行代码规避80%的脏数据问题

生产环境的数据源，从来不是干净的CSV。我接手过最恶心的源文件：Excel里混用三种日期格式（2024/01/01、01-Jan-2024、20240101），金额列有货币符号（¥1,234.56），还有合并单元格。以下是我的标准化加载模板：

def load_transaction_data(filepath: str) -> pd.DataFrame: """银行级交易数据加载器，处理95%的脏数据场景""" # 步骤1：智能读取（自动检测分隔符、编码） try: # 先试UTF-8 df = pd.read_csv(filepath, encoding='utf-8', low_memory=False) except UnicodeDecodeError: # 再试GB2312（国内银行常用） df = pd.read_csv(filepath, encoding='gb2312', low_memory=False) # 步骤2：强制类型转换（比dtype参数更可靠） for col in df.columns: if 'date' in col.lower(): # 智能日期解析（兼容多种格式） df[col] = pd.to_datetime(df[col], infer_datetime_format=True, errors='coerce') elif 'amt' in col.lower() or 'fee' in col.lower() or 'revenue' in col.lower(): # 清洗金额：移除货币符号、逗号，转为float df[col] = df[col].astype(str).str.replace(r'[^\d.-]', '', regex=True) df[col] = pd.to_numeric(df[col], errors='coerce') elif 'id' in col.lower() or 'code' in col.lower(): # ID类字段转字符串（避免科学计数法） df[col] = df[col].astype(str).str.strip() # 步骤3：处理空值（业务规则驱动） # 银行规定：交易金额为空=0，商户ID为空=UNKNOWN amt_cols = [c for c in df.columns if any(kw in c.lower() for kw in ['amt','fee','revenue'])] for col in amt_cols: df[col] = df[col].fillna(0) id_cols = [c for c in df.columns if any(kw in c.lower() for kw in ['id','code','no'])] for col in id_cols: df[col] = df[col].fillna('UNKNOWN') # 步骤4：删除完全重复行（ETL常见错误） df = df.drop_duplicates() # 步骤5：添加数据指纹（用于审计追踪） df['_load_timestamp'] = pd.Timestamp.now() df['_source_file'] = filepath.split('/')[-1] return df # 使用 df = load_transaction_data('data/credit_card_20240415.csv') print(f"加载成功：{len(df)}行，{len(df.columns)}列") print(f"日期范围：{df['transaction_date'].min()} ~ {df['transaction_date'].max()}") print(f"金额列统计：\n{df.select_dtypes(include=['number']).describe()}")

实测效果：某次处理某农商行的200万行POS数据，原SQL脚本因日期格式报错中断；此模板一次性加载成功，耗时23秒（含清洗）。

4.2 多维聚合实战：构建银行级客户风险画像

现在我们用真实业务场景，把前面所有技术串起来。目标：为某信用卡中心生成客户风险画像，输出6个核心指标。

业务需求分解

指标名称	计算逻辑	维度	业务用途
`risk_score`	交易金额标准差/均值 × 100	客户级	识别资金流动异常客户
`high_value_ratio`	单笔>5万交易笔数/总笔数 × 100	客户级	识别高净值客户
`7d_spend_trend`	近7日日均消费 / 上月日均消费	客户+时间	发现消费能力突变
`category_concentration`	TOP3商户类别交易额占比	客户级	识别消费偏好单一客户
`fee_efficiency`	总手续费/总交易额 × 100	客户级	评估客户价值（手续费收入）
`lifetime_value`	开户至今累计消费	客户+时间	LTV预测基础

完整实现代码

import pandas as pd import numpy as np from datetime import datetime, timedelta def build_customer_risk_profile(df: pd.DataFrame) -> pd.DataFrame: """构建客户风险画像（生产级）""" # 步骤1：数据预处理（复用前面的清洗逻辑） df = df.copy() df['transaction_date'] = pd.to_datetime(df['transaction_date']) df['amount'] = pd.to_numeric(df['amount'], errors='coerce') df = df.dropna(subset=['customer_id', 'amount', 'transaction_date']) # 步骤2：计算基础统计（多列异构聚合） base_stats = df.groupby('customer_id').agg({ 'amount': ['sum', 'mean', 'std', 'count'], 'fee': ['sum'] }) base_stats.columns = ['total_spend', 'avg_txn', 'std_txn', 'txn_count', 'total_fee'] # 步骤3：计算风险分数（自定义函数） def calc_risk_score(series): if len(series) < 3 or series.std() == 0: return 0.0 return round((series.std() / series.mean()) * 100, 2) base_stats['risk_score'] = df.groupby('customer_id')['amount'].apply(calc_risk_score) # 步骤4：高价值交易比例（自定义函数） def calc_high_value_ratio(series): high_value_count = (series > 50000).sum() return round((high_value_count / len(series)) * 100, 2) if len(series) > 0 else 0.0 base_stats['high_value_ratio'] = df.groupby('customer_id')['amount'].apply(calc_high_value_ratio) # 步骤5：7日消费趋势（滚动窗口） # 先构造时间序列（按客户+日期聚合） daily_df = df.groupby(['customer_id', 'transaction_date'])['amount'].sum().reset_index() daily_df = daily_df.sort_values(['customer_id', 'transaction_date']) # 计算近7日均值 daily_df['7d_avg'] = daily_df.groupby('customer_id')['amount'].rolling( '7D', min_periods=1 ).mean().reset_index(level=0, drop=True) # 计算上月日均值（复杂业务逻辑） end_date = daily_df['transaction_date'].max() start_of_month = end_date.replace(day=1) last_month_start = (start_of_month - pd.DateOffset(months=1)).replace(day=1) last_month_end = start_of_month - pd.DateOffset(days=1) last_month_df = daily_df[ (daily_df['transaction_date'] >= last_month_start) & (daily_df['transaction_date'] <= last_month_end) ] monthly_avg = last_month_df.groupby('customer_id')['amount'].mean() # 合并趋势数据 trend_df = daily_df.groupby('customer_id')['7d_avg'].last() trend_df = trend_df.to_frame('7d_avg').join(monthly_avg, on='customer_id', rsuffix='_last_month') trend_df['7d_spend_trend'] = ((trend_df['7d_avg'] / trend_df['amount']) * 100).round(2) trend_df = trend_df.fillna({'7d_spend_trend': 100.0}) # 无上月数据则设为100% # 步骤6：商户类别集中度（多级分组+unstack） category_df = df.groupby(['customer_id', 'merchant_category'])['amount'].sum() # 展开为矩阵 category_matrix = category_df.unstack(fill_value=0) # 计算TOP3占比 def calc_concentration(row): top3 = row.nlargest(3).sum() total = row.sum() return round((top3 / total) * 100, 2) if total > 0 else 0.0 base_stats['category_concentration'] = category_matrix.apply(calc_concentration, axis=1) # 步骤7：手续费效率 base_stats['fee_efficiency'] = ((base_stats['total_fee'] / base_stats['total_spend']) * 100).round(2) # 步骤8：生命周期价值（扩展窗口） # 按开户日期排序（假设数据中有first_txn_date） if 'first_txn_date' in df.columns: df_sorted = df.sort_values(['customer_id', 'transaction_date']) ltv_series = df_sorted.groupby('customer_id')['amount'].expanding().sum() ltv_df = ltv_series.reset_index(level=0, drop=True) base_stats['lifetime_value'] = ltv_df.groupby('customer_id').last() else: # 退化方案：用总消费代替 base_stats['lifetime_value'] = base_stats['total_spend'] # 步骤9：整合所有指标 profile = base_stats.join(trend_df[['7d_s

查看全文

http://www.jsqmd.com/news/1038001/