当前位置：首页 > news >正文

pandas多维聚合七种生产级模式与避坑指南

news 2026/7/30 14:45:12

1. 项目概述：为什么多维聚合不是“加个groupby”就能搞定的事

我在银行数据平台组干了八年，从最早用SQL写几十行嵌套子查询做客户分层，到后来带团队搭实时风险计算引擎，踩过的坑比写的代码还多。今天聊的这个主题——“多维聚合中的数据操作”，听起来像教科书里的一个章节标题，但实际在生产环境里，它直接决定着风控模型能不能当天上线、月报能不能准时发出、甚至监管报送系统会不会凌晨三点给你发告警邮件。

你肯定见过这种场景：业务方早上十点甩来一句话：“把上季度所有分行、按产品大类、再拆到客户等级，算出每类客户的平均交易额、中位数、最大单笔、最小单笔、标准差，还要加上滚动30天的均值对比，最后导出Excel给管理层看。”——这根本不是“加个groupby”能解决的。它是一整套数据处理逻辑的组合拳，涉及维度嵌套、函数混用、时序对齐、结果展平、空值策略、性能边界，甚至下游系统对接格式的兼容性问题。我亲眼见过一个看似简单的“区域×产品×时间”三维度聚合，在没做预处理的情况下，把一台32核64G的分析型数据库拖到CPU持续98%、查询超时失败，就因为没意识到pandas默认的multi-index unstack会生成稀疏矩阵，而下游BI工具又不支持稀疏结构。

这篇文章讲的，不是pandas文档里那几行示例代码，而是我们每天在真实银行系统、保险精算平台、支付风控后台里反复打磨出来的七种核心聚合模式。它们覆盖了95%以上的生产级分析需求：从最基础的跨列多指标并行计算，到需要写自定义函数的业务逻辑封装；从滚动窗口识别异常消费模式，到扩展窗口追踪客户生命周期价值；再到多级分组后如何把“看起来像树”的结果变成“一眼能看懂”的表格。每一个模式背后，都有我们为绕过某个pandas底层限制、适配某类脏数据、或满足监管报表字段命名规范而专门设计的变通方案。

关键词里提到的“Towards AI”，其实代表了一类典型用户：不是纯算法工程师，也不是只会拖拽BI的业务人员，而是夹在中间的数据分析师、数据产品经理、或者刚转岗的数据工程师。他们需要的是能立刻抄作业的代码、知道为什么这么写、更要知道哪里会翻车。所以接下来的内容，我会用银行信用卡交易分析这个贯穿始终的真实案例，把每个技术点掰开揉碎，告诉你参数怎么选、错误怎么调、结果怎么验、上线前必须检查哪五项。这不是理论推演，是我们在生产环境里用真金白银试出来的经验。

2. 多维聚合的整体设计思路与方案选型逻辑

2.1 为什么不能只用SQL？——从执行效率到逻辑可维护性的硬约束

很多人第一反应是：“这不就是SQL的GROUP BY + WINDOW函数吗？”没错，理论上可以。但我在三家金融机构的实际项目中发现，纯SQL方案在四个关键环节会掉链子：

第一，开发效率与调试成本。一个包含三层嵌套（比如先按客户分组算滚动均值，再按地区聚合，最后和历史同期比），外加多个自定义计算（如加权平均、分位数、条件计数）的SQL，动辄三四百行。改一个字段名，要同时改SELECT、GROUP BY、ORDER BY、WHERE里的十几处；查一个中间结果，得把整个大查询拆成七八个临时表。而pandas里，你只需要改一行agg()字典里的键值对，或者重写一个def risk_metrics()函数，整个逻辑就更新了。我们做过对比测试：同样一个“按商户类别+客户等级计算欺诈风险分”的分析，SQL开发+调试平均耗时11.5小时，pandas脚本从零开始写+验证只用了3.2小时。

第二，内存与计算资源的弹性调度。SQL跑在数据库里，资源由DBA统一管控。但很多分析任务是临时性的、探索式的，比如风控经理突然想看看“过去7天内，北上广深四个城市里，餐饮类商户中交易金额超过500元且频次大于3次的客户，其后续30天的违约率变化”。这种即席查询如果全扔给生产库，轻则拖慢核心交易，重则触发熔断。而pandas运行在分析服务器上，你可以自由控制chunksize、dtype、usecols，甚至用dask做分布式切分。我们有个经典案例：处理1.2亿条信用卡流水，用PostgreSQL的窗口函数跑了47分钟，用pandas+modin（基于ray的加速层）只用了8分12秒，且全程没影响数据库SLA。

第三，业务逻辑的封装与复用。SQL里写复杂的CASE WHEN嵌套，或者用PL/pgSQL写存储过程，虽然可行，但很难做单元测试，也几乎无法跨项目复用。而pandas的自定义函数，天然支持pytest，可以打桩模拟输入、断言输出。我们把“反洗钱可疑交易识别规则”封装成十几个独立函数，放在公司内部PyPI仓库里，风控、合规、审计三个部门的分析师，只要pip install bank-analytics-rules，就能直接调用risk_score_v2(series)获得标准化评分，不用再各自实现一遍“单日累计交易超5万且对手方分散度低于0.3”的逻辑。

第四，结果形态与下游系统的无缝衔接。监管报送要求XML格式，BI看板要JSON，运营同事要Excel。SQL返回的是二维表，转换格式还得额外写ETL脚本。pandas原生支持to_xml()、to_json()、to_excel()，而且unstack()后的DataFrame结构，和Excel的透视表、Tableau的数据源、Power BI的矩阵视图完全一致。我们曾为某省银保监局报送系统定制过一套聚合流程，核心就是用pandas做完所有计算，然后用openpyxl微调表头样式、冻结首行、设置数字格式，整个流程全自动，报送准确率从人工校验的92.7%提升到99.99%。

所以，我们的技术选型原则很明确：SQL负责数据抽取和基础清洗（ETL层），pandas负责复杂聚合与业务建模（Analytics层），最终结果通过API或文件交付给下游（Delivery层）。这不是技术偏好，而是经过数十个生产项目验证的、成本效益最优的分工。

2.2 七种核心聚合模式的适用边界与组合策略

我把生产中最常用的聚合模式归纳为七种，它们不是孤立存在的，而是像乐高积木一样可以组合使用。关键是要理解每种模式的“能力边界”和“副作用”。

模式	核心能力	典型适用场景	性能特征	必须规避的陷阱
1. 跨列多指标聚合	单次groupby，不同列应用不同函数	收入分析仪表盘（销售额均值+毛利中位数+订单数）	极快，O(n)时间复杂度	切勿在agg字典里混用需排序的函数（如quantile）和非排序函数，会导致结果错位
2. 自定义函数聚合	封装任意Python逻辑，支持状态保持	风控评分（加权移动平均）、合规计算（特定分位数）	中等，取决于函数复杂度	函数内禁止修改传入series的原始值（如series.iloc[0]=1），pandas会静默失败
3. 滚动窗口聚合	基于时间/序列位置的滑动计算	异常检测（30天滚动均值偏离度）、趋势监控	内存敏感，窗口越大越耗内存	时间序列必须严格排序且无重复索引，否则rolling().mean()结果不可信
4. 扩展窗口聚合	从起点累积至当前点的计算	客户生命周期价值（LTV）、YTD业绩达成率	稳定，内存占用线性增长	不适用于需要“向前看”的场景（如预测），只能回溯
5. 多级分组+unstack	将多索引结果转为宽表矩阵	销售看板（行=区域，列=产品，值=销售额）	快，但结果可能稀疏	若分组键组合存在大量空缺（如某区域无某产品销售），unstack后会产生大量NaN，需提前fill_value或dropna
6. 分组内apply高级操作	在每个分组内执行任意DataFrame操作	客户分群（按交易频次/金额聚类）、序列建模	最慢，O(n×m)复杂度，慎用	避免在apply里做IO操作（如读文件、调API），会严重拖慢速度
7. 分组后重采样（resample）	专为时间序列设计的频率转换	日粒度数据转周/月汇总、补全缺失日期	依赖DatetimeIndex，需预处理	必须确保索引是datetime类型，字符串日期会报错且不提示

这七种模式，90%的生产需求只需组合前五种。第六种（apply）我们团队有条铁律：除非你确认无法用agg+transform替代，否则禁止使用。因为它本质是循环，当数据量超过50万行时，性能会断崖式下跌。第七种（resample）是滚动窗口的特化版，只用于时间序列，优势在于自动处理日期对齐和缺失填充，比手动rolling更鲁棒。

举个组合实例：我们要做“各分行每日交易笔数的周环比分析”。步骤是：① 先用df.groupby(['branch', 'date']).size()得到日粒度笔数；② 对每个分行分组，用resample('W').sum()转为周粒度；③ 用pct_change()计算环比；④unstack('branch')生成分行×周的矩阵。四步，清晰、可测、易维护。如果硬要用SQL，就得写三层嵌套窗口函数，还容易在周末日期处理上出错。

3. 核心细节解析与实操要点

3.1 跨列多指标聚合：不只是语法，更是结果结构的认知革命

看原文示例里这行代码：

result = df.groupby('merchant_category').agg({ 'transaction_amount': ['mean','median'], 'processing_fee': ['min','max'] })

输出是带层级列名的DataFrame：

transaction_amount processing_fee mean median min max Dining 55.10 52.30 1.36 2.03

新手常犯的第一个错误，就是试图用result['transaction_amount']['mean']去取值。这是错的！因为result['transaction_amount']返回的是一个Series，而['mean']会触发Series的标签查找，但此时Series的索引是['mean', 'median']，所以result['transaction_amount']['mean']反而会报KeyError。正确姿势是：

# 方法1：用元组索引（推荐，最直观） mean_amount = result[('transaction_amount', 'mean')] # 方法2：用xs()方法提取一级（适合批量操作） amount_stats = result.xs('transaction_amount', axis=1, level=0) # 方法3：扁平化列名（上线前必做！） result.columns = ['_'.join(col).strip() for col in result.columns.values] # 结果列名变为：'transaction_amount_mean', 'transaction_amount_median', ...

为什么强调“上线前必做扁平化”？因为下游系统几乎都不认多层列名。Excel导入会把('transaction_amount', 'mean')当成一个字符串列名，BI工具可能直接报错。我们团队的强制规范是：所有生产脚本的agg()之后，必须紧跟列名扁平化处理，并用下划线连接，符合数据库字段命名惯例（小写字母+下划线）。

第二个隐藏陷阱是聚合函数的执行顺序与空值处理。pandas的agg()对每个列-函数组合是独立执行的，这意味着：

['mean', 'std']会分别计算均值和标准差，各自处理自己的NaN；
但如果用agg({'col': lambda x: x.mean() / x.std()})，则x.mean()和x.std()共享同一份NaN过滤逻辑，结果更一致。

更关键的是，mean()默认跳过NaN，但count()统计的是非空值个数，size()统计的是总行数。如果你要计算“有效交易占比”，必须用count()/size()，而不是count()/len(df)，因为后者没考虑分组。

第三个实战技巧：如何安全地添加新指标而不破坏现有逻辑？我们不用直接改agg字典，而是用assign()链式调用：

# 原始聚合 base_agg = df.groupby('category').agg({ 'amount': ['mean', 'median'], 'fee': 'sum' }) # 安全添加新指标：交易笔数 final_result = base_agg.assign( transaction_count=df.groupby('category')['amount'].count() )

这样，新指标的计算逻辑独立，不影响原有agg的结果结构，也方便单独测试。

3.2 自定义函数聚合：业务逻辑的“可审计性”设计

原文展示了lambda和named function两种方式。lambda适合一行逻辑，比如lambda x: x.max() - x.min()。但生产环境里，我严禁团队用lambda写任何超过15个字符的逻辑。原因有三：

不可调试：lambda没有名字，报错堆栈里只显示<lambda>，你根本不知道是哪个agg里出的问题；
不可测试：没法对lambda写单元测试，业务逻辑黑盒化；
不可追溯：六个月后你看到agg({'amount': lambda x: ...})，完全猜不出这个计算代表什么业务含义。

所以，我们强制要求：所有自定义聚合函数必须是独立的、有完整docstring的named function，并放入analytics/rules/目录下统一管理。

以“加权平均交易额”为例，原文的weighted_average函数有缺陷：它用np.linspace(0.5,1.5,len(series))生成权重，但当series长度为1时，linspace(0.5,1.5,1)返回array([1.])，没问题；但当series为空（len=0）时，会报错。生产代码必须防御性编程：

def weighted_average_transaction(series, weight_decay=0.95): """ 计算加权平均交易额，近期交易权重更高，模拟客户行为时效性 Parameters: ----------- series : pd.Series 交易金额序列，索引为时间（降序排列，最新在前） weight_decay : float, default=0.95 权重衰减系数，越接近1表示越重视历史，越接近0表示越重视最近 Returns: -------- float : 加权平均值，若series为空则返回np.nan Business Rationale: ------------------- 银行信用卡中心认为，客户最近30天的消费模式比3个月前更能反映其当前信用状况。 此函数用于动态调整客户风险评分中的"消费活跃度"因子。 """ if len(series) == 0: return np.nan if len(series) == 1: return float(series.iloc[0]) # 生成指数衰减权重：最新一笔权重=1，次新=weight_decay，依此类推 weights = np.array([weight_decay ** i for i in range(len(series))]) weights = weights[::-1] # 反转，使最新交易权重最大 return float(np.average(series, weights=weights)) # 使用时 result = df.groupby('customer_id')['amount'].agg(weighted_average_transaction)

注意几个关键点：

参数显式化：weight_decay作为可配置参数，而不是硬编码在函数里。上线后可通过配置中心动态调整，无需改代码；
完备的docstring：不仅说明参数，更强调“Business Rationale”，让半年后的自己或审计员一眼看懂为什么这么设计；
空值防御：len(series)==0和==1都做了处理，避免线上报错；
返回类型声明：float()强制转换，确保下游不会因类型不一致出错。

我们还有个硬性规定：所有自定义函数必须通过pytest测试，至少覆盖三种case：正常数据、含NaN数据、空Series。测试用例就放在函数同文件下，用if __name__ == "__main__":包裹，方便随时运行验证。

3.3 滚动窗口聚合：时间序列对齐的生死线

滚动窗口（rolling）是风控和运营分析的命脉，但也是最容易翻车的模块。原文示例用rolling(window=3).mean()，看起来简单，但生产环境里，有五个致命细节必须死磕：

第一，索引必须是DatetimeIndex且严格升序。这不是建议，是铁律。我们曾有个项目，上游数据源的时间戳是字符串，开发同学用pd.to_datetime()转换后没检查，结果发现某些日期被解析成2024-01-01 00:00:00，某些是2024-01-01（无时分秒），导致索引不唯一。rolling().mean()在遇到重复索引时，会静默地把重复行合并计算，结果完全失真。解决方案是三步走：

# 1. 强制转换并验证 df['date'] = pd.to_datetime(df['date'], errors='coerce') assert df['date'].isnull().sum() == 0, "存在无法解析的日期" # 2. 去重：保留首次出现的记录（或按业务规则聚合） df = df.drop_duplicates(subset=['date', 'customer_id'], keep='first') # 3. 设置索引并排序 df = df.set_index('date').sort_index()

第二，window参数的本质是“行数”还是“时间跨度”？rolling(window=3)是按行数，rolling('7D')才是按时间。前者在数据不均匀时（如周末无交易）会漏掉关键信息。我们所有生产脚本，滚动窗口一律用时间字符串，如rolling('30D')，并配合min_periods=15（确保至少15天有数据才计算，避免早期数据稀疏导致结果波动过大）。

第三，如何处理滚动结果的对齐？rolling().mean()默认是右对齐（即第3行的值是第1-3行的均值），但业务上常需要“截至当日”的值，即左对齐。pandas提供closed参数：

# 默认右对齐：2024-01-03的值 = 2024-01-01至01-03的均值 df['rolling_30d_right'] = df['amount'].rolling('30D').mean() # 左对齐：2024-01-03的值 = 2024-01-03至02-01的均值（未来30天，不常用） df['rolling_30d_left'] = df['amount'].rolling('30D', closed='left').mean() # 更实用的：居中对齐，2024-01-03的值 = 2024-01-02至01-04的均值 df['rolling_30d_center'] = df['amount'].rolling('30D', closed='both').mean()

第四，空值策略必须显式声明。rolling().mean()遇到NaN会跳过，但有时你需要“用前值填充”或“用0填充”。我们团队的标准是：滚动计算结果中的NaN，必须用业务规则填充，而非默认策略。例如，反欺诈系统要求“若过去30天无交易，则滚动均值设为0”，代码为：

df['rolling_30d_amount'] = ( df['amount'] .rolling('30D', min_periods=1) .mean() .fillna(0) # 显式填充，而非依赖默认 )

第五，性能优化：避免在大表上直接rolling。当数据量超千万行，rolling('30D')会遍历每一行找时间窗口，极慢。我们的解法是：先用resample('D').sum()转为日粒度，再对日汇总数据做rolling。日粒度数据通常只有几千行，速度提升百倍。

3.4 扩展窗口聚合：累积计算的稳定性保障

扩展窗口（expanding）比滚动窗口简单，但也暗藏玄机。原文用expanding().sum()计算累计和，这没问题。但当我们计算“累计平均值”时，expanding().mean()和expanding().sum() / expanding().count()结果可能不同——因为前者对NaN更敏感。

核心原则：expanding计算必须与业务定义严格一致。例如，“客户累计消费额”是sum()，但“客户累计平均单笔金额”不是mean()，而是sum()/count()，因为mean()会跳过NaN，而count()统计的是非空笔数，这才是业务真实的分母。

我们有个血泪教训：某次上线“客户年度累计交易笔数”指标，开发用了expanding().count()，但业务方定义是“当年所有交易记录数，包括金额为0的退款单”。而count()跳过了金额为0的行（因为pandas把0当False？不，是count()只统计非空值，0是有效数值），导致指标偏低12%。修复方案是：

# 业务定义：所有交易记录，无论金额是否为0 df['cumulative_transaction_count'] = df.groupby('customer_id').apply( lambda x: x['amount'].notna().cumsum() # notna()返回True/False，cumsum()累加True个数 )

另一个关键是初始值的处理。expanding().sum()的第一行就是该行原始值，这符合直觉。但有些业务要求“首日累计值为0”，比如“累计新增客户数”，第一天不应有新增。这时要用shift(1)：

# 累计新增客户数：第n天的值 = 第1至n-1天的新增总和 df['cumulative_new_customers'] = ( df['new_customer_flag'] .groupby(df['date'].dt.date) # 按日聚合新增数 .sum() .expanding() .sum() .shift(1) # 向下移一位，首日变NaN，再fillna(0) .fillna(0) )

最后，expanding结果必须做类型校验。expanding().sum()返回float64，但累计交易笔数应该是int64。上线前必须astype(int)，否则下游系统可能因类型不匹配报错。

3.5 多级分组+unstack：从“树状结构”到“表格语言”的翻译艺术

groupby(['region','product'])['revenue'].mean().unstack()这行代码，是把“树”变成“表”的魔法。但魔法失效的瞬间，往往就在你按下回车键之后。

第一个陷阱：unstack()的默认行为是填充NaN，但业务上可能需要0或其他值。原文示例没提，但现实中，某区域某产品无销售，填NaN还是0？答案取决于下游：BI工具喜欢NaN（可设为“无数据”），Excel报表常要求0（避免求和出错）。我们团队的规范是：unstack()必须显式指定fill_value，且该值由业务方签字确认。

# 业务确认：无销售即视为0元 result = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=0) # 如果业务说“无销售应留空”，则用None，但注意None在pandas里是NaN result = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=np.nan)

第二个陷阱：unstack()后列名的顺序。unstack()默认把最内层分组键（这里是'product'）转为列，外层（'region'）保留在行索引。但如果你想把region转为列，product保留在行，就得用unstack(level=0)。更稳妥的方式是指定level名称：

# 明确指定要unstack的level result = ( df_sales .groupby(['region','product'])['revenue'] .mean() .unstack(level='product', fill_value=0) # 或 level='region' )

第三个陷阱：结果的稀疏性与内存爆炸。当分组键组合数极大（如1000个区域 × 5000个产品 = 500万列），unstack()会生成一个极度稀疏的DataFrame，内存占用暴增，且下游系统根本无法加载。我们的应对策略是“分而治之”：

# 方案1：先筛选高频组合 top_products = df_sales['product'].value_counts().head(100).index filtered_df = df_sales[df_sales['product'].isin(top_products)] # 方案2：用pivot_table替代，支持aggfunc和fill_value result = df_sales.pivot_table( index='region', columns='product', values='revenue', aggfunc='mean', fill_value=0 )

第四个陷阱：unstack()后如何还原为长表？业务方有时会说：“这个宽表我看不懂，给我变回原来的样子。”这时用stack()，但要注意stack()默认会把NaN转为缺失行。如果unstack时用了fill_value=0，stack()后0会被当有效值。所以，unstack()时用fill_value=np.nan，stack()时用dropna=True，才能完美往返。

最后，一个提升体验的技巧：给unstack后的列名加前缀，避免和原始列名冲突。比如unstack('product').add_prefix('revenue_by_product_')，结果列名就变成revenue_by_product_Widget，一目了然。

4. 实操过程与核心环节实现

4.1 端到端案例：零售银行信用卡客户交易分析流水线

现在，我们把前面所有知识点，整合进一个真实的、可直接运行的生产级分析流水线。目标：为银行信用卡中心生成一份《客户交易健康度日报》，包含7个核心分析模块，全部用pandas实现，代码可直接部署到Airflow或Prefect中。

import pandas as pd import numpy as np from datetime import datetime, timedelta import warnings warnings.filterwarnings('ignore') # 生产环境禁用警告，用日志替代 # ==================== 1. 数据准备与预处理 ==================== def load_and_clean_data(): """模拟从数据库加载并清洗信用卡交易数据""" # 实际项目中，这里会是 pd.read_sql("SELECT ... FROM transactions WHERE date >= ...") np.random.seed(42) dates = pd.date_range('2024-01-01', periods=100, freq='D') customers = [f'C{str(i).zfill(3)}' for i in range(1, 51)] * 2 # 100条记录，50个客户 categories = np.random.choice(['Groceries','Dining','Travel','Retail','Utilities'], 100) amounts = np.random.uniform(10, 2000, 100).round(2) fees = (amounts * np.random.uniform(0.01, 0.03, 100)).round(2) df = pd.DataFrame({ 'date': np.random.choice(dates, 100), 'customer_id': customers, 'category': categories, 'amount': amounts, 'fee': fees, 'merchant_id': np.random.choice([f'M{str(i).zfill(4)}' for i in range(1, 1001)], 100) }) # 关键清洗：去除明显异常（如金额为负、日期超范围） df = df[(df['amount'] > 0) & (df['date'] >= '2024-01-01')] df = df.sort_values(['customer_id', 'date']).reset_index(drop=True) return df # ==================== 2. 核心分析模块 ==================== class CreditCardAnalyzer: def __init__(self, df): self.df = df.copy() self.df['date'] = pd.to_datetime(self.df['date']) self.df = self.df.set_index('date').sort_index() # 模块1：多指标聚合（客户×品类） def analysis_multi_agg(self): """Analysis 1: Transaction Statistics by Customer and Category""" # 注意：这里用size()代替count()，因为count()会跳过NaN，而size()统计所有行 result = self.df.groupby(['customer_id', 'category']).agg({ 'amount': ['mean', 'median', 'std', 'size'], 'fee': ['sum', 'mean'] }) # 扁平化列名 result.columns = ['_'.join(col).strip() for col in result.columns.values] result = result.reset_index() return result # 模块2：自定义函数（交易范围与风险分） def transaction_range(self, series): """Custom aggregation: range of transaction amounts""" if len(series) < 2: return np.nan return series.max() - series.min() def risk_score(self, series): """Risk score: higher variance + higher mean = higher risk""" if len(series) < 5: return np.nan return round((series.std() / series.mean()) * 100, 2) if series.mean() > 0 else np.nan def analysis_custom_agg(self): """Analysis 2: Transaction Range and Risk Score by Category""" result = self.df.groupby('category').agg({ 'amount': [self.transaction_range, 'std', self.risk_score], 'fee': 'sum' }) result.columns = ['_'.join(col).strip() for col in result.columns.values] return result # 模块3：滚动窗口（客户级7日均值） def analysis_rolling_avg(self): """Analysis 3: Rolling 7-Day Average by Customer""" # 按客户分组，对amount做7日滚动均值 rolling_series = self.df.groupby('customer_id')['amount'].rolling('7D').mean() # 重建DataFrame，确保索引对齐 result_df = pd.DataFrame({ 'customer_id': self.df['customer_id'].values, 'date': self.df.index, 'amount': self.df['amount'].values, 'rolling_7day_avg': rolling_series.values }).set_index('date') # 填充首7日的NaN为0（业务规则：无历史数据视为0） result_df['rolling_7day_avg'] = result_df['rolling_7day_avg'].fillna(0) return result_df # 模块4：扩展窗口（客户累计消费） def analysis_cumulative_spend(self): """Analysis 4: Cumulative Spend by Customer""" # 按客户分组，计算累计和 cumulative_series = self.df.groupby('customer_id')['amount'].expanding().sum() result_df = pd.DataFrame({ 'customer_id': self.df['customer_id'].values, 'date': self.df.index, 'amount': self.df['amount'].values, 'cumulative_spend': cumulative_series.values }).set_index('date') return result_df # 模块5：多级分组unstack（客户vs品类均值） def analysis_crosstab(self): """Analysis 5: Average Amount - Customer vs Category""" result = self.df.groupby(['customer_id', 'category'])['amount'].mean().unstack(fill_value=0) # 添加总计行和列 result.loc['TOTAL'] = result.sum() result['TOTAL'] = result.sum(axis=1) return result # 模块6：高管摘要（客户级汇总） def analysis_executive_summary(self): """Analysis 6: Executive Summary - Key Metrics by Customer""" summary = self.df.groupby('customer_id').agg({ 'amount': ['sum', 'mean', 'count', 'std'], 'fee': 'sum' }) summary.columns = ['total_spend', 'avg_transaction', 'transaction_count', 'spend_std', 'total_fees'] summary['avg_fee_percent'] = ((summary['total_fees'] / summary['total_spend']) * 100).round(2) summary['spend_to_fee_ratio'] = (summary['total_spend'] / summary['total_fees']).round(2) return summary.round(2) # 模块7：高级自定义（风险分层） def risk_segmentation(self, series): """High-value vs regular transaction segmentation""" high_val_threshold = 500 high_val_count = (series > high_val_threshold).sum() total_count = len(series) regular_avg = series[series <= high_val_threshold].mean() if total_count > high_val_count else np.nan return pd.Series({ 'high_value_count': high_val_count, 'high_value_pct': round((high_val_count / total_count * 100), 1) if total_count > 0 else 0, 'regular_avg': round(regular_avg, 2) if not np.isnan(regular_avg) else np.nan }) def analysis_risk_segmentation(self): """Analysis 7: Risk Segmentation""" result = self.df.groupby('customer_id')['amount'].apply(self.risk_segmentation) return result # ==================== 3. 主执行函数 ==================== def run_all_analyses(self): """Run all 7 analyses and return a dict of results""" print(f"[{datetime.now().strftime('%H:%M:%S')}] Starting credit card analysis...") results = {} try: results['multi_agg'] = self.analysis_multi_agg() print("✓ Multi-aggregation completed") results['custom_agg'] = self.analysis_custom_agg() print("✓ Custom aggregation completed") results['rolling_avg'] = self.analysis_rolling_avg() print("✓ Rolling average completed") results['cumulative_spend'] = self

查看全文

http://www.jsqmd.com/news/959895/