当前位置：首页 > news >正文

生产级多维聚合：一次groupby搞定可解释、可落地的分析口径

news 2026/6/12 5:20:14

1. 项目概述：为什么多维聚合不是“加个groupby”就能搞定的事

我在银行数据团队干了八年，从刚毕业写SQL跑日报，到后来带三个人的分析引擎组，踩过最多的坑，90%都出在聚合这一步。不是代码报错——那反而是最轻松的；真正要命的是结果对不上、口径不一致、下游系统接不住、业务方拿着报表来问“这个数字怎么算出来的”，你翻代码发现逻辑链断在某个agg()调用里，而那个agg()里嵌着三层lambda、一个自定义函数、外加一个没注释的unstack(fill_value=0)。这种时候，你才真正理解：多维聚合不是数据操作，是业务逻辑的翻译器，是分析意图的语法糖，更是跨团队协作的契约文本。

这篇讲的“Data Manipulation in Multi-Dimensional Aggregation”，核心关键词就四个：多维、同时、可解释、可落地。它不讲pandas基础语法，不教你怎么装环境，而是直击真实生产场景里那些“文档里没写、教程里不提、但每天都在卡你进度”的硬骨头。比如：

为什么财务部要的“分区域+分产品线的平均交易额”，和风控部要的“同一张表里还要带标准差+中位数+最大最小值”，必须在一个agg()里完成，而不是拆成五个groupby再merge？
为什么你写的lambda x: x.max() - x.min()在测试数据上跑得飞快，一上生产就OOM？而换成命名函数+提前过滤异常值，性能反而提升40%？
为什么滚动窗口计算时，rolling(window=7).mean()输出的前6行全是NaN，但业务方坚持要“首日就显示数值”，你最后不是用ffill()糊弄过去，而是改用min_periods=3+业务兜底逻辑？
为什么unstack()后生成的列名是('amount', 'mean')这种元组，导出Excel时客户说“看不懂”，而你加一行result.columns = ['_'.join(col).strip() for col in result.columns]，问题当场解决？

这些都不是“会不会”的问题，是“懂不懂为什么这么设计”的问题。我带过的新人里，80%能写出正确代码，但只有20%能在上线前三天，把所有聚合口径、空值处理逻辑、性能瓶颈点、下游消费方式，一条条写进《分析口径说明书》交给BI和数仓同事。而这20%，三年后基本都成了团队的技术骨干。

所以这篇文章，我把它当成一份“生产级聚合操作手册”来写。它不追求炫技，不堆砌冷门API，每一个案例都来自我经手的真实项目：某股份制银行信用卡反欺诈模型的特征工程、某城商行对公贷款风险敞口日报、某互联网金融平台的用户LTV预测 pipeline。代码可直接抄作业，但更重要的是，每一段背后都藏着一句大实话：“当时我们试了三种写法，A方案在测试环境OK，B方案内存爆了，C方案上线后被业务方打回来三次，最后用D方案——它不漂亮，但稳。”

你不需要是pandas专家，但如果你正在做以下任何一件事，这篇文章就是为你准备的：
✅ 写完groupby发现结果结构混乱，列名像俄罗斯套娃；
✅ 被业务方追问“这个中位数是怎么算的？是不是剔除了退单？”却答不上来；
✅ 滚动计算跑一天，优化后只要12分钟，但不知道瓶颈在哪；
✅ 导出报表给领导看，他指着一个数字问“这个‘平均’是算术平均还是加权平均？权重是什么？”，你当场愣住；
✅ 或者更现实一点：你正对着Jira里那个标着P0的“聚合口径对不上”工单，头皮发麻。

别急。咱们从最常被忽略的底层逻辑开始，一层层剥开。

2. 核心设计思路：为什么“一次聚合”比“五次聚合”更安全、更高效、更可维护

2.1 真实世界的聚合需求，从来不是单点的

先看一个血淋淋的教训。2022年Q3，我们给某银行做信用卡商户风险评分，原始需求是：“按商户类别（Retail/Dining/Travel）统计：平均交易额、中位数交易额、交易金额标准差、最高单笔、最低单笔、交易笔数”。业务方强调：“这六个指标必须基于同一份清洗后的数据源计算，不能因为中间步骤不同导致结果偏差。”

我们第一版方案很“教科书”：

# 方案A：五次独立groupby（错误示范） df.groupby('merchant_category')['amount'].mean().rename('avg_amount') df.groupby('merchant_category')['amount'].median().rename('med_amount') df.groupby('merchant_category')['amount'].std().rename('std_amount') df.groupby('merchant_category')['amount'].max().rename('max_amount') df.groupby('merchant_category')['amount'].min().rename('min_amount') df.groupby('merchant_category').size().rename('count')

然后用pd.concat横向拼起来。逻辑没错，结果也对。但上线三天后，风控模型突然报警：某餐饮类商户的“标准差”比前一天暴涨300%。排查发现，当天数据清洗脚本里加了一行df = df[df['amount'] > 0]，但只在计算标准差前执行了——其他五个聚合用的是原始数据。同一张表，五个口径，五个数据快照。这不是bug，是设计缺陷。

第二版我们改成：

# 方案B：一次groupby + 多重agg（正确起点） df.groupby('merchant_category')['amount'].agg(['mean', 'median', 'std', 'max', 'min']).assign( count=df.groupby('merchant_category').size() )

看起来好了？但很快又出问题：std()遇到全相同值会返回0，而业务要求“少于5笔交易的商户，标准差显示为NULL”。agg()里没法嵌条件判断。

第三版才是生产级解法：

# 方案C：一次groupby + 字典映射 + 命名函数（推荐） def safe_std(series): if len(series) < 5: return np.nan return series.std() def transaction_stats(series): return pd.Series({ 'avg_amount': series.mean(), 'med_amount': series.median(), 'std_amount': safe_std(series), 'max_amount': series.max(), 'min_amount': series.min(), 'count': len(series) }) result = df.groupby('merchant_category')['amount'].apply(transaction_stats)

提示：apply()在数据量小时很灵活，但大数据量下性能不如agg()。真正的生产方案是：先用agg()做无条件聚合，再用transform()或map()补条件逻辑。后面会详解。

为什么方案C是底线？三个硬性理由：

原子性保障：所有指标基于完全相同的分组键和完全相同的数据子集计算，杜绝“数据漂移”；
可审计性：函数名safestd和docstring里写明“<5笔交易返回NaN”，六个月后新人接手，一眼看懂业务规则；
可扩展性：新增一个指标？只需在transaction_stats函数里加一行字典项，不用动外部结构。

2.2 “多维”不是加个括号，而是重构思维模式

业务常说“按地区和产品线分析”，新手立刻写df.groupby(['region', 'product'])。这没错，但问题在后续：

如果你要导出Excel给销售总监，他需要“行是地区，列是产品，单元格是平均销售额”；
如果你要喂给机器学习模型，特征工程需要“每个地区-产品组合生成一个唯一ID”；
如果你要做同比环比，得先按月聚合，再按地区-产品分组，最后计算增长率。

这三个需求，面对同一个groupby(['region', 'product'])，解法完全不同。多维聚合的本质，是让数据结构服务于下游消费场景，而不是让下游去适配你的索引。

这就是unstack()存在的根本意义——它不是pandas的语法糖，而是维度降级的手术刀。groupby(['region', 'product'])产生的是MultiIndex Series，逻辑上是二维的，但物理存储是一维的（索引是元组）。unstack()把其中一个维度（比如product）从索引“抬升”为列，生成真正的二维DataFrame，结构天然匹配报表、BI工具、甚至Excel的透视表。

但unstack()有陷阱。比如：

# 假设数据里没有'North'地区的'Gadget'产品 result = df.groupby(['region', 'product'])['revenue'].sum().unstack() # 输出： # product Gadget Widget # region # North NaN 15500 # South 13750 18000

NaN是合理的，但业务方看到“North Gadget是空”会问：“是没卖出去，还是数据没采集到？”——你得在unstack()里明确告诉系统：“空值代表0，不是缺失”。这就是fill_value=0参数的价值。

注意：fill_value只影响unstack过程中的填充，不影响原始数据。它解决的是“语义缺失”问题，不是“数据缺失”问题。

2.3 时间窗口：滚动与扩展，选错一个，整张报表就失效

时间序列聚合是银行、保险、支付行业的高频场景。但很多人混淆了rolling()和expanding()的适用边界。

滚动窗口（Rolling）：固定长度滑动，如“近7天日均交易额”。核心价值是捕捉短期趋势与异常。
- 业务信号：今日滚动均值突然跌破30日均值2个标准差 → 触发人工核查；
- 技术要点：min_periods参数决定容忍度。min_periods=1会用可用数据计算（首日就是当日值），min_periods=7则严格要求7天数据（前6天全NaN）。选哪个？看业务：风控要敏感，选1；财务报表要严谨，选7。
扩展窗口（Expanding）：从起点累积增长，如“年初至今累计交易额”。核心价值是构建基准参照系。
- 业务信号：当前累计额 vs 年度目标达成率；
- 技术要点：expanding()默认从第1行开始，但实际中常需按客户/产品分组后分别扩展。关键指令是.reset_index(level=0, drop=True)——它把分组键从索引里剥离，让结果能和原DataFrame对齐。漏掉这步，你会得到一个长度不对、索引错乱的Series。

最致命的误区是：用rolling()算YTD。有人写df.sort_values('date').rolling('365D').sum()，看似合理，但'365D'是日历天，不是交易日。如果遇到春节休市7天，这365天里实际只有358个交易日，计算结果就偏高。生产环境必须用window=365（自然日）或window=len(df)（动态长度），并配合业务日历校准。我们团队的标准做法是：先用business_day_count字段标记每个日期是否为交易日，再用rolling(window=365).sum(min_periods=350)，确保有效交易日不低于350天。

3. 实操细节解析：从代码到生产，每一步都有坑要填

3.1 多重聚合：如何让列名不再像密码本

看这段原始代码的输出：

result = df.groupby('merchant_category').agg({ 'transaction_amount': ['mean', 'median'], 'processing_fee': ['min', 'max'] }) print(result) # 输出： # transaction_amount processing_fee # mean median min max # merchant_category # Dining 55.10 52.30 1.36 2.03 # Retail 150.78 125.50 2.68 6.31 # Travel 221.78 189.60 5.69 9.60

这是典型的MultiIndex Columns。外层是原始列名，内层是聚合函数名。对程序员友好，对业务方灾难。导出Excel时，列名显示为('transaction_amount', 'mean')，BI工具可能直接报错。

生产级列名标准化四步法：

扁平化（Flatten）：用列表推导式把元组转为字符串；
语义化（Semantic）：加入业务前缀，避免歧义；
规范化（Normalize）：统一小写、下划线，去掉空格；
可读化（Readable）：对长名做缩写，但保证内部一致。

# 生产环境列名处理模板 result = df.groupby('merchant_category').agg({ 'transaction_amount': ['mean', 'median'], 'processing_fee': ['min', 'max'] }) # 四步标准化 result.columns = [ f"{col[0]}_{col[1]}" # 1. 扁平化: ('transaction_amount', 'mean') -> 'transaction_amount_mean' .replace(' ', '_') # 2. 去空格 .lower() # 3. 统一小写 .replace('transaction', 'txn') # 4. 业务缩写: txn_amount_mean for col in result.columns ] # 最终列名：txn_amount_mean, txn_amount_median, processing_fee_min, processing_fee_max

实操心得：我们团队强制规定，所有对外交付的聚合结果，列名必须满足：① 全小写；② 下划线分隔；③ 业务域缩写前置（如crm_,fraud_,lending_）；④ 长度≤25字符。这条规则写进了《数据交付SOP》，新同事入职第一周就要背。

3.2 自定义聚合：Lambda是糖衣炮弹，命名函数才是铠甲

原始文章里用lambda x: x.max() - x.min()算范围，简洁。但在生产环境，我严禁团队用lambda写聚合函数。原因有三：

不可调试：lambda无法设置断点，出错时只能print大法；
不可复用：同样“计算范围”，风控要用，财务也要用，lambda得复制五遍；
不可文档化：lambda里没法写docstring，半年后没人知道x.max()-x.min()是“交易额极差”还是“手续费极差”。

正确的自定义函数写法（带防御式编程）：

def transaction_range(series, ignore_outliers=False, outlier_iqr_factor=1.5): """ 计算交易金额范围（最大值-最小值） Parameters ---------- series : pd.Series 输入的交易金额序列 ignore_outliers : bool, default False 是否剔除离群值后再计算范围 outlier_iqr_factor : float, default 1.5 IQR离群值判定系数（1.5为标准，3.0为宽松） Returns ------- float or np.nan 范围值；若series为空或全NaN，返回np.nan Examples -------- >>> transaction_range(pd.Series([100, 200, 300])) 200.0 >>> transaction_range(pd.Series([100, 200, 300, 10000]), ignore_outliers=True) 200.0 """ if series.empty or series.isna().all(): return np.nan # 剔除离群值（可选） if ignore_outliers: Q1 = series.quantile(0.25) Q3 = series.quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - outlier_iqr_factor * IQR upper_bound = Q3 + outlier_iqr_factor * IQR series = series[(series >= lower_bound) & (series <= upper_bound)] if series.empty: return np.nan return series.max() - series.min() # 使用 result = df.groupby('merchant_category')['amount'].agg( txn_range=lambda x: transaction_range(x, ignore_outliers=True) )

为什么这个函数能上生产？

✅ 有完整类型提示（pd.Series）和参数说明；
✅ 处理了空数据、全NaN等边界情况；
✅ 支持业务开关（ignore_outliers），同一函数适配不同场景；
✅ 示例（Examples）可直接粘贴进doctest，保证文档即测试。

3.3 滚动窗口：性能杀手藏在`min_periods`和`center`里

rolling()看着简单，但两个参数是性能黑洞：

min_periods：默认等于window，即严格要求满窗。但业务常要“有数据就算”。设min_periods=1，首日就有值，但计算量暴增——pandas会对每个位置重新扫描窗口。
center：默认False（左对齐），但有些业务要“以当日为中心的前后3天均值”。设center=True，pandas内部要做两次对齐，内存占用翻倍。

我们的性能优化清单：

场景	推荐参数	原因	实测效果
实时风控（毫秒级响应）	`min_periods=1`,`center=False`	首日即出值，避免等待	延迟降低92%
日报生成（T+1）	`min_periods=window//2`,`center=False`	平衡灵敏度与稳定性	内存减少35%
季度分析（离线）	`min_periods=window`,`center=False`	严格符合业务定义	结果可审计

关键技巧：用rolling().apply()替代内置函数时，务必加raw=True

# 慢：apply默认传入Series，每次都要构造对象 df['slow'] = df['amount'].rolling(7).apply(lambda x: x.std()) # 快：raw=True传入numpy数组，零拷贝 df['fast'] = df['amount'].rolling(7).apply(np.std, raw=True)

实测100万行数据，后者快4.7倍。

3.4 扩展窗口：`expanding()`不是万能的，`cumsum()`才是真神

expanding().sum()和cumsum()都算累计和，但区别巨大：

expanding().sum()：按分组键重置，适合“每个客户独立累计”；
cumsum()：全局连续累计，适合“全量数据流水账”。

但cumsum()有个隐藏巨坑：它不处理分组！

# 错误：cumsum()无视分组，会把不同客户的交易串起来 df_sorted.groupby('customer_id')['amount'].cumsum() # ❌ 报错！ # 正确：必须用transform，让结果长度对齐原DF df_sorted['cumulative_spend'] = df_sorted.groupby('customer_id')['amount'].transform('cumsum')

transform()是生产环境的隐形冠军。它保证：

输入是分组后的Series；
输出是和原DataFrame等长的Series；
索引自动对齐，无需reset_index()；
支持所有内置聚合函数（'sum', 'mean', 'count'）和自定义函数。

4. 完整实操流程：从原始交易数据到高管决策看板

4.1 数据准备：模拟真实银行信用卡数据

我们不玩pd.DataFrame({'a':[1,2], 'b':[3,4]})这种玩具数据。生产环境数据有三大特征：缺失、异常、非均匀分布。所以模拟数据必须包含：

2000+客户，覆盖高净值（单笔>5000）、普通（200-2000）、小额（<50）三类；
交易时间非均匀：工作日密集，周末稀疏，节假日归零；
缺失值：5%的fee字段为空（系统未捕获），2%的category为NULL（OCR识别失败）；
异常值：0.3%的交易额>10万（疑似测试数据或错误）。

import pandas as pd import numpy as np from datetime import datetime, timedelta np.random.seed(42) n_customers = 2000 n_transactions = 50000 # 客户分层 customers = { 'high_net': ['H' + str(i).zfill(4) for i in range(1, 201)], # 200人 'mid_tier': ['M' + str(i).zfill(4) for i in range(1, 1501)], # 1500人 'entry': ['E' + str(i).zfill(4) for i in range(1, 301)] # 300人 } all_customers = customers['high_net'] + customers['mid_tier'] + customers['entry'] # 交易时间：模拟工作日高峰（10-12点，18-20点） base_dates = pd.date_range('2023-01-01', '2023-12-31', freq='D') # 随机选择50000个时间点，但按工作日加权 workday_mask = ~base_dates.weekday.isin([5,6]) # 周六日为False dates = np.random.choice(base_dates[workday_mask], size=n_transactions, p=[0.8]*len(base_dates[workday_mask])) # 加入时间戳（小时） hours = np.random.choice([10,11,12,18,19,20], size=n_transactions, p=[0.2,0.2,0.2,0.15,0.15,0.1]) timestamps = [d + pd.Timedelta(hours=h) for d,h in zip(dates, hours)] # 交易金额：按客户分层设定分布 amounts = [] for cust_id in np.random.choice(all_customers, n_transactions): if cust_id.startswith('H'): amt = np.random.lognormal(mean=8.5, sigma=0.8) # 均值≈5000 elif cust_id.startswith('M'): amt = np.random.lognormal(mean=5.5, sigma=0.6) # 均值≈250 else: amt = np.random.exponential(scale=30) + 10 # 均值≈40 amounts.append(round(amt, 2)) # 商户类别：按真实比例（零售40%，餐饮25%，旅游15%，娱乐10%，其他10%） categories = np.random.choice( ['Retail', 'Dining', 'Travel', 'Entertainment', 'Others'], size=n_transactions, p=[0.4, 0.25, 0.15, 0.1, 0.1] ) # 手续费：按金额比例，但高净值客户费率更低 fees = [] for amt, cust_id in zip(amounts, np.random.choice(all_customers, n_transactions)): if cust_id.startswith('H'): rate = 0.008 elif cust_id.startswith('M'): rate = 0.012 else: rate = 0.025 fee = round(amt * rate, 2) # 5%概率缺失 if np.random.random() < 0.05: fee = np.nan fees.append(fee) # 构建DataFrame df_raw = pd.DataFrame({ 'transaction_id': [f'TXN{str(i).zfill(8)}' for i in range(1, n_transactions+1)], 'customer_id': np.random.choice(all_customers, n_transactions), 'timestamp': timestamps, 'category': categories, 'amount': amounts, 'fee': fees }) # 加入2% NULL category（OCR失败） null_cat_idx = np.random.choice(df_raw.index, size=int(0.02*n_transactions), replace=False) df_raw.loc[null_cat_idx, 'category'] = np.nan print("原始数据概览：") print(df_raw.info()) print("\n缺失值统计：") print(df_raw.isna().sum())

4.2 分析1：高管摘要看板（Analysis 6的升级版）

原始文章的Analysis 6只做了基础汇总，但真实高管看板需要：

动态口径：区分“活跃客户”（近30天有交易）和“沉默客户”（超90天无交易）；
健康度指标：手续费率是否异常波动；
风险预警：单客户单日交易超5笔且总额>1万，标为“高风险行为”。

# 步骤1：数据清洗与标记 df_clean = df_raw.copy() df_clean['date'] = df_clean['timestamp'].dt.date df_clean['is_active'] = df_clean.groupby('customer_id')['date'].transform( lambda x: (x.max() - x).dt.days <= 30 ) df_clean['is_silent'] = df_clean.groupby('customer_id')['date'].transform( lambda x: (x.max() - x).dt.days >= 90 ) # 步骤2：定义高风险行为（按客户-日期聚合） daily_stats = df_clean.groupby(['customer_id', 'date']).agg({ 'amount': ['sum', 'count'], 'fee': 'sum' }).round(2) daily_stats.columns = ['daily_amount_sum', 'daily_txn_count', 'daily_fee_sum'] daily_stats = daily_stats.reset_index() # 标记高风险日 daily_stats['is_high_risk'] = ( (daily_stats['daily_txn_count'] > 5) & (daily_stats['daily_amount_sum'] > 10000) ) # 步骤3：生成高管摘要（一次聚合完成所有指标） def executive_summary(group): """为每个客户生成高管摘要""" # 基础指标 total_spend = group['amount'].sum() avg_txn = group['amount'].mean() txn_count = len(group) total_fee = group['fee'].sum() # 健康度指标 fee_rate = (total_fee / total_spend * 100) if total_spend > 0 else 0 # 近30天交易占比 recent_mask = group['date'] >= (group['date'].max() - pd.Timedelta(days=30)) recent_ratio = group[recent_mask]['amount'].sum() / total_spend if total_spend > 0 else 0 # 风险指标 high_risk_days = daily_stats[ (daily_stats['customer_id'] == group.name) & daily_stats['is_high_risk'] ]['date'].nunique() return pd.Series({ 'total_spend': round(total_spend, 2), 'avg_transaction': round(avg_txn, 2), 'transaction_count': txn_count, 'total_fees': round(total_fee, 2), 'avg_fee_percent': round(fee_rate, 2), 'recent_activity_ratio': round(recent_ratio, 3), 'high_risk_days': high_risk_days, 'customer_segment': 'high_net' if group.name.startswith('H') else 'mid_tier' if group.name.startswith('M') else 'entry' }) summary_df = df_clean.groupby('customer_id').apply(executive_summary).reset_index() print("高管摘要看板（前10行）：") print(summary_df.head(10)) # 步骤4：按客户分层统计（这才是高管真正要看的） segment_summary = summary_df.groupby('customer_segment').agg({ 'total_spend': ['sum', 'mean'], 'transaction_count': 'sum', 'high_risk_days': 'sum', 'recent_activity_ratio': 'mean' }).round(2) segment_summary.columns = ['_'.join(col).strip() for col in segment_summary.columns] print("\n客户分层汇总：") print(segment_summary)

4.3 分析2：风险分类模型特征工程（Analysis 7的工业级实现）

原始Analysis 7用lambda做风险分段，但生产模型需要：

可复现性：阈值必须固化，不能写死在代码里；
可配置性：不同客群用不同阈值（高净值客户3000，普通客户500）；
可解释性：每个特征必须有业务名称和计算逻辑说明。

# 配置中心：所有阈值集中管理 RISK_CONFIG = { 'high_net': {'high_value_threshold': 3000, 'low_value_threshold': 100}, 'mid_tier': {'high_value_threshold': 500, 'low_value_threshold': 20}, 'entry': {'high_value_threshold': 100, 'low_value_threshold': 5} } def risk_features(series, customer_segment): """生成风险分类特征""" config = RISK_CONFIG.get(customer_segment, RISK_CONFIG['entry']) high_th = config['high_value_threshold'] low_th = config['low_value_threshold'] # 高价值交易 high_mask = series > high_th high_count = high_mask.sum() high_pct = (high_count / len(series) * 100) if len(series) > 0 else 0 # 低价值交易 low_mask = series < low_th low_count = low_mask.sum() low_pct = (low_count / len(series) * 100) if len(series) > 0 else 0 # 中间价值交易均值 mid_mask = (~high_mask) & (~low_mask) mid_avg = series[mid_mask].mean() if mid_mask.any() else np.nan return pd.Series({ 'high_value_count': high_count, 'high_value_pct': round(high_pct, 1), 'low_value_count': low_count, 'low_value_pct': round(low_pct, 1), 'mid_value_avg': round(mid_avg, 2), 'value_concentration': round(high_count / (len(series)+1), 3) # 防0除 }) # 应用：先获取客户分层，再应用特征函数 df_with_segment = df_clean.merge( summary_df[['customer_id', 'customer_segment']], on='customer_id', how='left' ) risk_features_df = df_with_segment.groupby(['customer_id', 'customer_segment'])['amount'].apply( lambda x: risk_features(x, x.name[1]) ).reset_index() print("\n风险特征工程结果（前10行）：") print(risk_features_df.head(10))

4.4 分析3：多维交叉分析（Analysis 5的增强版）

原始unstack()只做了两维，但真实业务要三维：地区 × 产品 × 时间（月）。unstack()最多支持两维，第三维得用pivot_table()。

# 添加地区和月份字段 df_clean['region'] = np.random.choice(['North', 'South', 'East', 'West'], len(df_clean)) df_clean['month'] = df_clean['timestamp'].dt.to_period('M') # 三维交叉：地区 × 产品 × 月份 的平均交易额 crosstab_3d = pd.pivot_table( df_clean, values='amount', index=['region', 'category'], # 行：地区+产品 columns='month', # 列：月份 aggfunc='mean', fill_value=0 ).round(2) print("\n三维交叉分析（地区×产品×月份）：") print(crosstab_3d.head(15)) # 将结果转换为“长格式”供BI工具消费（这是生产交付标准） crosstab_long = crosstab_3d.stack().reset_index(name='avg_amount') crosstab_long.columns = ['region', 'category', 'month', 'avg_amount'] print("\nBI友好长格式（前10行）：") print(crosstab_long.head(10))

5. 常见问题与实战排障：那些让你加班到凌晨的“小问题”

5.1 问题速查表：聚合结果对不上，90%出在这7个地方

问题现象	最可能原因	排查命令	解决方案
`groupby().agg()`结果行数比预期少	分组键含NaN，pandas默认丢弃	`df['col'].isna().sum()`	`dropna=False`参数保留NaN组
`unstack()`后出现大量NaN	目标维度存在缺失组合	`result.index.value_counts()`	用`fill_value=0`或`reindex()`补全
`rolling().mean()`前N行全NaN	`min_periods`未设或设太大	`df.rolling(7).count().head(10)`	设`min_periods=1`或业务兜底值
`expanding().sum()`结果长度不对	未用`reset_index()`对齐索引	`len(result) == len(df)`	`.reset_index(level=0, drop=True)`
自定义函数返回NaN，但期望0	函数未处理空Series	`your_func(pd.Series([]))`	在函数开头加`if series.empty: return 0`
多重agg后列名是元组，导出Excel报错	未扁平化列名	`result.columns`	用`['_'.join(col) for col in result.columns]`
`apply()`性能慢，CPU跑满	未用`raw=True`或传入对象	`%timeit df.rolling(7).apply(np.mean)`	改用`apply(np.mean, raw=True)`