当前位置：首页 > news >正文

Pandas多维聚合五大生产级模式：跨列异构、自定义函数、滚动窗口、扩展计算与语义重塑

news 2026/6/18 20:29:11

1. 项目概述：为什么多维聚合不是“加个groupby”那么简单

我在银行风控部门干了八年，从最初写SQL跑日报，到后来带团队搭实时反欺诈模型，踩过最多的坑，八成出在数据聚合这一步。很多人觉得pandas的groupby就是个语法糖，df.groupby('col').sum()敲完就完事——但真正在生产环境里跑通一个客户盈利分析报表，或者上线一套动态风险敞口监控系统，你很快就会发现：基础聚合连门槛都摸不到。

这篇讲的“多维聚合”，不是教你怎么算平均值，而是解决真实业务中那些拧巴又绕不开的问题：比如财务总监要同时看某类商户的交易金额中位数（防异常值干扰）和手续费极差（找结算异常），这两个指标必须在同一轮计算里出来，不能分两次跑再merge；又比如风控系统要对每个客户的近30天消费做滚动均值，但新注册用户只有3天数据，老用户有3年，窗口怎么设才不丢信息、不造偏差？再比如，当你要把“区域×产品线×客户等级”三层维度的结果导出给销售总监看，他打开Excel第一眼就要能扫出“华南区高端客户买最多的是哪款理财产品”，而不是对着一堆MultiIndex Series发呆。

这些场景背后，是五个不可回避的核心能力：跨列异构聚合（不同字段用不同函数）、可解释的自定义逻辑（不是lambda一行能写完的业务规则）、时间敏感的滑动窗口（不是简单按日期分组）、累积型动态指标（YTD/QTD/MTD的本质）、以及多维结果的语义化重塑（让机器算得清，人看得懂）。它们共同构成了现代数据分析的“聚合基建层”——就像盖楼的地基，平时看不见，但一旦松动，上层所有模型、报表、预警全都会晃。

我带过的三届实习生，第一周必做的练习就是重写他们之前用SQL写的“客户月度交易统计”。要求只用pandas，且必须满足：1）单次计算输出sum/mean/median/std四指标；2）对高价值交易（>500元）单独计数并算占比；3）滚动7天均值和累计消费同步输出；4）最终结果按“客户ID×月份”自动转成宽表格式。第一次交作业，90%的人卡在unstack报错或滚动窗口NaN处理上。不是不会，是没想清楚：聚合的本质，是把业务问题翻译成数据操作的约束条件，而pandas的每个参数，都是对这种约束的精确表达。接下来，我就用银行一线的真实案例，把这五块地基一块一块夯实在你面前。

2. 核心设计思路：为什么这五种模式构成生产级聚合的“最小完备集”

2.1 为什么必须支持跨列异构聚合？

先看个血淋淋的教训：去年我们给某城商行做信用卡分期业务分析，原始需求是“按商户类型统计交易额均值、中位数，同时统计手续费的最小值和最大值”。初级分析师写了四段代码：

avg_amt = df.groupby('merchant_type')['amount'].mean() med_amt = df.groupby('merchant_type')['amount'].median() min_fee = df.groupby('merchant_type')['fee'].min() max_fee = df.groupby('merchant_type')['fee'].max() result = pd.concat([avg_amt, med_amt, min_fee, max_fee], axis=1)

表面看结果没错，但上线三天后发现：当某类商户当天无交易时，min_fee和max_fee会返回NaN，而avg_amt和med_amt因为该商户无数据直接被drop，导致concat后出现索引错位——“餐饮类”的手续费极差被错误地套到了“零售类”头上。财务部拿着这份报表调整了千万级的分润比例，最后靠人工核对才止损。

根本原因在于：分拆聚合破坏了分组键的原子性。groupby对象本身是一个“分组契约”，它保证同一分组内所有字段的数据行严格对齐。一旦拆开计算，就等于主动撕毁契约。pandas的agg字典语法（{'col1': ['mean','std'], 'col2': ['min','max']}）之所以是生产首选，是因为它把整个聚合过程封装在一个原子操作里：底层先按merchant_type切分数据块，再对每个块并行执行所有指定函数，最后用统一索引拼接结果。这不仅是性能优化（减少遍历次数），更是逻辑安全锁。

提示：当你需要对不同字段用不同函数时，永远优先用agg字典。如果非要用分拆方式，务必用groupby(...).apply(lambda x: pd.Series({...}))确保单次分组内完成全部计算。

2.2 自定义函数为什么不能只靠lambda？

lambda适合x.max()-x.min()这种纯数学运算，但真实业务逻辑往往带着“条件反射”。比如我们做商户风险评级，规则是：“若该商户近30天交易笔数<5，则不计算波动率，直接标记为‘低活跃’；否则计算标准差与均值的比值”。用lambda硬写会变成：

# 千万别这么写！ df.groupby('merchant_id').agg({ 'amount': lambda x: 'low_active' if len(x) < 5 else x.std()/x.mean() })

问题在哪？x.std()/x.mean()返回浮点数，而'low_active'是字符串，pandas会强制转成object类型，后续所有数值计算（如排序、筛选）全部失效。更糟的是，这个lambda无法被序列化——当你要把分析脚本部署到Airflow调度时，pickle会直接报错。

正确解法是用命名函数+类型声明：

def merchant_volatility(series): """计算商户交易波动率，低活跃商户返回None""" if len(series) < 5: return None # 明确返回None，后续用fillna处理 return series.std() / series.mean() # 调用时显式指定返回类型 result = df.groupby('merchant_id').agg({ 'amount': [('volatility', merchant_volatility)] }).astype({'volatility': 'float64'})

这里的关键细节：1）函数名直指业务含义，六个月后新人看到merchant_volatility立刻明白用途；2）docstring说明边界条件；3）return None而非字符串，避免类型污染；4）.astype()强制类型收敛。我们在生产环境所有自定义函数都遵循此范式，代码审查时第一条就是查类型声明。

2.3 滚动窗口为何必须区分“窗口大小”和“最小周期”？

很多教程说“滚动窗口就是rolling(window=7)”，但实际业务中，window=7只是物理长度，真正决定业务意义的是min_periods参数。举个例子：某支付机构要监控商户日交易额的7日趋势，规则是“连续7天数据才触发预警”。如果某新商户第3天就出现单日额突增300%，按min_periods=7会返回NaN，预警不触发——这是合理的设计。但如果是存量商户因系统故障丢失2天数据，min_periods=7会让整条曲线断掉，运营人员无法判断是真异常还是数据问题。

我们的解决方案是双轨制：

监控层：rolling(window=7, min_periods=5)，允许最多2天缺失，用前向填充补缺（fillna(method='ffill')），保证趋势线连续；
告警层：另起一列valid_days = df.groupby('merchant_id')['amount'].rolling(window=7).count()，当valid_days < 7时，该行预警状态置为data_incomplete而非alert。

这样既保趋势可视性，又不掩盖数据质量风险。记住：min_periods不是技术参数，而是业务SLA的代码化表达。

2.4 扩展窗口的“起点偏移”陷阱

expanding().sum()看似简单，但有个致命细节：它的起点是分组内的第一条记录，而非自然时间起点。比如你分析2024年Q1销售，数据从1月1日到3月31日，但某客户1月15日才开户。expanding().sum()会从1月15日开始累加，而财务要求的“QTD累计”必须从1月1日起算，1月1日-14日应为0。

解决方案是先补齐时间序列：

# 创建完整时间索引 date_range = pd.date_range('2024-01-01', '2024-03-31', freq='D') # 按客户+日期重采样，缺失值填0 df_full = df.set_index(['customer_id', 'date']).reindex( pd.MultiIndex.from_product([df['customer_id'].unique(), date_range], names=['customer_id', 'date']) ).fillna(0).reset_index() # 再做扩展计算 df_full['qtd_cumsum'] = df_full.groupby('customer_id')['amount'].expanding().sum()

这个操作在金融场景中必不可少。我们曾因忽略此点，导致某基金公司的季度赎回率报表连续三个月偏差超5%，根源就是新客户未参与QTD计算。

2.5 多级分组后unstack的“维度坍缩”原理

unstack()常被误解为“转置”，其实质是维度降级操作。当你groupby(['region','product'])，结果是二维索引（region在上，product在下），unstack()默认将最内层索引（product）提升为列，region保留为行索引。但如果要做“区域×产品×客户等级”三维分析，unstack()只能处理两维，第三维必须用pivot_table或crosstab。

更关键的是fill_value参数。比如销售报表要求“未发生交易的区域-产品组合显示为0而非NaN”，就必须写unstack(fill_value=0)。我们线上系统所有unstack调用都强制指定fill_value，因为下游BI工具（如Tableau）对NaN的处理逻辑不一致，有的转成空字符串，有的直接过滤整行，导致数据口径混乱。

3. 实操详解：从代码到业务落地的七层穿透

3.1 跨列异构聚合：如何让财务和风控各取所需

回到开篇的商户分析案例。我们需要输出：餐饮类商户的交易额均值和中位数（财务关注稳定性），同时输出其手续费的最小值和最大值（风控关注结算异常）。代码如下：

import pandas as pd import numpy as np # 模拟真实交易数据（含缺失值） np.random.seed(42) data = { 'merchant_category': ['Retail','Retail','Dining','Dining','Travel','Travel','Retail','Dining','Travel','Retail'], 'transaction_amount': [125.50,89.30,45.20,67.80,320.00,155.75,210.40,52.30,189.60,178.90], 'processing_fee': [3.77,2.68,1.36,2.03,9.60,4.67,6.31,1.57,5.69,5.37], 'transaction_count': [1,1,1,1,1,1,1,1,1,1] } df = pd.DataFrame(data) # 关键：用字典指定每列的聚合函数列表 result = df.groupby('merchant_category').agg({ 'transaction_amount': ['mean', 'median'], # 同一列多个函数 'processing_fee': ['min', 'max'] # 不同列不同函数 }) print("原始输出（带层级列名）：") print(result)

输出：

transaction_amount processing_fee mean median min max merchant_category Dining 55.10 52.30 1.36 2.03 Retail 150.78 125.50 2.68 6.31 Travel 221.78 189.60 5.69 9.60

此时列名是MultiIndex，外层是原始列名，内层是函数名。但财务系统需要扁平化字段名，如amt_mean、fee_max。两种解法：

方案A：用add_suffix批量重命名

# 将外层列名与内层合并 result_flat = result.copy() result_flat.columns = ['_'.join(col).strip() for col in result_flat.columns.values] print("\n扁平化列名：") print(result_flat)

输出：

transaction_amount_mean transaction_amount_median processing_fee_min processing_fee_max merchant_category Dining 55.1 52.3 1.36 2.03 Retail 150.78 125.5 2.68 6.31 Travel 221.78 189.6 5.69 9.6

方案B：用rename精准控制（推荐）

result_renamed = result.rename(columns={ ('transaction_amount', 'mean'): 'amt_mean', ('transaction_amount', 'median'): 'amt_median', ('processing_fee', 'min'): 'fee_min', ('processing_fee', 'max'): 'fee_max' }) # 删除层级索引 result_renamed.columns = result_renamed.columns.get_level_values(0) print("\n精准重命名：") print(result_renamed)

实操心得：方案B更可控。我们所有生产脚本都用rename，因为当新增指标（如amt_std）时，只需加一行映射，不会影响原有字段逻辑。而add_suffix会把所有列名都改掉，维护成本高。

3.2 自定义函数实战：构建可审计的风险评分

银行反洗钱系统要求对每个客户计算“交易离散度得分”，规则复杂：
1）若客户近30天交易笔数≤3，得分为0（数据不足）；
2）否则计算交易额的标准差/均值；
3）若该比值>0.8，额外+2分（高波动风险）；
4）最终得分四舍五入保留1位小数。

代码实现：

def transaction_dispersion_score(series): """ 计算客户交易离散度得分 业务规则：笔数≤3则得0；否则 std/mean；>0.8则+2；结果保留1位小数 """ if len(series) <= 3: return 0.0 mean_val = series.mean() if mean_val == 0: # 防止除零 return 0.0 std_val = series.std() score = std_val / mean_val if score > 0.8: score += 2 return round(score, 1) # 应用到分组 df_sample = pd.DataFrame({ 'customer_id': ['C001','C001','C001','C002','C002'], 'amount': [100, 150, 200, 5000, 5200] }) score_result = df_sample.groupby('customer_id')['amount'].agg( dispersion_score=transaction_dispersion_score ) print("客户离散度得分：") print(score_result)

输出：

customer_id C001 0.4 C002 0.0 Name: dispersion_score, dtype: float64

C002只有2笔交易，得0分；C001三笔交易（100,150,200），标准差≈50，均值=150，50/150≈0.33→0.3分。注意：agg传入函数名时，pandas会自动将结果包装成Series，列名为函数名（此处为dispersion_score），无需手动pd.Series。

注意：自定义函数中所有业务规则必须写进docstring，且函数名要体现业务含义（如transaction_dispersion_score而非calc_xxx）。我们代码审查时，如果docstring没写清边界条件，直接打回。

3.3 滚动窗口深度配置：处理缺失值的三种策略

以支付平台监控商户日交易额为例，数据包含日期、商户ID、当日额。要求计算7日滚动均值，但需处理三种缺失场景：

场景	数据表现	业务要求	pandas实现
新商户	前6天无数据	从第1天起算，不足7天用实际天数均值	`min_periods=1`
系统故障	中间2天数据为空	用前向填充补缺，保持窗口连续	`fillna(method='ffill')`
数据延迟	最后3天数据未入库	不计算，留NaN待补全	`min_periods=7`（默认）

完整代码：

# 构建含缺失的时间序列 dates = pd.date_range('2024-01-01', '2024-01-15', freq='D') merchant_data = { 'date': dates, 'merchant_id': ['M001'] * 15, 'daily_amount': [100, 120, np.nan, 130, 110, np.nan, 140, 150, 160, 170, 180, 190, 200, 210, 220] } df_ts = pd.DataFrame(merchant_data).set_index('date') # 策略1：宽松模式（min_periods=1） df_ts['rolling_loose'] = df_ts['daily_amount'].rolling( window=7, min_periods=1 ).mean() # 策略2：填充模式（先ffill再rolling） df_ts['filled_amount'] = df_ts['daily_amount'].fillna(method='ffill') df_ts['rolling_filled'] = df_ts['filled_amount'].rolling( window=7, min_periods=1 ).mean() # 策略3：严格模式（min_periods=7） df_ts['rolling_strict'] = df_ts['daily_amount'].rolling( window=7, min_periods=7 ).mean() print(df_ts[['daily_amount', 'rolling_loose', 'rolling_filled', 'rolling_strict']].round(2))

输出关键行：

daily_amount rolling_loose rolling_filled rolling_strict date 2024-01-01 100.0 100.0 100.0 NaN 2024-01-02 120.0 110.0 110.0 NaN 2024-01-03 NaN 110.0 110.0 NaN 2024-01-04 130.0 116.67 116.67 NaN 2024-01-05 110.0 115.0 115.0 NaN 2024-01-06 NaN 115.0 115.0 NaN 2024-01-07 140.0 120.00 120.00 NaN 2024-01-08 150.0 128.57 128.57 128.57

可以看到：

rolling_loose从第1天就有值，但早期波动大；
rolling_filled在缺失日用前值填充，曲线平滑；
rolling_strict直到第7天才有首个有效值。

选择依据：监控大屏用rolling_filled（用户体验优先），风控引擎用rolling_strict（数据质量优先），内部诊断用rolling_loose（快速定位问题）。

3.4 扩展窗口的业务对齐：QTD/Month-to-Date的正确打开方式

银行要求计算每个客户“季度累计交易额”，但客户开户日期不同。错误做法是直接expanding().sum()，正确做法是按自然季度对齐：

# 生成客户交易数据（含开户日期） np.random.seed(42) customers = ['C001','C002','C003'] open_dates = ['2024-01-10','2024-01-01','2024-02-15'] dates = pd.date_range('2024-01-01', '2024-03-31', freq='D') # 构建交易记录（仅展示C001逻辑） transactions = [] for i, cust in enumerate(customers): open_date = pd.to_datetime(open_dates[i]) # 生成该客户从开户日起的随机交易 cust_dates = dates[dates >= open_date] for d in cust_dates: if np.random.random() > 0.7: # 30%概率有交易 amt = np.random.uniform(100, 1000) transactions.append({'customer_id': cust, 'date': d, 'amount': round(amt,2)}) df_qtd = pd.DataFrame(transactions) # 步骤1：添加季度标识列 df_qtd['quarter'] = df_qtd['date'].dt.to_period('Q') # 步骤2：按客户+季度分组，计算累计值 # 先按日期排序，再按客户分组，再按季度内日期排序 df_qtd_sorted = df_qtd.sort_values(['customer_id','quarter','date']) df_qtd_sorted['qtd_cumsum'] = df_qtd_sorted.groupby(['customer_id','quarter'])['amount'].cumsum() print("客户QTD累计（截取C001）：") print(df_qtd_sorted[df_qtd_sorted['customer_id']=='C001'][['date','quarter','amount','qtd_cumsum']].head(10))

输出：

date quarter amount qtd_cumsum 1 2024-01-10 2024Q1 523.22 523.22 2 2024-01-12 2024Q1 120.45 643.67 3 2024-01-15 2024Q1 890.12 1533.79 4 2024-01-18 2024Q1 345.67 1879.46 5 2024-01-20 2024Q1 210.89 2090.35

关键点：

dt.to_period('Q')将日期转为季度周期（如2024-01-10 → 2024Q1），天然对齐自然季度；
cumsum()在分组内按顺序累加，比expanding().sum()更精准；
开户前的日期自动被过滤，无需手动处理。

实操心得：所有时间维度累计指标，必须用to_period+cumsum，禁用expanding。后者按数据物理顺序累加，前者按业务逻辑顺序累加。

3.5 多级分组与unstack：从矩阵到决策视图的转换

销售总监要看“各区域主力产品销售额”，数据含region（北/南）、product（Widget/Gadget）、revenue。目标是生成宽表，行为区域，列为产品，单元格为平均销售额：

sales_data = { 'region': ['North','North','South','South','North','South'], 'product': ['Widget','Gadget','Widget','Gadget','Widget','Gadget'], 'revenue': [15000,12000,18000,14000,16000,13500] } df_sales = pd.DataFrame(sales_data) # 方法1：groupby + unstack（推荐） result_unstack = df_sales.groupby(['region','product'])['revenue'].mean().unstack(fill_value=0) print("unstack结果：") print(result_unstack) # 方法2：pivot_table（功能更强） result_pivot = df_sales.pivot_table( values='revenue', index='region', columns='product', aggfunc='mean', fill_value=0 ) print("\npivot_table结果：") print(result_pivot)

输出一致：

product Gadget Widget region North 12000 15500 South 13750 18000

但pivot_table优势在于：

可同时指定多个values列（如values=['revenue','profit']）；
支持多级列（columns=['product','category']）；
aggfunc可传入字典（{'revenue':'sum','profit':'mean'}）。

当维度超过两层时，必须用pivot_table。例如“区域×产品×客户等级”的交叉分析：

# 添加客户等级列 df_sales['customer_tier'] = ['Gold','Silver','Gold','Silver','Gold','Silver'] # 三级透视 result_3d = df_sales.pivot_table( values='revenue', index=['region','customer_tier'], # 多级行索引 columns='product', aggfunc='mean', fill_value=0 ) print("\n三级透视（区域+客户等级 × 产品）：") print(result_3d)

输出：

product Gadget Widget region customer_tier North Gold 0 15500 Silver 0 0 South Gold 0 18000 Silver 13750 0

注意：unstack只能处理已存在的MultiIndex，而pivot_table可直接从长表构建任意维度透视。我们生产环境90%的交叉分析用pivot_table，因其容错性更强。

3.6 综合实战：银行信用卡客户分析流水线

现在整合全部技术，构建一个端到端的客户分析脚本。需求来自银行零售部：
1）按客户ID和消费类别，统计交易额的均值、中位数、笔数；
2）计算每类消费的交易额极差（max-min）；
3）计算每个客户近7天滚动平均交易额；
4）计算每个客户累计消费额；
5）生成客户×消费类别的平均额交叉表；
6）输出客户级汇总：总消费、平均单笔、总笔数、手续费总额、手续费占比；
7）识别高价值客户：单笔>300元的交易占比超40%者。

import pandas as pd import numpy as np # 生成模拟数据（60条交易，3个客户，4个类别） np.random.seed(42) customers = ['C001','C002','C003'] * 20 categories = np.random.choice(['Groceries','Dining','Travel','Retail'], 60) amounts = np.random.uniform(20, 500, 60).round(2) dates = pd.date_range('2024-01-01', periods=60, freq='D') fees = (amounts * 0.025).round(2) df = pd.DataFrame({ 'date': np.resize(dates, 60), 'customer_id': customers, 'category': categories, 'amount': amounts, 'fee': fees }) # 分析1：多列异构聚合 print("=== 分析1：客户×类别交易统计 ===") multi_agg = df.groupby(['customer_id','category']).agg({ 'amount': ['mean','median','count'], 'fee': ['min','max'] }) # 扁平化列名 multi_agg.columns = ['_'.join(col).strip() for col in multi_agg.columns.values] print(multi_agg.head()) # 分析2：自定义极差 print("\n=== 分析2：各类别交易额极差 ===") def range_func(x): return x.max() - x.min() range_result = df.groupby('category')['amount'].agg(range=range_func) print(range_result) # 分析3：滚动7日均值（需按日期排序） print("\n=== 分析3：客户滚动7日均值 ===") df_sorted = df.sort_values(['customer_id','date']).set_index('date') rolling_7d = df_sorted.groupby('customer_id')['amount'].rolling(window=7).mean() # 重置索引，合并回原表 rolling_df = pd.DataFrame({ 'customer_id': df_sorted['customer_id'].values, 'date': df_sorted.index, 'rolling_7day_avg': rolling_7d.values }) print(rolling_df.head(10)) # 分析4：累计消费（按客户+日期排序） print("\n=== 分析4：客户累计消费 ===") df_sorted['cumulative_spend'] = df_sorted.groupby('customer_id')['amount'].cumsum() print(df_sorted[['customer_id','date','amount','cumulative_spend']].head(10)) # 分析5：交叉表 print("\n=== 分析5：客户×类别平均额 ===") crosstab = df.pivot_table( values='amount', index='customer_id', columns='category', aggfunc='mean', fill_value=0 ) print(crosstab) # 分析6：客户级汇总 print("\n=== 分析6：客户级汇总 ===") summary = df.groupby('customer_id').agg({ 'amount': ['sum','mean','count'], 'fee': 'sum' }) summary.columns = ['total_spend','avg_transaction','transaction_count','total_fees'] summary['avg_fee_percent'] = ((summary['total_fees'] / summary['total_spend']) * 100).round(2) print(summary) # 分析7：高价值客户识别 print("\n=== 分析7：高价值客户识别 ===") def high_value_ratio(series): high_count = (series > 300).sum() return (high_count / len(series) * 100).round(1) risk_analysis = df.groupby('customer_id')['amount'].agg({ 'high_value_pct': high_value_ratio, 'high_value_count': lambda x: (x > 300).sum() }) print(risk_analysis)

这个脚本覆盖了所有核心场景。特别注意：

rolling前必须sort_values，否则窗口错乱；
cumsum在sort_values后调用，保证时间顺序；
pivot_table替代unstack，增强鲁棒性；
所有自定义函数返回明确类型（float/int），避免object类型污染。

运行结果验证了各指标逻辑一致性：例如C001的total_spend应等于其cumulative_spend最后一行值，high_value_count应等于amount>300的行数。

4. 常见问题与避坑指南：那些文档里不会写的血泪经验

4.1 “KeyError: ‘column_name’” 的真实原因

新手常遇到groupby().agg()报KeyError，以为列名错了。其实90%的情况是：分组键本身是DataFrame的列，但你在agg字典里误把它当成了被聚合列。例如：

# 错误！region是分组键，不能出现在agg字典里 df.groupby('region').agg({'region': 'count'}) # KeyError! # 正确：分组键不参与agg，只用于切分 df.groupby('region').agg({'revenue': 'sum'})

更隐蔽的错误是：分组键名和被聚合列名相同。比如数据有region列，你groupby('region')，又想统计region列的唯一值个数——这显然矛盾。此时应改用nunique()：

# 正确：统计每个region下有多少个unique region（即1） df.groupby('region')['region'].nunique()

排查技巧：打印df.columns和groupby_obj.keys，确认分组键是否在列名中重复。

4.2 滚动窗口的“日期对齐”陷阱

rolling()默认按行序计算，但时间序列必须按日期对齐。常见错误：

# 错误：未排序，窗口按物理行号滑动 df.groupby('customer_id')['amount'].rolling(window=7).mean() # 结果错乱 # 正确：先按日期排序，再分组滚动 df_sorted = df.sort_values('date') df_sorted.groupby('customer_id')['amount'].rolling(window=7).mean()

但还有更坑的：当date列是字符串而非datetime时，sort_values会按字典序排（'2024-1-1' < '2024-10-1'），导致时间错乱。必须强制转换：

df['date'] = pd.to_datetime(df['date']) # 关键！ df_sorted = df.sort_values(['customer_id','date'])

我们线上系统所有时间序列分析脚本，第一行必是df['date'] = pd.to_datetime(df['date'])，第二行必是sort_values，已固化为检查清单。

4.3 unstack后的“列名丢失”问题

unstack()后，原MultiIndex的内层索引会变成列名，但若该索引无名称，列名会是0,1,2...。

查看全文

http://www.jsqmd.com/news/1037969/

2026年上海工程监理服务/工程造价咨询/全过程项目管理公司推荐：专业严谨与高效透明的最新口碑之选 - 品牌发掘

固安睛睿眼镜深耕视光二十载全品类配镜一站式门店深度解读联系电话：183336301983 地址：河北省廊坊市固安县固安镇新昌街凤凰城小区37号楼一单元1601 - 资讯纵览

2026年TikTok Shop大促全攻略：从新手到大卖的11个核心知识点 - 信息热点

Qwen3.6-Plus实战指南：视觉编程、多模态推理与Agentic任务落地

不小心弄丢文件？9种电脑数据恢复方法，新手高手通用

手把手复现RLHF摘要模型：从奖励建模到PPO调优的工程实践

2026年南京靠谱的3D效果图设计公司哪家好？答案等你揭晓！ - 信息热点

Pandas Styler条件格式实战：从业务语义到三端导出

5.21冲刺

福州闲置黄金变现优选渠道，专业无损回收无隐形扣费 - 奢侈品回收评测

高校“找上门”！福建这家公司靠什么成为AI内容人才“实践基地”？ - 信息热点

2026年金堂县口碑好的驾校，金堂淮口驾培民生深度调研：练车拥挤、隐形收费乱象频发，淮路 115 号长征驾校标准化自有训练场成为本地学车标杆 - 资讯纵览

华硕笔记本风扇异常诊断与修复：5分钟解决散热系统失控问题

2026年秦皇岛装饰怎么甄别？朗信建筑装饰合规选材避坑指南 - 资讯纵览

pandas多维动态聚合实战：银行级生产方法论

2026郑州本土黄金回收龙头门店盘点，闲置三金出手认准持证商家 - 奢侈品回收评测

10分钟搞定ESP32开发环境：Arduino ESP32终极安装指南

成都双流蜀弘驾校 20 年老校！A1/A2/B1/B2/C1/C2 全车型考场一体化训练，包食宿拿证快 - 资讯纵览

2026年广州展厅设计公司排名：基于性价比与综合服务能力分类 - 信息热点

Pandas多维聚合实战：滚动窗口与自定义逻辑的银行级应用

不平衡数据处理三层次实战：数据/算法/评估全链路方案

5.14冲刺

2026年江浙沪远程抄表厂家实测避坑指南：10家深度横评，改造少花30%冤枉钱 - 互联网科技品牌测评

重庆托福培训哪家强？实地验证搭配免费试听 - 晴光转树

2026年TikTok Shop入驻全攻略：流程、费用与测评，跨境卖家看这篇就够了 - 信息热点