当前位置：首页 > news >正文

多维聚合本质：从数据立方体到坐标系操纵

news 2026/6/25 12:27:01

1. 这不是简单的“分组求和”——多维聚合中的数据变形本质

你有没有遇到过这样的场景：一张销售明细表里，同时记录了日期、地区、产品线、渠道、客户等级、促销类型六七个维度，而老板突然甩来一句：“给我看下华东区A类产品在Q3通过线上渠道、针对VIP客户的平均单笔成交额，再按周拆解趋势。”——这时候，Excel的透视表点到第三层就开始卡顿，SQL写到第五个JOIN就怀疑人生，Pandas的groupby链式调用嵌套得连自己都看不懂。这根本不是“分组+聚合”四个字能概括的事，而是多维空间里的数据拓扑重构。我做零售BI系统落地的八年里，超过60%的数据交付瓶颈，不在于算力，而在于对“多维聚合中数据操纵”的底层理解偏差。Part 20这个标题看似是教程序列里的普通一节，实则直指现代数据分析最核心的“空间建模”能力：当数据不再是一维时间轴或二维表格，而是n维立方体（Cube）时，我们操作的已不是“值”，而是“坐标系本身”。这里的Data Manipulation，不是filter、sort、rename这种表层动作，而是像地质学家处理岩层一样，在保持维度拓扑关系的前提下，对切片（Slice）、切块（Dice）、旋转（Pivot）、钻取（Drill-down）、上卷（Roll-up）进行精准外科手术。它决定了你能否把“华东区A类产品Q3线上VIP客户周均单笔成交额”这个业务问题，无损地映射为内存中可计算、可缓存、可复用的数据结构。新手常误以为学透groupby就掌握了多维聚合，但真实项目里，90%的性能问题和逻辑错误，都出在维度对齐（Dimension Alignment）、空值填充策略（Null Handling in Sparse Cubes）、聚合路径依赖（Aggregation Path Dependency）这三个隐形关卡上。这篇文章不讲语法，只讲你在凌晨三点调试报表时真正需要的底层逻辑、实操陷阱和可抄作业的工程化方案。

2. 多维聚合的数据操纵：从概念模型到内存结构的全链路拆解

2.1 为什么传统“先过滤再聚合”思路在多维场景下必然失效？

很多工程师的第一反应是：先把数据按所有维度条件WHERE过滤，再GROUP BY聚合。这在二维场景下可行，但在真正的多维聚合中，它会制造三重灾难。以电商订单表为例，假设我们要计算“各城市、各品类、各价格带的GMV占比”，如果先WHERE city IN ('北京','上海') AND category='手机'，那么“北京-手机-5000+”这个组合的占比，就永远无法和“上海-电脑-3000-5000”这个组合放在同一张占比表里比较——因为WHERE提前砍掉了其他维度的坐标轴。这就像你要画一幅中国地图的海拔热力图，却先用剪刀把西藏和海南剪下来单独处理，最后拼回去时发现比例尺、投影方式全乱了。真正的多维聚合必须保留完整的维度空间（Full Dimension Space），让每个聚合结果都携带其完整的坐标元数据（Coordinate Metadata）。Pandas的pd.crosstab或pivot_table之所以比纯SQL更适配探索性分析，正是因为它默认构建的是稀疏矩阵（Sparse Matrix）结构，每个单元格（Cell）都隐式绑定着行索引（Row Index）和列索引（Column Index）的笛卡尔积。但问题来了：当维度超过3个，比如要同时看城市×品类×月份×用户等级，笛卡尔积会爆炸式增长。北京有16个行政区，手机有50个子类，12个月，用户等级4级，理论组合数是16×50×12×4=38,400种。但实际数据中，可能只有2000条有效记录——这就是稀疏性（Sparsity）。处理稀疏多维数据，核心不是“怎么算”，而是“怎么存”。我见过太多团队用MySQL的宽表强行存储所有维度组合，结果单表突破千万行后，一个简单的SUM查询耗时从0.2秒飙升到17秒。解决方案不是换数据库，而是换数据结构：用多维数组（Multi-dimensional Array）替代关系表。NumPy的ndarray天然支持轴（axis）概念，你可以把城市设为axis=0，品类axis=1，月份axis=2，用户等级axis=3，然后用np.sum(arr, axis=(0,2))直接对城市和用户等级求和，无需遍历每一行。但NumPy的硬伤是它要求所有维度长度固定，而现实业务中“北京有16个区，深圳只有9个”，这就引出了更灵活的方案——XArray库。XArray的DataArray对象允许每个维度（Dim）拥有独立的坐标标签（Coordinate Labels），比如da.coords['city'] = ['北京','上海','广州']，da.coords['category'] = ['手机','电脑','平板']，完全解耦了数据形状（Shape）和语义标签（Labels）。这才是多维聚合操纵的正确起点：先定义坐标系，再填充数据点，最后执行空间运算。

2.2 维度对齐（Dimension Alignment）：多源数据融合的隐形地雷

真实项目中，你的销售数据可能来自ERP系统（含城市、产品编码、订单日期），用户画像来自CDP平台（含城市、用户ID、等级），促销活动来自营销中台（含城市、品类、活动开始日）。三张表的“城市”字段表面一致，但细看：ERP里是“北京市”，CDP里是“北京”，营销中台里是“BJ”。这种看似微小的字符串差异，在多维聚合时会直接导致维度断裂——XArray的combine_by_coords操作会将它们视为三个完全不同的坐标点，结果就是“北京”在销售表里有1000万GMV，在用户表里只有50万用户，在促销表里压根没记录。这不是数据质量问题，而是维度建模的契约缺失。我在某快消品公司做数据中台升级时，就栽在这个坑里：他们用Spark SQL做跨源JOIN，结果发现“华东大区”的GMV总是比财务系统少12%，排查三天才发现，ERP系统把“江苏省”归入“华东”，而CDP系统把“江苏”和“安徽”合并为“华东-皖苏片区”。解决维度对齐，必须建立三层防御：第一层是标准化主数据（Master Data），用统一的城市编码（如GB/T 2260国标代码）替代文字描述；第二层是坐标注册中心（Coordinate Registry），在XArray加载数据前，强制调用da = da.assign_coords(city=city_mapping[da.city])进行标签映射；第三层是对齐验证（Alignment Validation），每次融合前执行assert set(da1.coords['city']) == set(da2.coords['city'])。更狠的实战技巧是：在ETL阶段就生成维度快照表（Dimension Snapshot Table），比如dim_city表包含city_id,city_name,region,tier四列，并设置唯一约束。这样后续所有事实表都只引用city_id，彻底规避字符串歧义。记住，多维聚合的稳定性，70%取决于维度对齐的严谨性，而不是算法有多炫酷。

2.3 空值处理：稀疏立方体中的“零”到底代表什么？

当我们在多维空间里看到一个空单元格，比如“拉萨-奢侈品-2023年1月”的GMV是NaN，这到底意味着什么？新手常直接用fillna(0)，但这是灾难性操作。它混淆了三种本质不同的“空”：物理缺失（Physical Absence）——该城市根本没有奢侈品门店，所以不可能有销售；逻辑缺失（Logical Absence）——有门店但当月恰好没卖出去；采集缺失（Collection Absence）——数据埋点故障，导致销售记录没传上来。这三者对应的业务决策完全不同：对物理缺失，应该从分析范围中剔除；对逻辑缺失，可以按历史均值填充；对采集缺失，则必须触发告警。XArray提供了dropna()、fillna()、interpolate()三套武器，但关键在判断依据。我的经验是：先用da.count(dim='time')统计每个空间坐标的非空时间点数量，如果某城市在全年12个月里有11个月数据，只有1月为空，大概率是逻辑缺失；如果某城市全年12个月全空，则极可能是物理缺失。更精细的做法是引入空值语义标记（Null Semantics Flag）：在数据加载时，根据上游系统元数据，给每个NaN打上标签，比如da.attrs['null_reason'] = 'no_store'或'data_loss'。这样后续聚合时，da.sum(skipna=False)就能保留空值语义，避免错误归因。曾有个金融客户坚持用0填充所有空值，结果风控模型把“从未发生过违约的优质客户”和“数据丢失的高风险客户”同等对待，差点酿成重大误判。多维聚合不是数学游戏，每一个数字背后都是真实的业务实体，对“空”的敬畏，是专业性的分水岭。

3. 核心操作实录：从原始数据到可交互多维立方体的七步工程化流程

3.1 第一步：定义维度契约与坐标空间（15分钟）

别急着写代码，先用纸笔画出你的维度星型模型（Star Schema）。以零售分析为例，核心事实表是fact_sales，维度表包括dim_city（城市）、dim_product（产品）、dim_time（时间）、dim_customer（客户）。关键动作是：为每个维度确定粒度（Granularity）和层级（Hierarchy）。比如dim_time不能只写“日期”，必须明确是“日粒度”，并定义层级：date → week → month → quarter → year；dim_city要定义city → province → region三级。然后用YAML格式固化契约，这是团队协作的宪法：

dimensions: city: id: city_id labels: [city_name, province, region] hierarchy: [city_name, province, region] product: id: product_id labels: [product_name, category, subcategory, brand] hierarchy: [brand, category, subcategory, product_name] time: id: date_id labels: [date, week_start, month, quarter, year] hierarchy: [year, quarter, month, week_start, date]

这个文件要纳入Git版本管理，任何维度变更都需PR审核。我见过最惨的案例是：市场部临时加了个“促销标签”维度，开发直接在代码里硬编码if promo_tag == '618': ...，结果双11大促时所有报表崩盘——因为没人知道这个维度的存在。契约即法律。

3.2 第二步：构建坐标注册中心（20分钟）

用XArray的Dataset创建维度坐标中心。不要直接从CSV读取，而是用pandas.read_csv预处理，确保坐标标签标准化：

import pandas as pd import xarray as xr # 读取城市维度表，强制转换为标准编码 city_df = pd.read_csv('dim_city.csv') city_df['city_code'] = city_df['city_name'].map({ '北京市': 'BJ', '上海市': 'SH', '广州市': 'GZ', '拉萨市': 'LS', '乌鲁木齐市': 'WLMQ' }) # 实际项目用完整映射表 # 构建坐标变量 coords = { 'city': ('city', city_df['city_code'].values), 'province': ('city', city_df['province'].values), 'region': ('city', city_df['region'].values) } city_ds = xr.Dataset(coords=coords) city_ds.to_netcdf('coords/city.nc') # 持久化存储

关键点：coords字典的键是维度名，值是元组(dim_name, values)，其中dim_name必须与后续数据数组的维度名严格一致。这里'city'既是维度名，也是坐标变量名，形成强绑定。NetCDF格式是科学计算领域的事实标准，支持压缩、分块、元数据嵌入，比CSV高效十倍。

3.3 第三步：加载事实数据并绑定坐标（25分钟）

从数据库或Parquet文件加载销售事实表，重点是用坐标ID替代文字标签，并按维度顺序组织数据：

# 假设sales_df有列：city_id, product_id, date_id, amount, qty sales_df = load_from_db("SELECT city_id, product_id, date_id, amount FROM fact_sales") # 按维度顺序排序，为后续reshape铺路 sales_df = sales_df.sort_values(['city_id', 'product_id', 'date_id']) # 获取各维度唯一值数量（用于reshape） n_cities = len(city_ds.city) n_products = 1000 # 从dim_product表获取 n_dates = 365 # 转为多维数组：shape=(n_cities, n_products, n_dates) # 注意：这里用0填充缺失组合，实际项目用sparse array amount_array = np.zeros((n_cities, n_products, n_dates)) for _, row in sales_df.iterrows(): i = int(row['city_id']) - 1 # 假设ID从1开始 j = int(row['product_id']) - 1 k = int(row['date_id']) - 1 amount_array[i, j, k] = row['amount'] # 创建XArray DataArray，绑定坐标 da_sales = xr.DataArray( amount_array, dims=['city', 'product', 'date'], coords={ 'city': city_ds.city, 'product': np.arange(1, n_products + 1), 'date': pd.date_range('2023-01-01', periods=n_dates) } )

提示：生产环境绝不用for循环填充，改用pd.pivot_table生成稠密矩阵，或用scipy.sparse.coo_matrix处理超大规模稀疏数据。此处为演示逻辑清晰性。

3.4 第四步：执行空间聚合运算（10分钟）

现在才是真正的“多维聚合操纵”。以计算“各城市各季度GMV”为例：

# 先按日期维度上卷（Roll-up）到季度 da_qtr = da_sales.groupby('date.quarter').sum(dim='date') # 再按城市维度聚合（注意：不指定dim则对所有非分组维度求和） city_qtr_gmv = da_qtr.sum(dim='product') # 对product维度求和 # 结果是二维数组：dims=['city', 'quarter'] # 可直接转为DataFrame供BI工具消费 df_result = city_qtr_gmv.to_dataframe(name='gmv')

关键洞察：groupby操作在XArray中不是SQL式的分组，而是坐标重采样（Coordinate Resampling）。date.quarter会自动将date坐标映射到quarter坐标，无需手动构造季度字段。更强大的是多轴同时聚合：da_sales.sum(dim=('city', 'product'))直接得到全量时间序列，比逐层调用快3倍。而da_sales.mean(dim='date', skipna=True)则对每个城市-产品组合计算日均值，完美解决“不同城市营业天数不同”的归一化难题。

3.5 第五步：动态切片与钻取（5分钟）

业务人员常要“从全国下钻到华东，再下钻到上海”。XArray的.sel()和.isel()是神技：

# 按坐标标签选择（.sel）：语义清晰 east_china = da_sales.sel(city=['SH', 'NJ', 'HZ', 'HF']) # 按位置索引选择（.isel）：性能极致 shanghai_only = da_sales.isel(city=1) # 假设上海是索引1 # 钻取：先选城市，再选产品子集 sh_smartphones = shanghai_only.sel(product=samsung_phones) # 切块：同时筛选多个维度 q3_2023_sh_highend = da_sales.sel( city='SH', date=slice('2023-07-01', '2023-09-30'), product=highend_products )

注意：.sel()支持字符串、列表、切片（slice）、函数等多种选择器，比SQL的WHERE灵活百倍。但切记：.sel()会触发坐标匹配，若标签不存在会报错；.isel()则纯粹按位置，适合已知索引的程序化操作。

3.6 第六步：空值语义化填充（15分钟）

针对不同空值类型，采用分级策略：

# 步骤1：识别物理缺失（无门店城市） physical_absent = city_ds.region == 'None' # 从dim_city表获取 da_sales = da_sales.where(~physical_absent, other=np.nan) # 步骤2：对逻辑缺失（有门店但无销售）用前向填充 da_filled = da_sales.interpolate_na( dim='date', method='linear', # 线性插值 limit=30 # 最多填充30天，防止单月异常 ) # 步骤3：对采集缺失（全月为空）标记告警 monthly_nulls = da_filled.groupby('date.month').count(dim='city') if (monthly_nulls == 0).any(): send_alert(f"Month {monthly_nulls.idxmax().item()} has full nulls!")

这套组合拳，把“填0”这种粗暴操作，升级为基于业务规则的智能修复。

3.7 第七步：导出为交互式立方体（10分钟）

最终产物不是静态CSV，而是可被BI工具直接消费的多维立方体：

# 保存为Zarr格式（比NetCDF更适合大数据） da_sales.to_zarr('cube/sales_v2023.zarr', mode='w') # 或生成OLAP Cube元数据（兼容Apache Druid/ClickHouse） cube_meta = { "name": "sales_cube", "dimensions": ["city", "product", "date"], "measures": ["amount", "qty"], "aggregations": ["sum", "count", "avg"] } with open('cube/meta.json', 'w') as f: json.dump(cube_meta, f)

Zarr格式支持分块（chunking）、并行IO、云存储（S3/GCS），一个10TB的销售立方体，用Dask-XArray可实现亚秒级响应。这才是现代多维分析的基础设施。

4. 高频问题排查手册：那些让你加班到凌晨的“幽灵Bug”

4.1 问题：聚合结果数值翻倍，但SQL验证无误

现象：用XArray计算的“各城市GMV总和”是SQL结果的2.1倍，反复核对代码无语法错误。

根因分析：维度重复（Dimension Duplication）。检查sales_df是否包含重复的city_id-product_id-date_id组合。常见于：1）订单表和订单明细表未正确JOIN，导致1对多膨胀；2）ETL过程对同一笔交易执行了多次清洗。用sales_df.duplicated(subset=['city_id','product_id','date_id']).sum()可快速定位。

解决方案：在加载阶段强制去重，并记录日志：

duplicates = sales_df.duplicated(subset=['city_id','product_id','date_id']) if duplicates.any(): logger.warning(f"Found {duplicates.sum()} duplicate records") sales_df = sales_df.drop_duplicates(subset=['city_id','product_id','date_id'])

4.2 问题：`.sel(city=['BJ','SH'])`报KeyError，但`da.city.values`明明包含'BJ'

现象：da.city.values输出array(['BJ', 'SH', 'GZ'], dtype='<U2')，但.sel(city=['BJ','SH'])仍报错。

根因分析：XArray的.sel()默认使用method='exact'，要求完全匹配。而da.city.values返回的是numpy数组，其元素类型是<U2（Unicode字符串），但CSV加载时可能混入不可见字符（如BOM头、尾部空格）。用repr(da.city.values[0])查看真实值，很可能是'BJ\x00'。

解决方案：加载时清洗坐标标签：

city_codes = pd.read_csv('dim_city.csv')['city_code'].str.strip() da_sales = da_sales.assign_coords(city=city_codes.values)

4.3 问题：内存爆满，Python进程被OOM Killer杀死

现象：处理1亿行销售数据时，da_sales.sum(dim='product')触发内存暴涨至64GB。

根因分析：XArray默认在内存中构建稠密数组。1亿行数据，若维度组合数达1000万，float64数组需80MB，但中间计算（如groupby）会生成临时数组，导致内存峰值飙升。

解决方案：启用Dask延迟计算（Lazy Evaluation）：

import dask.array as da # 用Dask Array替代NumPy Array dask_array = da.from_array(amount_array, chunks=(1000, 100, 365)) da_sales = xr.DataArray( dask_array, # 注意：这里是dask.array dims=['city', 'product', 'date'], coords={...} ) # 所有操作变为延迟执行，.compute()才真正计算 result = da_sales.sum(dim='product').compute()

Dask会自动分块、并行、溢出到磁盘，内存占用稳定在2GB内。

4.4 问题：时间维度聚合结果与财务系统不一致

现象：XArray计算的“2023年Q3 GMV”比财务系统少0.3%，但明细核对无差异。

根因分析：时区陷阱（Timezone Trap）。财务系统用UTC+8（北京时间）结算，而你的date坐标是Naive Datetime（无时区信息）。当跨日交易（如23:59下单，00:05支付）在时区转换时被切分到不同日期。

解决方案：强制统一时区：

# 加载时指定时区 da_sales = da_sales.assign_coords( date=pd.date_range('2023-01-01', periods=365, tz='Asia/Shanghai') ) # 聚合前先转换为本地时区 da_local = da_sales.convert_calendar('standard').swap_dims({'date': 'date'})

4.5 问题：`.groupby('date.month').sum()`结果月份顺序错乱

现象：聚合结果的月份坐标是[4, 5, 6, 1, 2, 3]，而非[1, 2, 3, 4, 5, 6]。

根因分析：XArray的groupby默认按坐标值排序，而date.month返回的是整数1-12，但若原始数据只包含4-6月和1-3月，分组后会按数值升序排成[1,2,3,4,5,6]，但你的业务要求按时间顺序[4,5,6,1,2,3]（跨年Q3）。

解决方案：用groupby_bins按时间区间分组：

# 定义Q3时间区间 q3_bins = pd.date_range('2023-07-01', '2023-10-01', freq='MS') # Month Start da_q3 = da_sales.groupby_bins('date', q3_bins, labels=['Q3-2023']).sum()

5. 工程化进阶：从单机脚本到企业级多维分析平台

5.1 维度版本控制：如何应对“城市区划调整”这类业务变更？

2023年国务院批复撤销某市辖区，新增两个功能区。你的历史报表必须保持可追溯性——2022年的“原辖区A”不能突然变成2023年的“新功能区B”。解决方案是维度版本化（Dimension Versioning）：在dim_city表中增加valid_from和valid_to字段，构建SCD Type 2（缓慢变化维）。XArray加载时，为每个时间点选择有效的坐标：

def get_city_coords(as_of_date): """根据生效日期获取城市坐标""" valid_cities = city_df[ (city_df['valid_from'] <= as_of_date) & (city_df['valid_to'] >= as_of_date) ] return valid_cities['city_code'].values # 构建时间感知的坐标 coords = { 'city': ('city', get_city_coords('2023-01-01')), 'date': pd.date_range('2023-01-01', '2023-12-31') }

更优雅的是用xarray-simlab库，它原生支持维度生命周期管理。

5.2 实时多维聚合：当Kafka流数据撞上XArray

传统批处理无法满足“大促实时大屏”需求。我们的方案是：用Flink消费Kafka订单流，每5秒输出一个{city, product, amount}的JSON，由Python服务接收并更新内存立方体：

from xarray import Dataset import threading # 全局立方体（线程安全） CUBE_LOCK = threading.RLock() current_cube = None def update_cube(record): global current_cube with CUBE_LOCK: if current_cube is None: # 初始化空立方体 current_cube = xr.DataArray( np.zeros((n_cities, n_products)), dims=['city', 'product'], coords={'city': city_codes, 'product': product_ids} ) # 原子更新 i = city_to_idx[record['city']] j = product_to_idx[record['product']] current_cube[i, j] += record['amount'] # Flink每5秒调用一次 @app.route('/update', methods=['POST']) def handle_update(): record = request.get_json() update_cube(record) return {'status': 'ok'}

配合Redis缓存，可支撑每秒10万次更新，端到端延迟<800ms。

5.3 权限驱动的多维视图：如何让销售总监只看到“华东”，而CEO看到“全球”？

多维立方体天然支持坐标级权限（Coordinate-level ACL）。在加载数据时，为每个用户角色预计算视图：

# 定义角色权限 ROLE_PERMISSIONS = { 'sales_director': {'city': ['SH', 'NJ', 'HZ']}, 'ceo': {'city': 'ALL'} } def get_user_view(role, cube): if ROLE_PERMISSIONS[role]['city'] == 'ALL': return cube else: return cube.sel(city=ROLE_PERMISSIONS[role]['city']) # API层拦截 @app.route('/api/gmv') @auth_required def get_gmv(): user_role = get_current_role() view = get_user_view(user_role, current_cube) return view.sum(dim='product').to_dict()

比RBAC（基于角色的访问控制）更细粒度，且无需在每次查询时过滤，性能提升10倍。

5.4 自动化测试：为多维聚合编写单元测试的正确姿势

别再用assert result == expected这种脆弱断言。多维聚合测试的核心是不变性验证（Invariance Testing）：

def test_aggregation_invariance(): # 测试1：上卷一致性（Roll-up Consistency） monthly = da_sales.groupby('date.month').sum() quarterly = da_sales.groupby('date.quarter').sum() # 验证：Q1 = Jan+Feb+Mar assert (quarterly.sel(quarter=1) == monthly.sel(month=[1,2,3]).sum()).all() # 测试2：维度正交性（Dimension Orthogonality） # 交换聚合顺序，结果应一致 a = da_sales.sum(dim='city').sum(dim='product') b = da_sales.sum(dim='product').sum(dim='city') assert (a == b).all() # 测试3：空值传播（Null Propagation） # 在任意维度插入NaN，聚合结果应保持NaN da_test = da_sales.copy() da_test[0, 0, 0] = np.nan assert np.isnan(da_test.sum(dim='city')[0, 0])

这些测试覆盖了多维聚合的数学本质，比校验具体数值可靠得多。

6. 我踩过的坑与终极建议：多维聚合不是技术，而是业务翻译

在给某国际快消集团做全球销售分析平台时，我犯过最蠢的错误：把“亚太区”（APAC）的坐标定义为['CN', 'JP', 'KR', 'AU']，结果上线后发现印度市场（IN）的GMV被计入“其他”，因为印度在法务上属于EMEA大区，但销售体系里又划归亚太。这个错误导致季度财报差错1.2亿美元。它让我彻底明白：多维聚合的第一步，永远不是写代码，而是和业务方一起画出那张“谁在什么时候、用什么方式、定义了什么”的权力地图。技术只是翻译器，而真正的难点在于：1）识别哪些维度是“刚性契约”（如国家代码必须用ISO 3166），哪些是“柔性标签”（如“高端客户”每年定义都变）；2）接受多维空间里没有绝对真理，只有当前业务共识下的最优近似。我现在接手新项目，第一周只做三件事：1）拿到所有维度表的ER图和变更日志；2）访谈5个一线业务人员，问他们“当你说到‘华东’，脑子里第一个浮现的是哪几个城市？”；3）用白板画出维度间的血缘关系（Lineage），标出哪些维度由哪个系统主控。至于代码？那是第15天才开始写的。Part 20这个标题，表面讲数据操纵，实则是一场持续的业务对话。当你能用da_sales.sel(region='APAC').sum(dim='city')算出数字时，真正的挑战才刚开始——这个数字，是否真的回答了业务问题？还是只是用技术正确，掩盖了业务失真？记住，最好的多维聚合工程师，一半是数据科学家，一半是业务人类学家。

查看全文

http://www.jsqmd.com/news/1074803/