当前位置：首页 > news >正文

多维聚合实战：从SQL到Doris的OLAP数据操作心法

news 2026/6/15 7:08:36

1. 项目概述：当数据不再是一张“平铺直叙”的表格

你有没有遇到过这样的场景：销售部门要按季度、按区域、按产品大类看毛利，同时还要对比去年同期；财务团队需要把成本拆解到“部门-项目-费用类型-发生月份”四个维度，再筛选出超预算的组合；甚至一个简单的用户行为分析，都要交叉统计“新老用户 × 设备类型 × 页面路径深度 × 当日活跃时段”。这时候，Excel 的透视表点到第三层就开始卡顿，SQL 里写个 GROUP BY 加上 CASE WHEN 嵌套三层，自己都快看不懂了——这已经不是“汇总”问题，而是多维聚合（Multi-Dimensional Aggregation）的实战现场。本篇标题中的 “Part 20: Data Manipulation in Multi-Dimensional Aggregation”，绝非教科书里抽象的“高维数组”概念，它直指现代数据分析中一个最硬核、也最容易被低估的环节：如何在保留原始数据颗粒度的前提下，自由、高效、可复现地对多个维度进行任意组合、切片、钻取与比较。核心关键词——多维聚合、数据操作、维度建模、OLAP思维、分组聚合、交叉分析——全部围绕一个现实目标：让数据从“静态报表”变成“可交互的决策仪表盘”。它适合三类人：一是刚从单表 GROUP BY 过渡到业务宽表开发的 SQL 工程师，二是用 Pandas 做分析但总被pivot_table参数绕晕的 Python 数据分析师，三是正在搭建 BI 系统、需要理解底层聚合逻辑的产品或数仓工程师。这不是讲理论，而是拆解我在真实项目中处理过 12TB 日志、支撑 37 个业务方自助分析需求时，反复打磨出的一套“多维数据操作心法”。

2. 多维聚合的本质：为什么不能只靠 GROUP BY 和嵌套子查询？

2.1 传统 SQL 聚合的“维度陷阱”

很多人一上来就写：

SELECT region, product_category, quarter, SUM(revenue) AS total_revenue, AVG(profit_margin) AS avg_margin FROM sales_fact GROUP BY region, product_category, quarter;

看起来没问题？错。这只是“固定维度组合”的快照。一旦业务方问：“给我看看华东地区手机类目下，Q1 各个月份的环比增长”，你就得重写 SQL，加EXTRACT(MONTH FROM sale_date)，再套一层窗口函数LAG()。更麻烦的是，如果他们接着问：“那华北地区电脑类目呢？能不能和华东手机放一张表对比？”——你立刻意识到：GROUP BY 是“单向切片”，而业务分析是“多向探查”。传统 SQL 的 GROUP BY 本质是“降维操作”：它把 N 维原始数据强行压成 M 维（M < N）的结果集，丢失了其他维度的上下文。就像把一本立体百科全书，硬塞进一个只有三页的活页夹，想查第四页？得重新装订。

提示：我见过最典型的反模式，是用 UNION ALL 拼接不同维度组合的 SQL。比如先查“省+年”，再查“市+季度”，最后 UNION。表面看结果全了，实则灾难：字段对不齐、NULL 值语义混乱、性能随 UNION 数量指数级下降。一次线上事故，就是因 9 个 UNION 导致查询耗时从 2s 涨到 47s，拖垮整个 BI 服务。

2.2 多维聚合的底层模型：OLAP 立方体（Cube）思维

真正的多维聚合，其内核是OLAP（Online Analytical Processing）立方体模型。想象一个三维立方体：X 轴是“时间”（年/季/月/日），Y 轴是“地理”（国家/省/市），Z 轴是“产品”（大类/子类/SKU）。每个顶点（如 [2024, 华东, 手机]）就是一个“单元格（Cell）”，里面存着该组合下的聚合值（SUM(sales)）。关键在于：这个立方体不是一次性生成的静态表，而是一个可动态计算的“元结构”。它的核心能力有三：

切片（Slice）：固定一个维度，看其他维度。例如“固定为 2024 年”，剩下就是二维平面。
切块（Dice）：同时固定多个维度。例如“固定为 2024 年 + 华东地区”，剩下就是一维线。
钻取（Drill-down / Roll-up）：沿维度层次向下或向上。例如从“季度”钻取到“月份”，或从“省”上卷到“大区”。

这个模型之所以强大，在于它把“维度”和“度量”彻底解耦。维度（Dimension）是描述性属性（时间、地域、产品），有明确的层次结构（year → quarter → month）；度量（Measure）是数值型指标（sales, profit），支持 SUM/AVG/COUNT 等聚合。而“多维聚合”的数据操作，本质上就是在这套解耦结构上，定义灵活的切片规则。

2.3 为什么必须引入“数据操作”（Data Manipulation）？

标题里强调 “Data Manipulation”，而非简单 “Aggregation”，正是点破要害。聚合只是结果，操作才是过程。一个完整的多维分析流程，必然包含：

维度预处理：把原始字段标准化。例如sale_date字段，需衍生出year,quarter,month_num,is_holiday等列，且保证各维度间无歧义（如region不能同时有 “华东” 和 “上海”，后者是前者的子集）。
度量派生：不只是 SUM，还包括计算比率（毛利率 = profit/revenue）、同比（current_period / last_year_period）、占比（category_sales / total_sales）。
动态过滤与排序：分析不是全量跑，而是“先筛后聚”。例如“只看销售额 TOP 10 的省份”，这个 TOP 10 必须在聚合后计算，而非在原始表过滤（否则会漏掉小省里的爆款单品）。
结果重塑：聚合结果常需转置（Pivot）或展开（Unpivot）以适配下游展示。例如把“行=省份，列=季度，值=销售额”的宽表，转成“行=省份+季度，列=销售额”的长表供图表库使用。

这些操作环环相扣，任何一个环节出错，都会导致最终分析失真。我曾在一个电商项目中发现，因为product_category维度表未做全量更新，导致新上线的“智能家居”类目在聚合时被归入 NULL，三个月的品类增长分析全部作废。所以，“操作”二字，是严谨性的底线，不是锦上添花。

3. 核心实现路径：从 SQL 到 Pandas 再到专业 OLAP 引擎

3.1 SQL 层：用 CTE 和窗口函数构建“轻量级立方体”

在无法部署专用 OLAP 引擎时，高质量的 SQL 就是你的第一道防线。核心策略是：用 CTE（Common Table Expression）分层构建，用窗口函数替代嵌套子查询。

以“各省季度销售额及全国占比、同比增速”为例：

-- Step 1: 基础聚合，生成原子单元格（保留所有维度） WITH base_agg AS ( SELECT province, year, quarter, SUM(sales_amount) AS total_sales FROM sales_fact sf JOIN dim_date dd ON sf.sale_date = dd.date_key JOIN dim_region dr ON sf.region_id = dr.region_id WHERE dd.year IN (2023, 2024) -- 预过滤，减少计算量 GROUP BY province, year, quarter ), -- Step 2: 计算全国总量（Roll-up），用于占比 national_total AS ( SELECT year, quarter, SUM(total_sales) AS national_sum FROM base_agg GROUP BY year, quarter ), -- Step 3: 关联并计算派生指标（关键！避免在主查询里重复聚合） final_result AS ( SELECT ba.province, ba.year, ba.quarter, ba.total_sales, -- 占比：当前省销售额 / 全国同季度总额 ROUND(ba.total_sales * 100.0 / nt.national_sum, 2) AS share_pct, -- 同比：用窗口函数 LAG，按 province 分区，按 year 排序 LAG(ba.total_sales) OVER ( PARTITION BY ba.province, ba.quarter ORDER BY ba.year ) AS last_year_sales, -- 增速 CASE WHEN LAG(ba.total_sales) OVER ( PARTITION BY ba.province, ba.quarter ORDER BY ba.year ) > 0 THEN ROUND( (ba.total_sales - LAG(ba.total_sales) OVER ( PARTITION BY ba.province, ba.quarter ORDER BY ba.year )) * 100.0 / LAG(ba.total_sales) OVER ( PARTITION BY ba.province, ba.quarter ORDER BY ba.year ), 2) ELSE NULL END AS yoy_growth_pct FROM base_agg ba JOIN national_total nt ON ba.year = nt.year AND ba.quarter = nt.quarter ) SELECT * FROM final_result ORDER BY year DESC, quarter DESC, total_sales DESC;

这段 SQL 的设计哲学是：

原子性：base_agg只做最基础的 GROUP BY，不掺杂任何计算，确保结果可复用、可审计。
解耦性：national_total独立计算全国总额，与省份无关，避免在主查询中用子查询拖慢性能。
复用性：LAG函数在final_result中被多次调用，但数据库引擎只会计算一次，这是窗口函数的核心优势。
防御性：CASE WHEN处理除零错误，这是生产环境铁律。

实操心得：在某次千万级订单表分析中，我把原本 8 秒的嵌套子查询改为此 CTE 结构，耗时降至 1.3 秒。关键在于，CTE 让优化器能清晰看到数据流，而子查询常导致重复扫描。另外，务必在JOIN条件和WHERE子句中，优先使用维度表的代理键（surrogate key），而非自然键（如province_name），前者是整数，关联效率高出 5-8 倍。

3.2 Pandas 层：用`groupby`的“多级索引”与`agg`的“字典化聚合”驾驭复杂度

当数据进入 Python 分析环节，Pandas 是主力。但很多人卡在df.groupby(['A','B']).sum()这一步，以为这就是多维聚合。其实，Pandas 的真正威力在于其多级索引（MultiIndex）和聚合函数字典（agg dict）。

假设我们有一个销售 DataFrame：

import pandas as pd import numpy as np # 模拟数据 np.random.seed(42) df = pd.DataFrame({ 'date': pd.date_range('2023-01-01', periods=1000, freq='D'), 'province': np.random.choice(['广东', '江苏', '浙江', '山东'], 1000), 'product_type': np.random.choice(['手机', '电脑', '平板'], 1000), 'sales': np.random.normal(10000, 2000, 1000), 'cost': np.random.normal(7000, 1500, 1000) }) df['quarter'] = df['date'].dt.to_period('Q') df['year'] = df['date'].dt.year

3.2.1 第一步：构建多级索引，奠定立方体骨架

# 按多维度分组，并设置为 MultiIndex multi_indexed = df.set_index(['province', 'product_type', 'year', 'quarter']) # 或者直接 groupby 并 unstack 成宽表（即“切片”视图） pivot_wide = df.pivot_table( index=['province', 'product_type'], columns=['year', 'quarter'], values='sales', aggfunc='sum' )

pivot_wide的列索引是MultiIndex，形如(2023, '2023Q1'), (2023, '2023Q2')...。这意味着你可以像操作一个二维矩阵一样，对任意维度切片：

# 只看 2024 年的数据（切片） y2024_data = pivot_wide.xs(2024, level='year', axis=1, drop_level=False) # 只看“手机”类目（切片） phone_data = pivot_wide.xs('手机', level='product_type', axis=0) # 计算各省份 2024 年总销售额（Roll-up） province_total_2024 = pivot_wide.xs(2024, level='year', axis=1).sum(axis=1)

3.2.2 第二步：用`agg`字典实现“一揽子”度量计算

这才是groupby的高阶用法。不要写三次groupby，用一个字典搞定所有派生指标：

# 定义聚合规则：对每个度量，指定多个聚合函数 agg_rules = { 'sales': ['sum', 'mean', 'count'], # 销售额的总和、均值、笔数 'cost': ['sum'], # 成本总额 'profit': lambda x: (x['sales'] - x['cost']).sum(), # 自定义利润（注意：需在 groupby 前计算） } # 先计算利润列 df['profit'] = df['sales'] - df['cost'] # 执行聚合 result = df.groupby(['province', 'year', 'quarter']).agg(agg_rules) # 结果列名自动为 MultiIndex: ('sales', 'sum'), ('sales', 'mean')... # 重命名便于阅读 result.columns = ['_'.join(col).strip() for col in result.columns.values] result = result.reset_index()

3.2.3 第三步：用`apply`和`transform`做“跨单元格”计算

同比、占比这类计算，需要访问其他单元格的值。Pandas 提供了transform（保持原索引长度）和apply（返回标量或 Series）：

# 计算每个省份在各季度的销售额占全省总额的比例（Share） province_quarter_sales = df.groupby(['province', 'year', 'quarter'])['sales'].sum().reset_index(name='qtr_sales') province_total = df.groupby('province')['sales'].sum().reset_index(name='prov_total') # 合并并计算占比 share_df = province_quarter_sales.merge(province_total, on='province') share_df['share_pct'] = (share_df['qtr_sales'] / share_df['prov_total'] * 100).round(2) # 更优雅的方式：用 transform 在 groupby 内部完成 df['prov_total'] = df.groupby('province')['sales'].transform('sum') df['share_pct'] = (df.groupby(['province', 'year', 'quarter'])['sales'].transform('sum') / df['prov_total'] * 100).round(2)

注意：transform的妙处在于，它返回一个与原始 DataFrame 等长的 Series，可以直接赋值给新列，无需 merge。这在处理亿级数据时，内存占用比 merge 低 60% 以上。我在一个用户行为分析项目中，用transform替代了 7 次 merge，单次分析内存峰值从 12GB 降到 4.3GB。

3.3 专业 OLAP 引擎层：Apache Doris 的物化视图实践

当数据量突破十亿行，或并发查询超过 50 QPS，就必须引入专业 OLAP 引擎。我选择 Apache Doris（原 Palo），因其实时性、易用性与 MySQL 协议兼容性的完美平衡。其核心武器是Materialized View（物化视图）—— 这才是真正意义上的“预计算立方体”。

3.3.1 物化视图：把“计算逻辑”固化为“物理存储”

在 Doris 中，创建一个覆盖“省份+年份+季度”的物化视图：

CREATE MATERIALIZED VIEW mv_province_year_qtr AS SELECT province, year, quarter, SUM(sales) AS total_sales, SUM(cost) AS total_cost, COUNT(*) AS order_count, AVG(sales) AS avg_order_value FROM sales_fact GROUP BY province, year, quarter;

关键点：

自动维护：只要sales_fact表有新增数据（INSERT），Doris 会自动增量更新mv_province_year_qtr，无需人工调度。
智能路由：当用户查询SELECT * FROM sales_fact WHERE province='广东' GROUP BY year, quarter时，Doris 查询优化器会自动识别，直接从mv_province_year_qtr读取，跳过原始大表扫描。
多级嵌套：可以基于一个物化视图再建另一个。例如，先建mv_province_year_qtr，再建mv_national_year_qtr（全国汇总），形成层级。

3.3.2 多维分析的终极形态：Doris 的 Rollup 表

Rollup 表是 Doris 对 OLAP 立方体的原生支持。它允许你为同一张事实表，定义多个“聚合粒度”的物理副本：

-- 主表（明细粒度） CREATE TABLE sales_fact ( id BIGINT, province VARCHAR(20), city VARCHAR(50), product_id INT, sale_date DATE, sales DECIMAL(18,2), cost DECIMAL(18,2) ) AGGREGATE KEY(id, province, city, product_id, sale_date) DISTRIBUTED BY HASH(id) BUCKETS 10; -- 创建 Rollup：按省份+年份聚合 ALTER TABLE sales_fact ADD ROLLUP rollup_province_year ( province, YEAR(sale_date) AS year, SUM(sales) AS total_sales, SUM(cost) AS total_cost ); -- 创建 Rollup：按产品大类+季度聚合 ALTER TABLE sales_fact ADD ROLLUP rollup_product_qtr ( product_category, QUARTER(sale_date) AS qtr, SUM(sales) AS total_sales );

此时，sales_fact表在物理上存储了三份数据：明细数据、province+year汇总、product_category+qtr汇总。查询优化器会根据 SQL 的 WHERE 和 GROUP BY 条件，自动选择最匹配的 Rollup 表，将查询延迟从秒级压到毫秒级。

实测数据：在一个 15 亿行的日志表上，原始查询（GROUP BY province, year）平均耗时 8.2s；启用rollup_province_year后，降至 142ms，提升 57 倍。更关键的是，它让 BI 工具的“拖拽式分析”真正可用——业务人员拖一个省份下拉框，页面 200ms 内刷新，体验和本地 Excel 无异。

4. 避坑指南：多维聚合中那些“看似合理”却致命的错误

4.1 维度值不一致：最隐蔽的“数据污染源”

现象：同一个“华东”地区，在销售表里叫 “华东”，在用户表里叫 “East China”，在财务表里叫 “EC”。聚合时，这三个值被当作三个独立维度，导致“华东”总销售额被拆成三份。

根源：缺乏统一的维度建模规范。没有主数据管理（MDM），各业务系统各自为政。

解决方案：

强制使用代理键（Surrogate Key）：在数仓中，为每个维度（如dim_region）分配一个自增整数 ID（region_sk）。所有事实表只引用region_sk，绝不引用region_name。
建立维度一致性检查脚本：每日运行 SQL，检查各事实表中region_sk是否都在dim_region的主键范围内。缺失则告警。
在 ETL 中做标准化映射：ETL 任务第一步，就是把源系统的region_name映射到标准region_sk。映射表必须由业务方签字确认。

我踩过的坑：曾因市场部临时在 CRM 里新增了一个“长三角示范区”区域，未同步到数仓映射表，导致当月该区域所有销售在聚合中消失。补救方案是回溯 30 天日志，手动打标签，耗时 16 小时。从此，我们把“维度变更审批流”写进了 SOP，任何维度新增/修改，必须走 Jira 流程，由数据负责人和业务负责人双签。

4.2 度量计算顺序错误：“先聚合再计算” vs “先计算再聚合”

经典错误：计算毛利率。

错误写法（先聚合再计算）：

SELECT province, SUM(sales) AS total_sales, SUM(cost) AS total_cost, SUM(sales)/SUM(cost) AS wrong_gross_margin -- 错！ FROM sales_fact GROUP BY province;

正确写法（先计算再聚合）：

SELECT province, SUM(sales) AS total_sales, SUM(cost) AS total_cost, SUM(sales - cost) / SUM(sales) AS correct_gross_margin -- 对！ FROM sales_fact GROUP BY province;

为什么？因为毛利率是SUM(profit)/SUM(sales)，而profit = sales - cost。如果先 SUM 再除，相当于(S1+S2)/(C1+C2)；而正确逻辑是(S1-C1 + S2-C2)/(S1+S2)。两者数学上不等价。在极端情况下（如一个省卖高价低毛利商品，另一个省卖低价高毛利商品），误差可达 20% 以上。

实操技巧：在 Pandas 中，永远先计算原子度量列（如df['profit'] = df['sales'] - df['cost']），再对它们进行groupby.agg()。在 SQL 中，把所有原子计算放在SELECT子句最外层，避免在GROUP BY内部做复杂表达式。

4.3 时间维度陷阱：“日历日” vs “业务日” vs “会计期间”

现象：财务要求按“会计期间”（如 2024 年第 1 期 = 2023-12-26 至 2024-01-25），但技术同学直接用了YEAR(sale_date)和QUARTER(sale_date)，导致 1 月 20 日的销售被计入 2024Q1，而财务认为它属于 2024 年第 1 期，应计入 2023 年度报表。

根源：混淆了技术时间与业务时间。sale_date是事件发生时间（日历日），但财务核算、销售考核、库存盘点，都有各自的业务周期。

解决方案：

独立构建dim_calendar表：这张表必须包含所有可能的时间标识：

CREATE TABLE dim_calendar ( date_key DATE PRIMARY KEY, calendar_year INT, calendar_quarter INT, business_year INT, -- 会计年度，如 2024 business_period INT, -- 会计期间，如 1 is_fiscal_year_end BOOLEAN, is_holiday BOOLEAN );

在 ETL 中，用sale_date关联dim_calendar，获取所有时间维度。查询时，永远用business_year和business_period，而非YEAR(sale_date)。
BI 工具中，时间筛选器必须绑定到dim_calendar的业务字段，而非事实表的原始日期字段。

个人体会：这个坑我栽过两次。第一次是销售分析，第二次是财务对账。现在我的原则是：任何涉及“年/季/月”的分析，第一件事就是确认业务方使用的日历类型，并在数仓中提供对应维度表。宁可多建三张日历表，也不用一个DATE_FORMAT()函数糊弄。

4.4 性能雪崩：笛卡尔积与“维度爆炸”

现象：一个查询跑了 45 分钟，EXPLAIN显示扫描了 200 亿行。排查发现，sales_fact关联了dim_product（10 万 SKU）和dim_customer（500 万客户），但WHERE条件只过滤了 10 个客户和 5 个产品，优化器却选择了全表关联。

根源：维度表过大，且缺少有效过滤条件时，JOIN 会产生笛卡尔积。10 万 × 500 万 = 5000 亿行，即使只取其中 0.001%，也是 5 亿行。

解决方案：

前置过滤（Filter Pushdown）：在 JOIN 之前，先用WHERE对维度表做强过滤。例如：

-- 好：先过滤维度表 WITH filtered_customer AS ( SELECT customer_id FROM dim_customer WHERE customer_segment = 'VIP' ) SELECT ... FROM sales_fact sf JOIN filtered_customer fc ON sf.customer_id = fc.customer_id;

使用物化视图或 Rollup 预聚合：如前所述，把高频 JOIN 和 GROUP BY 固化为物理表。
对超大维度表做分区：dim_customer按customer_segment分区，dim_product按category分区，让查询只扫描相关分区。

最后一个技巧：在 Doris 中，开启enable_vectorized_engine=true和batch_size=8192，能让向量化执行引擎把 CPU 利用率从 30% 拉到 95%，这是硬件红利，不用白不用。

5. 实战案例复盘：从零搭建一个支持 10+ 业务方的多维分析平台

5.1 项目背景与目标

客户是一家全国性连锁零售企业，拥有 3000+ 门店，日均交易 50 万笔。原有 BI 系统基于 MySQL + PHP，仅支持 5 个固定报表，每次新增一个分析需求，IT 部门需 3-5 天开发。业务方怨声载道：“我要看华东区手机品类上周每天的销售趋势，为什么不能自己拖出来？”

目标：6 周内上线一个自助分析平台，支持：

任意组合 8 个核心维度（省份、城市、门店、品类、品牌、日期、会员等级、支付方式）；
实时（T+1）更新，查询响应 < 2s；
10 个业务方（销售、市场、财务、供应链、门店运营）可独立建模。

5.2 架构选型与数据链路设计

我们放弃了 Hadoop 生态（太重）和 ClickHouse（MySQL 协议不友好），选择了Doris + Airflow + Superset的极简栈：

数据接入层（Ingestion）：Airflow 调度 Flink 作业，实时消费 Kafka 中的订单、库存、会员日志，清洗后写入 Doris 的ods_*原始表。
数仓建模层（Modeling）：
- dim_*维度表：采用 Slowly Changing Dimension Type 2（SCD2），记录历史变更。
- dwd_sales_fact事实表：宽表设计，冗余常用维度字段（如province_name,category_name），加速 JOIN。
- dws_*汇总表：基于dwd_sales_fact，创建 12 个 Rollup 表，覆盖所有高频查询组合（如province+year+qtr,city+month,brand+week）。
分析服务层（Analysis）：Superset 连接 Doris，所有维度和度量在 Superset 中配置为“可拖拽字段”，业务方无需写 SQL。

5.3 关键实施步骤与参数详解

步骤 1：维度表 SCD2 实现（以`dim_store`为例）

-- Doris 不支持 UPDATE，用 REPLACE INTO 模拟 -- 创建表时，指定 `duplicate key` 和 `properties("replication_num" = "3")` CREATE TABLE dim_store ( store_sk BIGINT COMMENT "代理键", store_id VARCHAR(50) COMMENT "源系统ID", store_name VARCHAR(100), province VARCHAR(20), city VARCHAR(50), open_date DATE, close_date DATE COMMENT "闭店日期，NULL表示营业中", is_current BOOLEAN COMMENT "是否为当前版本", start_date DATE COMMENT "生效开始日期", end_date DATE COMMENT "生效结束日期" ) DUPLICATE KEY(store_sk, store_id, start_date) DISTRIBUTED BY HASH(store_sk) BUCKETS 10 PROPERTIES("replication_num" = "3"); -- ETL 伪代码：每日全量拉取源系统门店表，与昨日快照对比 -- 若门店信息变更，则插入新行（is_current=TRUE, start_date=today），并将旧行的 is_current 设为 FALSE, end_date=yesterday REPLACE INTO dim_store SELECT COALESCE(new.store_sk, old.store_sk) AS store_sk, new.store_id, new.store_name, new.province, new.city, new.open_date, new.close_date, CASE WHEN new.row_hash != old.row_hash THEN TRUE ELSE old.is_current END AS is_current, CASE WHEN new.row_hash != old.row_hash THEN CURDATE() ELSE old.start_date END AS start_date, CASE WHEN new.row_hash != old.row_hash THEN DATE_SUB(CURDATE(), INTERVAL 1 DAY) ELSE old.end_date END AS end_date FROM ods_store_new new LEFT JOIN dim_store old ON new.store_id = old.store_id AND old.is_current = TRUE;

步骤 2：Rollup 表的精准设计

我们没有盲目创建所有组合，而是基于业务方需求调研和SQL 日志分析，确定了 12 个 Rollup：

Rollup 名称	聚合维度	聚合度量	使用频率	平均查询耗时
`rollup_province_qtr`	province, year, quarter	SUM(sales), SUM(cost), COUNT(*)	高（日报）	86ms
`rollup_city_month`	city, year, month	SUM(sales), AVG(avg_ticket)	高（周报）	112ms
`rollup_brand_week`	brand, year, week_of_year	SUM(sales), SUM(units_sold)	中（活动复盘）	205ms

创建命令示例：

ALTER TABLE dwd_sales_fact ADD ROLLUP rollup_province_qtr ( province, year, quarter, SUM(sales) AS total_sales, SUM(cost) AS total_cost, COUNT(*) AS order_count ) PROPERTIES("storage_medium"="SSD");

PROPERTIES("storage_medium"="SSD")指定 SSD 存储，确保热数据高速访问。

步骤 3：Superset 字段配置与权限隔离

在 Superset 中，为每个业务方创建独立角色：

销售总监：可查看所有province,city,store维度，但brand和payment_method仅限“公开品牌”。
市场部：可查看campaign_id,channel,utm_source，但不可见cost度量。
门店经理：只能看到自己门店的store_id，通过row level security（RLS）规则实现：
```
{"store_id": ["{{ current_user.username }}"]}
```
（Superset 支持将用户名映射为门店 ID）