当前位置: 首页 > news >正文

数据仓库分层体系

数据仓库
一个典型的数据流向是:
业务系统 → ODS(原始数据) → DWD(清洁明细数据) → DWS(主题汇总宽表) → ADS(应用指标)

1. 分层体系介绍

ODS(Operational Data Store)层

表前缀: ods_
核心职责: 数据引入层,与源业务系统保持同构,完成原始数据的采集和备份。
特点: 数据是原始的、未经清洗的,可能存在数据质量问题。通常只做简单的字段脱敏和格式转换。

DWD(Data Warehouse Detail)层

表前缀: dwd_
核心职责: 数据明细层,对ODS层数据进行清洗、标准化、维度退化,形成业务过程的原子粒度事实表和一致性维度表。
特点: 数据仍然是明细的,但已经是干净、规范的。例如,一个订单从创建到支付的所有状态变更,都可能是一条条独立的明细记录。

DWS(Data Warehouse Summary)层

表前缀: dws_
核心职责: 如上所述,面向主题的轻度汇总,形成宽表。

ADS(Application Data Service)层

表前缀: ads_ 或 app_
核心职责: 应用数据层/数据产品层,存放为特定业务场景或报表需求而高度聚合的指标数据。
特点: 这层的表是面向最终应用的,查询速度极快。数据通常非常聚合。
举例: ads_daily_sales_by_category(每日按商品类目统计的销售总额表),里面可能只有date, product_category, total_sales_amt 几个字段。

DIM(Dimension)层

表前缀: dim_
核心职责: 维度表层,存放几乎不变或变化缓慢的维度数据,如商品维度表(品牌, 品类, 描述, 价格)、用户维度表、地区维度表等。
特点: 通常在全库中共享,被DWD、DWS等层广泛关联使用。

2. 电商场景举例

以一个典型的电商“用户浏览下单”场景为例

ods

点击表: ods_user_click_log

{ "user_id": 123, "item_id": 1, "time": "2026-02-27 10:00:00", "action": "click", "ip": "192.168.1.1" }

订单表: ods_order_info

order_id | user_id | product_id | order_amount | order_time | status ----------------------------------------------------------------------- 1001 | 123 | 1 | 100.00 | 2024-05-27 11:30:00 | 1 (已支付)

dwd

对以上数据作清洗, 且关联商品维表, 直接获取 商品标题, 类目信息, 避免后续频繁关联.
同样是两张表分开: dwd_fact_user_click_log 和 dwd_fact_order_detail .

dws 轻度汇总

用户一日行为宽表, 表名: dws_user_behavior_1d

user_id | dt | pv_count | cart_count | order_count | order_amount --------------------------------------------------------------------------- 123 | 2024-05-27 | 10 | 2 | 1 | 100.00

下游价值:
数据分析师想要分析小明的行为轨迹,不再需要去关联复杂的dwd_fact_user_click_log和dwd_fact_order_detail表,直接查询这张宽表即可快速得到汇总结果。

ads 高度聚合汇总

从dws_user_behavior_1d中,按dt分组,汇总出全平台当日的核心指标。
表名: ads_platform_daily_stats (平台日统计报表)

dt | total_pv | total_uv | total_cart_users | total_order_users | gmv ----------------------------------------------------------------------------------- 2024-05-27 | 5000000 | 1000000 | 200000 | 50000 | 5000000.00
http://www.jsqmd.com/news/494941/

相关文章:

  • TeamClaw重磅上线!国内首个专为销售团队打造的、可管理可控制的OpenClaw企业级解决方案
  • 2026年博主亲测:广州正规美业公司最新实践分享
  • 2026年质量好的工程钢管架品牌推荐:东莞搭钢管架/东莞工程钢管架/东莞施工钢管架厂家推荐与采购指南 - 行业平台推荐
  • 从传统产品经理到AI产品经理的必备指:AI产品经理高薪招聘火爆,面试必考题全解析
  • AI海报生成工具完全指南——2026年电商运营必备平台推荐
  • 爬虫对抗:ZLibrary反爬机制实战分析技术文章大纲
  • 判断一个文件最后修改时间是否超出了指定天数
  • 某厂Java面试实录:深度解析高并发秒杀系统、Redis原子扣减、分布式锁与消息可靠性
  • 电源模块纹波测试自动化方案设计与实践
  • 贪心算法的应用
  • 电网的安全稳定裕度
  • Pandas加载Avro文件
  • 计算机毕业设计springboot基于Vue框架的智能教研系统的设计与实现 基于SpringBoot与Vue3的数字化教学研究协同平台 前后端分离架构下的智慧教育教研管理系统
  • 2026服装进销存系统推荐:别再只看价格了,看这3点就够
  • 拒绝晕车!从基础到进阶,一文彻底理清C语言指针与数组组合
  • 表格全选功能JavaScript实现深度解析
  • IBM发布2025年度报告:首席执行官Arvind Krishna致投资人的一封信
  • 排序(二)【数据结构】
  • 8个超硬核的大模型项目
  • WPS单元格格式
  • QGraphicView + QGraphicItem
  • 字节跳动 Seedance 2.0 全球发布受阻,AI 视频版权困境待解
  • C++比较三位数大小
  • 游戏数据助力配送机器人升级
  • LBM vs FVM:谁才是 CFD 的未来?
  • MSCOMCTL.OCX文件出错 免费下载修复方法分享
  • 快讯|智谱GLM-5-Turbo实测:面向OpenClaw深度优化,响应提速60%,token消耗减少17.8%
  • 渗透测试实战指南:从零基础到专业测试工程师的完整路径
  • Meta 收购爆火 AI 社交网络 Moltbook
  • 05樊珍