数据目录:三大目录
在以往的项目实践中,基本上都是将数据目录分为三大类:数据资源目录、数据资产目录、数据产品目录。
一、数据资源目录
数据资源目录,主要是各业务系统的元数据信息。它的作用是让数据加工者快速、便捷、统一的了解企业中各个业务系统的元数据信息。
目标:技术资产管理,回答“我们有哪些物理表?在哪个库?在哪个系统?谁在管?”
数据资源目录一般情况下将业务部门作为一级目录,业务系统名称作为二级目录,比如人力资源管理部下有招聘系统、考勤系统、绩效系统、福利系统等等。通过各业务元数据信息,我们可以将所有业务系统的数据资源获取到,形成所有业务系统的数据资源全景,进而将数据资源目录的主体给构建出来。
将采集好的元数据信息分别挂载到相关系统目录下,在哪个系统采集的就挂载到哪里。
看图上挂载的内容均为ODS层物理表,为什么挂ODS层物理表不挂源系统的物理表信息呢,下面做个解释:
| 优点 | 缺点 | |
| 源系统物理表 |
|
|
ODS物理表 |
|
|
选择ODS层的根本原因是:
责任对等:你管理你能负责的东西
运维必需:解决数据团队日常工作中的实际问题
信息完整:ODS元数据可包含源系统关键信息
成本控制:直接关联到数据平台的资源消耗
二、数据资产目录
数据资产目录形成完善的企业数据资产地图,在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录识别数据管理责任,解决数据问题争议,帮助企业业务改革进行规划设计,避免重复建设。
目标:业务化治理与协同。让业务人员能看懂、能找到、能信任数据,解决“业务与技术语言不通”的问题。
根据《华为数据之道》将数据资产分为5层,涵盖企业的所有数据资产:
而“业务对象”是数据资产目录及信息架构中最重要的管理要素。业务对象是企业重要的人、事、物,承载了业务运作和管理涉及的重要信息,是业务视角和IT视角的 联结纽带。业务对象可以划分业务的责任边界、明确数据owner、指引IT系统设计。
数据资产目录与数据模型之间的关系如下图:
L4逻辑数据实体主要关联数据湖中分层的是DWD、DIM、DWS层。数据资产目录挂载的也是逻辑实体,物理表只是逻辑实体的落地实践。
| 是否挂载数据资产目录 | |
| DWD | 全部进数据资产目录 |
| DIM | 全部进数据资产目录 |
| DWS | 核心汇总表:进入资产目录 业务线专用汇总:进数据产品目录 |
三、数据产品目录
数据产品目录是一个面向数据消费者的服务化门户。它不展示原始数据和加工中的数据,而是展示已封装好、可直接用于解决业务问题的数据服务。
| 数据资产目录 | 回答:我们有哪些数据? |
| 数据产品目录 | 回答:这数据能做什么? |
数据产品目录何鑫挂载层是:ADS层(应用数据层)ADS本身就是为特定的应用而建,天然就是产品。还有当DWS层汇总数据被封装为标准服务时,也应该纳入产品目录。
一个生动的例子:
在资产目录中,你找到的是“客户主数据”实体,了解到它的定义、包含哪些字段、质量如何。
在产品目录中,你找到的是“客户360查询API”,直接看到调用文档、试用接口,并一键申请使用权限。这个API的背后,很可能就封装了“客户主数据”等多个资产实体。
数据产品目录应成为企业内部数据消费的“一站式商店”,任何业务人员或开发者都能在这里快速找到、理解、申请并使用他们需要的数据能力,从而真正释放数据价值,推动业务创新。
