当前位置: 首页 > news >正文

数据目录:三大目录

在以往的项目实践中,基本上都是将数据目录分为三大类:数据资源目录、数据资产目录、数据产品目录。

一、数据资源目录

数据资源目录,主要是各业务系统的元数据信息。它的作用是让数据加工者快速、便捷、统一的了解企业中各个业务系统的元数据信息。

目标:技术资产管理,回答“我们有哪些物理表?在哪个库?在哪个系统?谁在管?”

数据资源目录一般情况下将业务部门作为一级目录,业务系统名称作为二级目录,比如人力资源管理部下有招聘系统、考勤系统、绩效系统、福利系统等等。通过各业务元数据信息,我们可以将所有业务系统的数据资源获取到,形成所有业务系统的数据资源全景,进而将数据资源目录的主体给构建出来。

将采集好的元数据信息分别挂载到相关系统目录下,在哪个系统采集的就挂载到哪里。

看图上挂载的内容均为ODS层物理表,为什么挂ODS层物理表不挂源系统的物理表信息呢,下面做个解释:

优点缺点
源系统物理表
  • 从业务源头开始管理,理论上最完整,可以覆盖所有数据来源
  • 能够直接反映业务系统的数据资产,便于从业务视角进行盘点。

  • 源系统通常由不同的业务部门或供应商管理,数据团队可能没有管理权限,难以实现自动化采集和实时更新。

  • 源系统的数据格式、结构多样,难以统一管理。

  • 无法直接管理数据团队负责的ODS、DWD等分层的数据资源,不利于数据平台的运维。

ODS物理表

  • ODS是数据入湖后的第一站,是数据团队直接管理和运维的对象。

  • 从ODS开始,数据已经结构化、规范化,便于统一管理。

  • 可以方便地追踪到下游的数据加工链路(DWD、DWS等),因为后续分层都是基于ODS加工而来。

  • 存储成本、计算任务、数据质量监控都可以从ODS层开始管控。

  • 无法直接关联到源系统,当需要追溯业务源头时,信息缺失。

  • 如果源系统发生变更,无法直接评估对ODS层的影响,需要额外的文档或知识。

选择ODS层的根本原因是:

责任对等:你管理你能负责的东西

运维必需:解决数据团队日常工作中的实际问题

信息完整:ODS元数据可包含源系统关键信息

成本控制:直接关联到数据平台的资源消耗

二、数据资产目录

数据资产目录形成完善的企业数据资产地图,在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录识别数据管理责任,解决数据问题争议,帮助企业业务改革进行规划设计,避免重复建设。

目标业务化治理与协同。让业务人员能看懂、能找到、能信任数据,解决“业务与技术语言不通”的问题。

根据《华为数据之道》将数据资产分为5层,涵盖企业的所有数据资产:

而“业务对象”是数据资产目录及信息架构中最重要的管理要素。业务对象是企业重要的人、事、物,承载了业务运作和管理涉及的重要信息,是业务视角和IT视角的 联结纽带。业务对象可以划分业务的责任边界、明确数据owner、指引IT系统设计

数据资产目录与数据模型之间的关系如下图:

L4逻辑数据实体主要关联数据湖中分层的是DWD、DIM、DWS层。数据资产目录挂载的也是逻辑实体,物理表只是逻辑实体的落地实践。

是否挂载数据资产目录
DWD全部进数据资产目录
DIM全部进数据资产目录
DWS

核心汇总表:进入资产目录

业务线专用汇总:进数据产品目录

三、数据产品目录

数据产品目录是一个面向数据消费者的服务化门户。它不展示原始数据和加工中的数据,而是展示已封装好、可直接用于解决业务问题的数据服务。

数据资产目录回答:我们有哪些数据?
数据产品目录回答:这数据能做什么?

数据产品目录何鑫挂载层是:ADS层(应用数据层)ADS本身就是为特定的应用而建,天然就是产品。还有当DWS层汇总数据被封装为标准服务时,也应该纳入产品目录。

一个生动的例子

  • 资产目录中,你找到的是“客户主数据”实体,了解到它的定义、包含哪些字段、质量如何。

  • 产品目录中,你找到的是“客户360查询API”,直接看到调用文档、试用接口,并一键申请使用权限。这个API的背后,很可能就封装了“客户主数据”等多个资产实体。

数据产品目录应成为企业内部数据消费的“一站式商店”,任何业务人员或开发者都能在这里快速找到、理解、申请并使用他们需要的数据能力,从而真正释放数据价值,推动业务创新。

http://www.jsqmd.com/news/937742/

相关文章:

  • 智能家居自动化:从核心架构到实战部署的完整指南
  • 洛雪音乐聚合音源:5分钟搭建你的免费无损音乐库终极指南
  • KMS_VL_ALL_AIO:5分钟彻底解决Windows和Office激活难题的智能脚本
  • 别再对着CMakeLists.txt发愁了!手把手教你用ESP-IDF的Menuconfig搞定项目配置(VSCode环境)
  • Android 12:在 ActivityStarter 层拦截分享、搜索与 HTTP 外链
  • 解锁ARM设备远程控制新范式:RDP Wrapper的技术实现与创新应用
  • TypeScript 类型级别编程进阶:探索类型系统的深度应用
  • 中大企业知产管理升级:汉知宝以全场景能力成为优选方案
  • git过滤不需要的build编译文件
  • cubase15 R2R最新完整一键安装版本下载安装cubase 15最新版本下载安装支持Win/Mac 双系统版本加104G原厂音源Mac系统不关SIP安装Mac Cubase15.0.10编曲软件
  • 打破手机跑大模型壁垒,面壁智能联合清华开源端侧新品BitCPM-CANN
  • Ollama 本地跑开源模型:开发者最小上手命令与环境备忘
  • Windows环境下CP/M BIOS定制:从环境搭建到源码修改实战
  • AI搜索时代,品牌内容监测工具的科学选型方法论:从行业需求透视搜极星的设计逻辑
  • Windows ADB Fastboot驱动一键安装工具:告别复杂配置,轻松连接安卓设备
  • 2026论文全流程终极榜单:10款降AIGC软件, 合规修正一路顺畅
  • G-Helper:华硕笔记本轻量化控制工具的技术解析与实践指南
  • Windows风扇控制终极指南:Fan Control完全配置与优化教程
  • 计量室工业仪表IP分配记录
  • Windows HEIC缩略图终极解决方案:5分钟让iPhone照片在资源管理器完美预览
  • 使用 TypeScript 递归条件类型实现深只读(DeepReadonly)
  • 【字节跳动】「第四篇」山西大同太行算力中心全套设备及能耗安保弱电完整详单
  • Lab of Things:构建标准化物联网研究平台的核心架构与实践
  • 2026年适配知网降AIGC平台横评:亲测8款工具,把AIGC率稳控在安全线内
  • 如何永久保存微信聊天记录?WeChatMsg免费开源解决方案终极指南
  • 彻底告别风扇噪音:Fan Control完全指南教你精准掌控Windows风扇控制
  • AI工具链统一纳管实战手册(从零构建可信模型注册中心)
  • 从实验室到应用:差分鬼成像(DGI)如何用更少采样次数,搞定低光照下的目标识别?
  • 如何将微信对话转化为个人数字资产:WeChatMsg数据自主管理指南
  • AI正在淘汰的,不是程序员而是还在用旧方法工作的人(附行动指南)