信息资源分类(信息化)
信息资源分类完全指南:维度、比较与实践
本文面向程序员、工程师、架构师、技术专家及技术负责人,提供信息资源分类的系统化手册。涵盖八大分类维度、详细对比、实例解析、容易混淆点澄清及典型应用场景,图文并茂,适合日常查询与数据治理参考。
一、为什么需要对信息资源分类?
在数字化时代,企业掌握的数据资源急剧增长。缺乏分类的信息资产会引发三大核心问题:
“找不到”:数据散落在各处,无法快速定位所需信息。
“用不好”:不清楚数据的分级、质量、归属,导致决策偏差。
“管不住”:安全防护要么过度(成本高)要么不足(风险高)。
信息资源分类正是解决上述问题的基础性工程。通过系统化分类,可以实现:
| 目标 | 说明 |
|---|---|
| 高效检索 | 建立数据目录,支持按类别快速查找 |
| 精准治理 | 区分主数据、事务数据等,制定差异化管理策略 |
| 安全合规 | 按敏感等级实施访问控制,满足等保、GDPR等要求 |
| 资产盘点 | 明确数据资产范围,便于成本核算与价值评估 |
二、信息资源分类的多维视角
信息资源可从形态、管理职能、安全等级、生命周期、来源、行业、结构化程度等多个维度划分。本文重点介绍最核心的五个维度:
三、各分类维度详细比较
3.1 按信息组织形态分类
| 类型 | 定义 | 特点 | 示例 | 存储技术 |
|---|---|---|---|---|
| 结构化数据 | 具有固定格式和模式的数据,通常存放在关系型数据库中 | 行列表格,字段明确,易于查询 | 订单表、客户表、产品表 | RDBMS (MySQL, PostgreSQL) |
| 半结构化数据 | 不符合关系模型但包含标记或自描述信息 | 模式灵活,可扩展 | JSON、XML、YAML、HTML | NoSQL (MongoDB, Elasticsearch) |
| 非结构化数据 | 没有预定义数据模型,无法直接放入表格 | 内容多样,需全文检索 | 文档、图片、音视频、邮件 | 对象存储 (S3)、文件系统 |
容易混淆点:
半结构化与结构化:许多JSON数据可以转换为二维表(如扁平化),但嵌套结构是半结构化的典型特征。
非结构化中的元数据:一张图片本身是非结构化,但它的拍摄时间、尺寸等元数据是结构化数据,通常分开存储。
应用场景:
数据仓库:主要处理结构化数据。
数据湖:存储所有类型的原始数据,再按需结构化。
3.2 按信息资源管理层次分类
这是数据治理领域最核心的分类方式,由 DAMA(国际数据管理协会)等标准定义。
| 类型 | 定义 | 示例 | 变更频率 | 治理重点 |
|---|---|---|---|---|
| 主数据(MDM) | 描述业务核心实体的数据,跨系统共享且相对稳定 | 客户、产品、供应商、员工 | 低(日/周变更) | 唯一性、一致性、权威来源 |
| 参考数据 | 用于定义其他数据取值的域值列表,通常为代码表 | 国家代码、订单状态、性别、货币 | 极低(年变更) | 标准统一、枚举完整性 |
| 事务数据 | 记录业务活动的数据,随时间快速增长 | 订单、支付记录、库存移动、日志 | 极高(实时/秒级) | 完整性、时效性、归档策略 |
| 元数据 | 关于数据的数据,描述数据的定义、来源、结构、血缘等 | 表结构、数据源位置、ETL任务 | 中(随架构变化) | 血缘追溯、影响分析、数据资产目录 |
| 指标数据 | 基于事务数据加工形成的业务度量值 | DAU、GMV、转化率 | 中(日/小时更新) | 计算口径、准确性 |
容易混淆点:
| 混淆对 | 关键区别 |
|---|---|
| 主数据 vs 参考数据 | 主数据描述业务实体(动态变化,需保证唯一性);参考数据是代码表(静态枚举,用于标准化取值)。例如“国家”是参考数据,“客户”是主数据。 |
| 主数据 vs 元数据 | 主数据是业务数据本身;元数据是描述业务数据的数据。例如“客户姓名=张三”是主数据;“表CUSTOMER的NAME字段长度为30”是元数据。 |
| 事务数据 vs 指标数据 | 事务数据是原始明细(每笔订单);指标数据是聚合统计(日订单总额)。 |
应用场景:
主数据管理(MDM):建立客户统一视图。
元数据管理:构建数据血缘图,用于数据质量追溯。
参考数据管理:保证所有系统使用相同的状态枚举。
3.3 按信息安全等级分类
依据《网络安全法》、等保2.0、ISO 27001等标准,通常将信息资源划分为以下等级:
| 等级 | 名称 | 定义 | 泄露影响 | 示例 | 防护要求 |
|---|---|---|---|---|---|
| L1 | 公开数据 | 可向公众披露,无负面损失 | 极小 | 公司官网介绍、产品目录 | 无需特殊保护 |
| L2 | 内部数据 | 仅限内部员工使用,泄露会造成轻微不便 | 有限 | 内部规章制度、组织架构 | 基础访问控制 |
| L3 | 机密数据 | 泄露会给企业带来较大经济损失或声誉损害 | 中等 | 销售数据、客户信息、源代码 | 加密存储、严格审计、最小权限 |
| L4 | 绝密数据 | 泄露会导致企业破产或法律追究 | 极高 | 核心算法密钥、用户密码库、军工资质 | 物理隔离、HSM、动态脱敏 |
容易混淆点:
机密与绝密:取决于责任后果。金融交易明细通常为机密,但支付网关的私钥为绝密。
脱敏后数据等级:经过脱敏处理的客户数据(如手机号中间四位隐藏)可能降级为内部数据。
应用场景:
数据防泄漏(DLP):对机密数据实施外发阻断。
数据库加密:对机密字段(如身份证号)进行AES加密。
审计日志:对机密数据的访问记录日志。
3.4 按信息资源生命周期分类
| 类型 | 定义 | 特点 | 管理策略 |
|---|---|---|---|
| 原始数据 | 从源头采集的未经处理的数据 | 格式多样,可能杂乱 | 原样存储、不可篡改 |
| 中间数据 | 在ETL过程中生成的临时数据 | 通常不需要长期保存 | 清理策略、临时表管理 |
| 衍生数据 | 经过清洗、聚合、建模后产生的数据 | 质量较高,用于分析 | 版本控制、数据生命周期管理 |
容易混淆点:
原始数据 vs 中间数据:原始数据通常指源系统产生的数据;中间数据是处理过程中产生的,可以被删除。
应用场景:
数据仓库分层:ODS(原始层)→ DWD(明细层)→ DWS(汇总层)→ ADS(应用层)。
数据保鲜策略:热数据(最近30天)存储在SSD,冷数据转入对象存储。
3.5 按信息来源分类
| 类型 | 定义 | 优势 | 挑战 |
|---|---|---|---|
| 内部数据 | 企业自身业务系统产生的数据 | 可控、高质量、符合业务规则 | 数据孤岛、口径不一致 |
| 外部数据 | 从第三方获取的数据,如政府公开数据、社交媒体、API数据 | 补充洞察、竞争情报 | 成本、合规性(数据来源授权)、质量不可控 |
应用场景:
风控:内部交易数据 + 外部征信数据。
营销:内部用户画像 + 外部APP行为数据。
四、容易混淆点汇总表
| 混淆项A | 混淆项B | 区分要点 | 记忆口诀 |
|---|---|---|---|
| 结构化数据 | 半结构化数据 | 是否有固定模式(Schema) | 结构化“有表”;半结构化“有标签但可以没表” |
| 主数据 | 参考数据 | “唯一的业务实体” vs “代码表” | 主数据是“谁”;参考数据是“哪种” |
| 主数据 | 元数据 | “业务数据” vs “描述数据的结构” | 主数据是“肉”;元数据是“骨头” |
| 事务数据 | 指标数据 | “明细” vs “聚合” | 事务数据是“每一单”;指标数据是“统计值” |
| 机密 | 绝密 | “造成较大损失” vs “生存危机” | 机密泄露“伤筋动骨”;绝密泄露“直接倒闭” |
| 内部数据 | 外部数据 | “自主生产” vs “外部采购” | 内部“自种”;外部“买菜” |
| 原始数据 | 衍生数据 | “未经加工” vs “加工后” | 原始是“面粉”;衍生是“面包” |
五、应用场景总结
| 场景 | 适用的分类维度 | 典型动作 |
|---|---|---|
| 数据资产盘点 | 管理层次 + 生命周期 | 建立数据目录,识别主数据、事务数据 |
| 数据安全合规 | 安全等级 | 对机密以上数据加密,配置访问审计 |
| 数据架构设计 | 组织形态 + 来源 | 选择存储技术(结构化用RDBMS,非结构化用OSS) |
| 数据治理 | 管理层次 | 制定主数据管理办法,落实元数据管理 |
| 数据仓库建模 | 生命周期 | 设计ODS→DWD→DWS→ADS分层 |
| 数据质量评估 | 管理层次 | 对主数据实施唯一性、完整性校验;对事务数据实施及时性校验 |
六、总结(类比)
| 资源分类 | 类比 | 说明 |
|---|---|---|
| 结构化/非结构化/半结构化 | 图书馆的书:精装书(结构化)、便签贴(半结构化)、散页纸(非结构化) | |
| 主数据/参考数据/事务数据 | 学校管理系统:学生档案(主数据)、年级选项(参考数据)、考试成绩(事务数据) | |
| 元数据 | 图书馆的卡片目录:记录每本书的位置、作者、出版信息,而不是书本身 | |
| 安全等级 | 军事密级:公开→内部→机密→绝密,对应不同保密柜 | |
| 生命周期 | 食物链:活禽(原始)→ 烹饪中(中间)→ 成品菜(衍生) |
一句话总结:信息资源分类是数据治理的“语法词典”——不同分类维度解决不同问题,但相互关联。选择合适的分类维度取决于当前业务目标:要治理质量,用管理层次;要保障安全,用等级;要设计存储,用组织形态。
七、专业术语表
| 术语 | 英文 | 解释 |
|---|---|---|
| 信息资源 | Information Resource | 具有价值的数据及其载体 |
| 主数据 | Master Data | 核心业务实体数据,跨系统共享 |
| 参考数据 | Reference Data | 用于限定其他数据取值范围的代码表 |
| 事务数据 | Transactional Data | 记录业务活动的实时数据 |
| 元数据 | Metadata | 描述数据的数据 |
| 指标数据 | Metric Data | 基于明细数据计算的业务度量值 |
| 结构化数据 | Structured Data | 具有固定格式,适合关系型数据库存储 |
| 半结构化数据 | Semi-structured Data | 带有自描述信息,如 JSON/XML |
| 非结构化数据 | Unstructured Data | 没有预定义模型,如文档、图片 |
| 数据生命周期管理 | Data Lifecycle Management | 从创建到销毁的全过程管控 |
八、参考文献
DAMA International (2017).*DAMA-DMBOK2: Data Management Body of Knowledge*. (第2章:数据治理,第10章:参考数据与主数据管理)
ISO/IEC 11179- Metadata Registry (MDR) standard.
GB/T 36073-2018数据管理能力成熟度评估模型(DCMM).
GB/T 22239-2019网络安全等级保护基本要求.
DAMA China (2022).《数据管理知识体系指南(第2版)》.
Inmon, W. H. (2005).Building the Data Warehouse. (数据仓库分层分类)
Oracle White Paper (2020).Information Classification – Best Practices.
本文可作为数据治理、数据架构、数据安全等领域的快速参考手册。
