当前位置: 首页 > news >正文

数据、数据库分类

1、概述

  • 数据库主要分为关系型数据库(如MySQL、Oracle)和非关系型数据库(NoSQL,如MongoDB、Redis),其中NoSQL又包括键值存储、文档数据库、列存储、图数据库等类型。
  • 数据则分为结构化数据(如表格数据)、半结构化数据(如JSON、XML)和非结构化数据(如文本、图像、视频)。

2、数据库的主要类型

数据库的分类维度较多,主流是按数据模型划分,不同类型的数据库针对不同的数据存储和访问场景设计,核心类型如下:

关系型数据库(RDBMS)

  • 核心特点:基于关系模型(二维表结构),数据以行(记录)和列(字段)的形式存储,遵循 ACID(原子性、一致性、隔离性、持久性)原则,支持 SQL(结构化查询语言),强调数据的一致性和完整性。
  • 典型产品:MySQL、Oracle、PostgreSQL、SQL Server。
  • 适用场景:需要事务支持、数据强一致性、结构化查询的场景。

非关系型数据库(NoSQL)

这类数据库不依赖传统的关系模型,为应对大规模、高并发、非结构化 / 半结构化数据场景而生,主要分为以下子类:

子类核心特点典型产品核心场景
键值型数据库以 “键 - 值” 对存储数据,查询速度极快Redis、Memcached缓存、会话存储、计数器、实时推荐
文档型数据库存储半结构化的文档(如 JSON/BSON 格式),支持嵌套结构MongoDB、CouchDB内容管理系统、电商商品数据、用户画像
列族型数据库按列存储数据,适合批量列查询,扩展性强HBase、Cassandra大数据分析、日志存储、时序数据
图形数据库以节点和边存储数据,专注处理实体间的关系Neo4j、ArangoDB社交网络关系、知识图谱、路径规划

新型数据库

  • 时序数据库:专为时间戳关联的数据设计,支持高吞吐写入和按时间范围的快速查询,典型产品:InfluxDB、TimescaleDB,适用于物联网传感器数据、监控指标、金融交易流水。
  • 向量数据库:存储和检索向量数据(如 AI 模型生成的嵌入向量),支持相似度计算,典型产品:Milvus、Pinecone,适用于图像 / 文本检索、推荐系统、大模型知识库。

3、数据的主要类型

数据结构和业务属性划分,数据可分为以下几类,与数据库类型的匹配是选型的核心逻辑。

结构化数据

  • 定义:数据格式固定、有明确的结构,可直接映射为二维表的行和列。
  • 示例:用户 ID、订单编号、商品价格、出生日期、性别。
  • 适合的数据库关系型数据库(如 MySQL、Oracle)。
  • 匹配逻辑:结构化数据的强规范性与关系型数据库的表结构、约束(主键、外键、唯一性约束)高度契合,SQL 查询能高效完成多表关联、聚合分析。

半结构化数据

  • 定义:数据有一定结构,但结构不固定或可扩展,支持嵌套和灵活字段。
  • 示例:JSON 格式的用户信息(含基础字段 + 可选的扩展字段)、XML 文档、日志数据。
  • 适合的数据库文档型数据库(如 MongoDB)、部分支持灵活 Schema 的关系型数据库(如 PostgreSQL 的 JSONB 类型)。
  • 匹配逻辑:文档型数据库无需预先定义表结构,可直接存储嵌套的半结构化数据,支持按文档内字段查询,比关系型数据库更灵活。

非结构化数据

  • 定义:无固定格式,无法直接用二维表表示的数据。
  • 示例:图片、音频、视频、PDF 文档、纯文本日志、自然语言文本。
  • 适合的数据库
    • 直接存储:对象存储(如阿里云 OSS、AWS S3)+ 元数据存储(关系型 / 文档型数据库);
    • 检索分析:若需提取特征或检索,可结合向量数据库(如 Milvus,将非结构化数据转为向量后存储)。
  • 匹配逻辑:非结构化数据体积大、结构无规律,传统数据库难以高效存储和检索,对象存储负责低成本海量存储,元数据 / 向量数据库负责管理检索维度。

时序数据

  • 定义:与时间强关联、按时间顺序产生的连续数据,具有高写入、高查询频率的特点。
  • 示例:服务器 CPU 使用率、物联网设备的温度读数、股票价格波动、用户行为日志。
  • 适合的数据库时序数据库(如 InfluxDB、TimescaleDB)、列族型数据库(如 HBase)。
  • 匹配逻辑:时序数据库针对时间维度做了特殊优化,支持按时间范围的快速聚合查询,比关系型数据库的写入和查询效率高 10 倍以上。

关系型数据

  • 定义:核心价值在于实体之间的关联关系,而非单个实体的数据本身。
  • 示例:社交网络中用户的关注关系、知识图谱中 “疾病 - 症状 - 药物” 的关联、地图中的 “地点 - 路线 - 交通方式” 关系。
  • 适合的数据库图形数据库(如 Neo4j)。
  • 匹配逻辑:关系型数据库查询多实体关联时需多次多表 Join,效率极低;图形数据库以节点和边直接存储关系,查询 “用户的好友的好友” 这类多层关系时,速度远超传统数据库。

4、数据类型与数据库类型的匹配总结表

数据类型推荐数据库类型典型应用场景
结构化数据关系型数据库(MySQL/Oracle)电商订单系统、银行交易系统、ERP 系统
半结构化数据文档型数据库(MongoDB)内容管理系统、用户画像、配置数据
非结构化数据对象存储 + 元数据 / 向量数据库图片 / 视频存储、文档检索、大模型知识库
时序数据时序数据库(InfluxDB)监控系统、物联网数据、金融流水
关系型数据图形数据库(Neo4j)社交网络、知识图谱、路径规划
高频读写的小数据键值型数据库(Redis)缓存、计数器、会话存储

参考文档:

https://xixingzhe.blog.csdn.net/article/details/149279707?spm=1011.2415.3001.5331

http://www.jsqmd.com/news/102965/

相关文章:

  • EmotiVoice + GPU算力:实现毫秒级高保真语音生成
  • LobeChat环境变量设置大全:部署时必须知道的关键参数
  • p13mybatisplus12扩展功能代码生成器 找不到config database这个按钮
  • 如何将idea最上方的工具栏,最上方的菜单显示出来?
  • 【深圳】嵌入式AI实战:半天上手,人形检测模型部署+优化全流程
  • SCS 60.单细胞空间转录组空间聚类(SPATA2)
  • 基于EmotiVoice的有声内容创作指南:提升听众沉浸感
  • LobeChat能否支持黑洞吸积盘模拟?极端物理环境可视化解释
  • 【完全免费】超好用录屏软件,无时长限制,最高支持高清8K无水印录制,新人UP主游戏录屏录课必备工具。
  • EmotiVoice语音合成在语音邮件自动化中的效率提升
  • Day 41 训练和测试的规范写法
  • EmotiVoice语音口音模拟能力测试:能否模仿地域特色?
  • 支持自定义音色:EmotiVoice助力品牌专属语音打造
  • 少年三国志魂金版 无限代金券买断
  • EmotiVoice语音合成在心理咨询机器人中的应用设想
  • EmotiVoice深度解析:支持多情感表达的中文TTS引擎
  • 23、Go并发编程:原子操作与Context的深入解析(上)
  • 17、Go语言中的数据编码与解码:CSV、JSON和XML
  • 18、Go语言中的数据编码与解码
  • 15、Go语言构建Web服务器全解析
  • EmotiVoice + GPU加速:提升语音合成效率的关键组合
  • 企业级语音应用首选:EmotiVoice的稳定性和扩展性分析
  • 为什么越来越多开发者选择EmotiVoice做语音项目?
  • 用EmotiVoice制作有声书:情感丰富,媲美真人朗读
  • EmotiVoice能否通过图灵测试?用户盲测结果揭晓
  • 边缘计算场景下运行EmotiVoice的可能性探索
  • 轻量级部署+高性能输出:EmotiVoice为何如此高效?
  • 只需几秒音频样本!EmotiVoice实现精准音色克隆
  • 30、编程知识综合解析
  • 27、Go语言反射机制:从接口断言到函数调用的全面解析