当前位置: 首页 > news >正文

行式存储 vs 列式存储:原理、差异与真实业务案例解析

文章目录

  • 一、什么是行式存储和列式存储?
  • 二、核心差异一览
  • 三、业务案例一:订单详情查询(典型 OLTP)
  • 四、业务案例二:销售额统计报表(典型 OLAP)
  • 五、真实对比案例(10 亿订单表)
  • 六、为什么列式存储在分析场景这么快?
  • 七、真实系统中的最佳实践架构
  • 八、选型建议
  • 九、总结

在数据库选型时,很多性能问题并不是 SQL 写得不好,而是存储模型从一开始就选错了

本文将通过原理讲解 + 实际业务案例,帮助你真正理解:

为什么有的系统适合行式存储,有的系统必须用列式存储?


一、什么是行式存储和列式存储?

1️⃣ 行式存储(Row-based Storage)

以“行”为单位存储数据,一行的所有字段在物理上连续存放。

示例表:

order_iduser_idamountstatus
1100199.9PAID
21002199.0PAID

行式存储逻辑结构:

[1, 1001, 99.9, PAID] [2, 1002, 199.0, PAID]

2️⃣ 列式存储(Column-based Storage)

以“列”为单位存储数据,同一列的数据连续存放。

order_id: [1, 2] user_id: [1001, 1002] amount: [99.9, 199.0] status: [PAID, PAID]

二、核心差异一览

对比维度行式存储列式存储
存储单位
查询方式点查扫描
I/O读整行只读列
更新
压缩一般极强
适合场景OLTPOLAP

三、业务案例一:订单详情查询(典型 OLTP)

业务需求

用户在 App 中查看自己的订单详情

SELECT*FROMordersWHEREorder_id=123456;

数据特点

  • 查询单行
  • 高频访问
  • 需要事务保证

行式存储表现(MySQL)

  • 通过B+Tree 索引
  • 一次磁盘 I/O 读取整行
  • 返回完整记录

👉性能极高,毫秒级返回


列式存储表现(ClickHouse)

  • 需要从多个列文件中拼装一行
  • 不适合点查
  • 并发能力弱

明显不适合


结论

订单系统、用户系统必须使用行式存储


四、业务案例二:销售额统计报表(典型 OLAP)

业务需求

统计 2025 年每个月的销售额

SELECTtoMonth(create_time)ASmonth,SUM(amount)AStotal_amountFROMordersWHEREcreate_time>='2025-01-01'GROUPBYmonth;

行式存储的执行方式(MySQL)

  • 扫描整张 orders 表
  • 每一行都读取所有字段
  • 大量无效 I/O

📉数据量一大,查询变慢


列式存储的执行方式(ClickHouse)

  • 只读取create_timeamount两列
  • 列数据连续、压缩率高
  • 向量化并行计算

📈百万级数据,秒级返回


结论

统计分析场景,列式存储碾压行式存储


五、真实对比案例(10 亿订单表)

表规模

  • 订单表:10 亿行
  • 字段数:20
  • 查询字段:2 个

性能对比

存储方式扫描数据量查询耗时
行式存储全行 20 列60+ 秒
列式存储仅 2 列2~3 秒

👉差距来源:I/O + 压缩 + 并行


六、为什么列式存储在分析场景这么快?

1️⃣ 只读取必要的列

  • 减少磁盘 I/O

2️⃣ 高效压缩

  • 同类型数据连续
  • 压缩比 5~10 倍

3️⃣ 向量化执行

  • 一次处理 1024 行
  • CPU Cache 友好

七、真实系统中的最佳实践架构

行式 + 列式 混合使用(最常见)

业务系统 | MySQL(行式存储,OLTP) | CDC / MQ | ClickHouse(列式存储,OLAP)
  • MySQL:写、事务、点查
  • ClickHouse:报表、分析、统计

👉各司其职,性能最大化


八、选型建议

快速判断口诀

写多用行式,算多用列式

场景建议
订单 / 用户行式存储
BI 报表列式存储
实时分析行式 + 列式
数据仓库列式存储

九、总结

  • 行式存储是事务系统的基石
  • 列式存储是分析系统的利器
  • 二者不是替代关系,而是协作关系

一个成熟的系统,一定同时使用行式存储和列式存储

http://www.jsqmd.com/news/257789/

相关文章:

  • 收集自己的每日学习知识点数量,统计每周学习总知识点,输出学习进度评分。
  • 2026年华数杯赛题浅析-助攻快速选题
  • 1.3 PyTorch实战入门:打造你的第一个图像分类项目
  • C++中类内的成员变量和成员函数分开存储,只有非静态成员变量才存储在类的对象上
  • 1.4 评估指标与可解释性:如何科学评价你的AI模型
  • Managerial communication
  • 2.1 Transformer解密:自注意力机制与位置编码全解析
  • 完善我的第一个工作流: 增加循环逻辑
  • 攻克边缘设备AI部署:基于Jetson Nano的YOLOv5零基础部署与性能调优实战
  • RK3588嵌入式AI工业部署:YOLOv11 + OpenCV实时推理系统全栈实现
  • 完善我的第一个工作流: 增加批处理
  • 2.2 预训练模型全家桶:BERT、T5、GPT如何选择与应用
  • COZE打造我的第一个智能体
  • 1.1 揭秘AI入门必修课:从零搭建电商SKU智能分类系统
  • 发布我的第一个智能体到终端应用
  • 2026年有实力的移动岗亭实力厂家选哪家,户外站岗岗亭/岗亭/移动岗亭/岗亭环保厕所,移动岗亭批发哪家好 - 品牌推荐师
  • 2.3 LoRA微调黑科技:低成本定制专属大模型
  • 2.4 RAG检索增强生成:让你的大模型拥有外部知识库
  • COZE打造我的第一个工作流:新闻搜索与总结
  • 2026年橡胶制品加工定做实力供应商排名,河北楠铭橡塑表现亮眼 - 工业品牌热点
  • YOLO26 核心模块精讲:SKAttention 如何实现动态感受野与通道自适应
  • Development Manager - Management Routine
  • 如何在 Python 中使用 Jupyter Kernel 运行代码并获取输出
  • YOLO26 注意力机制解析:SKAttention 的动态感受野自适应原理与实现详解
  • YOLO26多尺度信息增强:基于PPM(金字塔池化模块)的池化层改良详解
  • YOLO26中的PPM空间金字塔池化:改良设计与多尺度特征提取教程
  • 从部署到超越:YOLOv5s在RK3588上实现120FPS的完整优化路径与工程实践
  • 120FPS!RK3588部署YOLOv5s性能调优全纪实:从基准16FPS到极致的7.5倍加速
  • Jetson Nano边缘AI入门:YOLOv5从环境配置到模型部署完整教程
  • 2026年包装机品牌新观察:创新与品质的较量,折盖封箱机/悬臂缠绕机/缠膜机/包装流水线设计,包装机联系方式怎么选购 - 品牌推荐师