当前位置：首页 > news >正文

ClickHouse 极致吞吐调优：基于稀疏索引（Sparse Index）原理与数据稠密压缩算法的检索加速实战

news 2026/6/7 0:37:27

ClickHouse 极致吞吐调优：基于稀疏索引（Sparse Index）原理与数据稠密压缩算法的检索加速实战

在大数据分析与实时 OLAP 领域，ClickHouse 凭借其惊人的多维查询吞吐量和极致的数据压缩比率，成为了无可争议的性能王者。不同于传统的 OLTP 关系型数据库（如 MySQL、PostgreSQL）使用 B+ 树构建稠密索引（每个物理键对应一条记录指针），ClickHouse 采用了**稀疏索引（Sparse Index）与列式存储（Column-Oriented Storage）**的混合物理架构。这种设计使得 ClickHouse 能够以极小的内存开销，在秒级甚至毫秒级内检索并分析数十亿行级别的海量数据集。本文将深入拆解 ClickHouse 列式存储、稀疏索引与压缩块管理底座，并手写一个完整闭环的高清稀疏索引二分检索模拟器。

一、架构碰撞：稀疏索引与 B+ 树稠密索引的物理本质

传统关系型数据库（如 MySQL 的 InnoDB 引擎）在处理大规模查询时，其核心痛点源自 B+ 树稠密索引的物理限制。

稠密索引的内存绞肉机：
在 B+ 树中，索引节点和数据节点通常是一对一存在的。每一行记录的物理地址，都必须在树叶子节点中精确维护。这意味着，当表中的数据量达到 10 亿级别时，仅索引本身的内存占用就可能高达数十甚至上百吉字节（GB）。在内存受限的情况下，频繁的索引节点换页会引发可怕的磁盘 I/O 灾难。
列式存储与稀疏索引的绝妙配合：
ClickHouse 的MergeTree引擎采用稀疏索引打破了这一魔咒。
1. 物理排序（Ordered Data Store）：
  在 MergeTree 中，数据在物理磁盘上是按照主键（ORDER BY声明的字段）严格递增排序存储的。
2. 稀疏索引 Mark 锚定：
  ClickHouse 不会为每一行数据都建立索引项。而是每隔固定的行数（默认为index_granularity = 8192行），将当前行的主键提取出来，作为一个索引标记（Mark），写入.idx索引文件中。这每 8192 行数据组成的一个物理分片，被称为一个颗粒（Granule）。
3. 极致的空间压降：
  由于 8192 行数据才产生 1 个索引节点，10 亿行数据的稀疏索引在物理上仅需要约 12 万个 Mark。这使得整个表的索引数据可以直接常驻内存，内存开销几乎可以忽略不计。

graph TD subgraph 内存稀疏索引常驻区 (.idx File in RAM) M0[Mark 0: ID=1000] -->|映射物理偏移| R0[Granule 0: Rows 1 ~ 8192] M1[Mark 1: ID=5000] -->|映射物理偏移| R1[Granule 1: Rows 8193 ~ 16384] M2[Mark 2: ID=9800] -->|映射物理偏移| R2[Granule 2: Rows 16385 ~ 24576] end subgraph 磁盘物理列式数据区 (Column.bin on Disk) R0 -->|解压读取数据列| ColA[Column_A 数据块] R1 -->|跳过无用 Block| ColB[Column_B 压缩块] R2 -->|按需仅加载相关列| ColC[Column_C 数据块] end style M0 fill:#ffcccc,stroke:#aa0000,stroke-width:2px style M1 fill:#ffcccc,stroke:#aa0000,stroke-width:2px style ColB fill:#e6f2ff,stroke:#0066cc,stroke-width:2px

二、运行逻辑：列式读取、压缩块与索引过滤调度机制

有了稀疏索引，当用户发起类似于SELECT col_a FROM table WHERE id = 7500的查询时，ClickHouse 底层会执行以下级联过滤机制：

稀疏索引二分查找（Binary Search）：
ClickHouse 会直接在常驻内存的.idx数组中执行二分查找。由于数据是排好序的，系统可以瞬间判定出ID = 7500落在Mark 1 (ID=5000)与Mark 2 (ID=9800)之间。也就是说，目标记录只可能存在于Granule 1中。
定位 Mark 标记文件（.mrk）：
稀疏索引定位出 Granule 的区间后，ClickHouse 会查询对应的.mrk标记文件。该文件记录了每一个 Granule 对应在物理列文件（[Column].bin）中的压缩块偏移量（Compressed Block Offset）以及解压后的块内偏移（Decompressed Offset）。
按需分块解压（Compressed Block Deserialization）：
列文件.bin是按压缩块（通常为 64KB 至 1MB）为单位进行物理压缩的。ClickHouse 此时仅需向操作系统发送极少的 I/O 请求，直接定位到包含Granule 1的压缩块，将其读取到内存中并解压。其他无关的压缩块则被完全跳过（Skip I/O）。
精细化行扫描（Row Scan）：
最终，ClickHouse 仅在解压后的这 8192 行数据中进行线性过滤，过滤出符合id = 7500的行并输出。

这一整套流程，通过极少的内存使用和高度有序的磁盘寻址，实现了极致的物理吞吐。

三、核心实现：手写 100% 完整闭环的 ClickHouse 稀疏索引与检索过滤算法模拟器

下面提供一份 100% 完整闭环的 Python 脚本。该脚本精细模拟了 ClickHouse 物理数据排序、稀疏索引创建、物理颗粒（Granule）划分、二分查找区间定位，以及与传统的全表线性扫描在执行时间和扫描行数上的量化对比。

import time import bisect class ClickHouseSparseIndexMock: """ ClickHouse 稀疏索引与 MergeTree 检索机制模拟器 100% 完整闭环实现，支持自定义索引粒度与吞吐对比 """ def __init__(self, index_granularity=8192): self.index_granularity = index_granularity self.primary_keys = [] # 模拟磁盘上有序存储的主键物理列 self.sparse_index_marks = [] # 内存中的稀疏索引标记 (存储主键值) self.mark_to_physical_offset = {} # 标记文件映射 (Mark -> 物理行偏移量) def load_data(self, total_rows=1000000): """ 模拟 ClickHouse 物理写入，数据必须严格按主键排序 """ print(f"[MergeTree Engine] 正在物理写入 {total_rows} 行有序数据并构建稀疏索引...") # 生成有序的主键数据，如 10, 20, 30 ... self.primary_keys = [i * 10 for i in range(total_rows)] # 每隔 index_granularity 行，锚定一个 Mark 标记并注入内存索引 for i in range(0, total_rows, self.index_granularity): mark_val = self.primary_keys[i] self.sparse_index_marks.append(mark_val) self.mark_to_physical_offset[mark_val] = i print(f"[MergeTree Engine] 写入就绪。稀疏索引大小: {len(self.sparse_index_marks)} 个 Marks.") print(f"[MergeTree Engine] 内存占用对比估算: 稠密索引需维护 {total_rows} 个键值 | 稀疏索引仅需维护 {len(self.sparse_index_marks)} 个键值 (空间压降约 {total_rows / len(self.sparse_index_marks):.1f} 倍)") def linear_scan_search(self, target_key): """ 传统数据库全表线性扫描 (模拟无索引全扫描 ALL) """ start_time = time.perf_counter() scanned_rows = 0 found_idx = -1 for idx, key in enumerate(self.primary_keys): scanned_rows += 1 if key == target_key: found_idx = idx break elapsed = (time.perf_counter() - start_time) * 1000 # 毫秒 return found_idx, scanned_rows, elapsed def sparse_index_search(self, target_key): """ ClickHouse 稀疏索引二分定位 + 精细化区间扫描机制 """ start_time = time.perf_counter() # 1. 在内存的稀疏索引数组中执行二分查找，查找插入点以确定区间 # bisect_right 返回大于 target_key 的第一个 mark 索引位置 mark_idx = bisect.bisect_right(self.sparse_index_marks, target_key) - 1 if mark_idx < 0: mark_idx = 0 # 确定需要扫描的物理数据起止区间 start_row_offset = self.mark_to_physical_offset[self.sparse_index_marks[mark_idx]] # 判定结束边界 (当前 Granule 的末尾或全表最大行) end_row_offset = min(start_row_offset + self.index_granularity, len(self.primary_keys)) # 2. 从磁盘加载数据列（本模拟直接读取内存切片）仅在此 Granule 内扫描 scanned_rows = 0 found_idx = -1 for i in range(start_row_offset, end_row_offset): scanned_rows += 1 if self.primary_keys[i] == target_key: found_idx = i break elapsed = (time.perf_counter() - start_time) * 1000 # 毫秒 return found_idx, scanned_rows, elapsed # === 性能测试驱动 ========================================================== if __name__ == "__main__": # 模拟一个拥有 200 万行数据的 MergeTree 表，默认索引粒度为 8192 ch_mock = ClickHouseSparseIndexMock(index_granularity=8192) ch_mock.load_data(total_rows=2000000) # 假设我们要查询一个位于表深层（后部）的特定键 target_key = 1852000 * 10 print(f"\n【启动查询】目标查询主键: {target_key}") print("======================================================================") # 1. 全表线性扫描 idx_l, rows_l, time_l = ch_mock.linear_scan_search(target_key) print(f"【方案一: 全表扫描】匹配行索引: {idx_l} | 扫描行数: {rows_l} | 执行耗时: {time_l:.4f} 毫秒") # 2. ClickHouse 稀疏索引定位扫描 idx_s, rows_s, time_s = ch_mock.sparse_index_search(target_key) print(f"【方案二: 稀疏索引】匹配行索引: {idx_s} | 扫描行数: {rows_s} | 执行耗时: {time_s:.4f} 毫秒") print("======================================================================") # 3. 性能分析报告 speedup = time_l / time_s if time_s > 0 else 1 scanned_ratio = rows_l / rows_s print(f"【调优分析报告】") print(f"1. 稀疏索引方案使扫描数据量缩减了 {scanned_ratio:.1f} 倍 (由 {rows_l} 行缩减至仅 {rows_s} 行)") print(f"2. 查询性能吞吐速度提升了: {speedup:.2f} 倍")

四、吞吐量调优：索引粒度（Index Granularity）的物理博弈

稀疏索引的设计虽然极大解放了内存，但也要求架构师在物理配置上做出严密的工程妥协。核心的性能杠杆即为index_granularity：

1. 索引粒度过大时的系统惩罚

若将index_granularity设置得太大（例如从 8192 调整到 100000）：

每一个 Granule 包含的数据行数太多。
虽然内存中的 Marks 数量进一步压降，但在执行过滤时，二分查找定位到的数据区间会过度庞大。
这会导致 ClickHouse 底层在二阶段线性扫描时，解压和读取大量的冗余行，使查询退化为小范围的“局部全表扫描”，极大地损害了 CPU 的计算效率。

2. 索引粒度过小时的磁盘开销

反之，如果将粒度设置得过小（例如 128）：

虽然过滤精度极大提高，扫描的多余数据行数变少。
但会导致.idx文件和.mrk文件的大小急剧膨胀，常驻内存消耗显著上升。
更致命的是，每一个 Granule 物理上都要写入一次数据标记。这导致底层的物理列文件.bin在写入时，会被打碎为成千上万个微小的压缩块，极大地破坏了磁盘物理顺序写入（Sequential Write）的性能，使 ClickHouse 优秀的写吞吐表现彻底崩塌。

五、总结

ClickHouse 稀疏索引架构代表了高性能 OLAP 数据库设计的巅峰艺术。通过强制要求物理数据按照主键有序存储，配合以index_granularity为跨度的内存稀疏索引 Mark 锚定，ClickHouse 彻底摒弃了传统 B+ 树稠密索引常驻内存带来的巨大开销，实现了将极速二分查找与列式压缩块按需解压读取的完美融合。在实际的数据库集群规划与调优实践中，针对高频过滤字段科学选用复合主键顺序，合理设定索引粒度阈值，是压降物理 I/O 开销并交付出极致的大型海量数据查询性能的必经之路。

查看全文

http://www.jsqmd.com/news/964816/