当前位置：首页 > news >正文

ElasticSearch核心原理详解

news 2026/3/26 17:53:29

Elasticsearch (ES) 的核心原理可以概括为：基于 Lucene 的分布式、近实时（NRT）搜索引擎。它通过分片（Sharding）实现水平扩展，通过副本（Replica）实现高可用，通过倒排索引（Inverted Index）实现极速检索。

以下是 Elasticsearch 核心原理的深度详解：

Elasticsearch 本身不存储数据，也不直接进行全文检索，它是对 Apache Lucene 的封装和分布式扩展。

这是 ES 快如闪电的核心。与传统数据库的“正排索引”（文档 ID -> 内容）不同，倒排索引建立了 词项 (Term) -> 文档列表 (Doc IDs) 的映射。

结构：
- Term Dictionary (词典)：所有不重复的词项，按字典序排序（通常使用 FST - 有限状态转换器压缩存储）。
- Term Index (词典索引)：词典的索引，用于快速定位词典中的位置（类似书的目录）。
- Posting List (倒排表)：包含该词项的所有文档 ID 列表，以及词频、位置信息等。
优势：查询 "apple" 时，直接在词典中找到 "apple"，直接获取包含它的文档 ID 列表，无需遍历所有文档。

在建立索引前，文本会经过 Analyzer 处理：

为了处理 PB 级数据和高并发，ES 采用了 Share Nothing 的分布式架构。

Index: 逻辑上的命名空间，类似关系型数据库的 "Database"。
Shard: 物理上的数据单元。一个 Index 被拆分成多个 Shard，分布在集群的不同节点上。
- 主分片 (Primary Shard): 负责数据的写入和读取。数量在创建索引时确定，不可动态修改（除非重建索引）。
- 设计原则: 分片数决定了集群的最大容量上限。

作用:
1. 高可用 (HA): 当主分片所在节点宕机，副本自动晋升为主分片。
2. 读扩展: 副本也可以处理读请求（搜索），从而提升查询吞吐量。
动态性: 副本数量可以随时动态调整。

ES 的写入流程体现了其 近实时 (NRT) 的特性。

路由 (Routing): 客户端发送请求给任意节点（协调节点）。协调节点根据 routing = hash(doc_id) % num_primary_shards 计算出文档属于哪个主分片。
转发: 协调节点将请求转发给对应的主分片节点。
写入内存缓冲 (Memory Buffer):
- 数据首先写入内存中的 Buffer。
- 同时写入 Translog (事务日志，存储在磁盘)，防止断电丢失。
- 此时数据尚未可搜。
Refresh (刷新):
- 默认每隔 1秒，ES 执行 Refresh 操作。
- Buffer 中的数据被清空，生成一个新的 Segment (Lucene 的只读文件) 并写入文件系统缓存 (OS Cache)。
- 新的 Segment 对搜索可见。这就是“近实时”的来源（延迟约 1 秒）。
Flush (落盘):
- 默认每 30 分钟或 Translog 满时执行。
- 将内存中的所有 Segment 强制刷入磁盘 (fsync)。
- 清空 Translog。
Merge (合并):
- 后台线程会将多个小的 Segment 合并成大的 Segment，删除已标记删除的文档，优化查询性能。这是一个重 IO 操作。

复制流程: 主分片写入成功后，并行将请求发送给所有副本分片。只有当主分片和大多数副本写入成功后，才向客户端返回成功。

ES 的搜索遵循 Query Then Fetch 两阶段模式。

注意: 如果需要深度分页（如 from=10000, size=10），性能会急剧下降，因为每个分片都要准备 10010 条数据。此时应使用 search_after 或 scroll API。

ES 不是严格实时的（写入后立即可见），而是 NRT。这是因为 Lucene 的 Segment 一旦生成就是只读的。频繁生成 Segment 会导致大量小文件，影响性能。1 秒的 Refresh 间隔是性能与实时性的最佳平衡点。

ES 不使用锁，而是利用 _seq_no (序列号) 和 _primary_term 来实现乐观锁。

在旧版本中常见，当网络分区导致集群分裂成两个都选举出 Master 的子集群时发生。

特性	原理支撑	权衡 (Trade-off)
高吞吐写入	内存 Buffer + 顺序写 Translog + 异步 Refresh	数据有约 1 秒的可见延迟 (NRT)
极速搜索	倒排索引 + FST 压缩 + OS Cache	随机读性能较差，不适合高频单点更新
水平扩展	自动分片 (Sharding) + 路由哈希	分片数一旦设定难以缩减，规划需前瞻
高可用	多副本 (Replica) + 自动故障转移	写入成本增加 (需写多份)，存储空间翻倍
复杂分析	列式存储优化 (Doc Values)	占用额外磁盘空间，但极大加速排序/聚合