当前位置：首页 > news >正文

Lucene底层原理：倒排索引实现原理与代码实战，彻底吃透搜索引擎核心

news 2026/6/26 11:39:47

Lucene底层原理：倒排索引实现原理与代码实战，彻底吃透搜索引擎核心

- 前言
- 一、什么是倒排索引？
- - 1.1 正排索引（数据库索引）
  - 1.2 倒排索引（搜索引擎索引）
  - 1.3 核心结构
- 二、倒排索引完整结构
- - 2.1 示例
- 三、Lucene 倒排索引构建完整流程（底层真实流程）
- - 3.1 构建步骤（图文版）
  - 3.2 构建流程图
- 四、Lucene 倒排索引检索流程
- - 4.1 查询流程
  - 4.2 为什么这么快？
- 五、手写实现：极简版倒排索引（Java 代码）
- - 5.1 代码实现
  - 5.2 运行结果
- 六、Lucene 倒排索引真实底层存储格式
- 七、Lucene 倒排索引的核心优化（ES 高性能的秘密）
- - 7.1 Term Index （基于 FST 结构）
  - 7.2 Posting List 压缩算法
  - 7.3 有序倒排表
  - 7.4 段（Segment）不可变
- 八、倒排索引核心总结（面试必背）
- 九、本文总结

🌺The Begin🌺点点关注，收藏不迷路🌺

前言

倒排索引（Inverted Index）是 Lucene 和 Elasticsearch 的灵魂，是全文检索能做到秒级响应的核心数据结构。

几乎所有搜索引擎、大数据检索组件，底层都依赖倒排索引。但绝大多数开发者只知其名，不知其实现。

本文从原理 → 结构 → 构建流程 → 代码实现 → 检索流程，用最通俗的方式带你从零实现 Lucene 倒排索引，彻底搞懂 ES 为什么快。

一、什么是倒排索引？

1.1 正排索引（数据库索引）

文档ID → 单词列表
需要遍历所有文档才能查关键词，慢。

1.2 倒排索引（搜索引擎索引）

单词 → 文档ID列表（倒排表）
通过关键词直接定位文档，极快。

1.3 核心结构

Term（词项）：分词后的最小单元（关键词）
Posting List（倒排表）：包含这个词的文档ID集合
Term Dictionary（词词典）：Term 的排序集合
Term Index（词项索引）：对 Term Dictionary 的索引，加速查找

二、倒排索引完整结构

Term Index (单词索引) ↓ Term Dictionary (单词词典：排序、二分查找) ↓ Posting List (倒排表：文档ID列表、频率、位置)

2.1 示例

文档：
1：我爱Java
2：Java编程
3：编程学习

倒排索引：

Java → [1, 2] 编程 → [2, 3] 我爱 → [1] 学习 → [3]

三、Lucene 倒排索引构建完整流程（底层真实流程）

3.1 构建步骤（图文版）

文档采集：读取原始文档内容
分词（Analyzer）：将文本切分成 Term
词项处理：转小写、去停用词、归一化
建立映射：Term → 文档ID、词频、位置
写入内存缓冲区
生成段文件（Segment）
持久化到磁盘

3.2 构建流程图

四、Lucene 倒排索引检索流程

4.1 查询流程

输入查询关键词
分词生成 Term
通过Term Index快速定位
在Term Dictionary二分查找
获取Posting List
取文档ID → 返回结果

4.2 为什么这么快？

Term Index 放在内存，O(1) 定位
Term Dictionary 有序，二分查找 O(logN)
Posting List 压缩存储，IO 极小

五、手写实现：极简版倒排索引（Java 代码）

下面用100 行 Java 代码实现一个迷你 Lucene 倒排索引，包含：

分词
索引构建
关键词检索

5.1 代码实现

importjava.util.*;/** * 极简倒排索引实现 */publicclassInvertedIndex{// 倒排索引核心结构：Term -> 文档ID集合privatefinalMap<String,Set<Integer>>index=newHashMap<>();// 新增文档，构建索引publicvoidaddDocument(intdocId,Stringcontent){// 1. 分词（简单按空格分词）String[]terms=content.split(" ");for(Stringterm:terms){term=term.toLowerCase();// 统一小写// 2. 创建倒排项index.computeIfAbsent(term,k->newHashSet<>()).add(docId);}}// 关键词检索publicSet<Integer>search(Stringkeyword){returnindex.getOrDefault(keyword.toLowerCase(),Collections.emptySet());}// 测试publicstaticvoidmain(String[]args){InvertedIndexindex=newInvertedIndex();// 添加文档index.addDocument(1,"I love Java");index.addDocument(2,"Java programming");index.addDocument(3,"programming study");// 查询System.out.println(index.search("Java"));// [1,2]System.out.println(index.search("programming"));// [2,3]}}