当前位置：首页 > news >正文

Elasticsearch 核心：分析器（Analyzer）组成部分及作用全解析

news 2026/4/22 10:29:35

Elasticsearch 核心：分析器（Analyzer）组成部分及作用全解析

- 一、前言
- 二、基础概念：什么是 Elasticsearch 分析器？
- - 2.1 核心定义
  - 2.2 分析器核心价值
- 三、分析器的三大组成部分（必考+核心）
- - 3.1 分析器组成结构流程图
- 四、三大组成部分详细讲解（作用+原理+示例）
- - 4.1 第一部分：Character Filter（字符过滤器）
  - - 4.1.1 作用（文本预处理）
    - 4.1.2 特点
    - 4.1.3 常见类型
    - 4.1.4 示例
  - 4.2 第二部分：Tokenizer（分词器）【核心】
  - - 4.2.1 作用（切分词语）
    - 4.2.2 特点
    - 4.2.3 常见类型
    - 4.2.4 示例
  - 4.3 第三部分：Token Filter（词条过滤器）
  - - 4.3.1 作用（词条精加工）
    - 4.3.2 特点
    - 4.3.3 常见类型
    - 4.3.4 示例
- 五、分析器完整执行流程（一步一步看懂）
- - 原始文本
  - 执行步骤
- 六、三大组件对比总结表
- 七、分析器在 ES 中的两个使用时机
- - 7.1 写入时（索引分析器）
  - 7.2 查询时（搜索分析器）
- 八、自定义分析器示例（可直接使用）
- 九、总结（最重要的3句话）

🌺The Begin🌺点点关注，收藏不迷路🌺

一、前言

在 Elasticsearch 中，分析器（Analyzer）是全文检索能够实现“分词、匹配、搜索”的绝对核心。无论是写入数据构建倒排索引，还是查询时解析关键词，都离不开分析器。

很多新手搞不懂：为什么数据存进去搜不到？为什么分词不符合预期？本质都是不了解分析器的组成和作用。

本文将用最通俗的语言 + 流程图 + 结构化讲解，带你彻底掌握 Elasticsearch 分析器的三大组成部分、各自作用、执行流程、工作原理。

全文严格遵循 CSDN 博客格式：带序号、标准标题、流程图、可直接发布。

二、基础概念：什么是 Elasticsearch 分析器？

2.1 核心定义

分析器（Analyzer）是一个文本处理工具，本质是一段处理流程。
作用：把一段文本 → 拆分成一个个词条（Term），并对词条进行标准化处理。
应用场景：
- 写入文档时：对text类型字段分词，构建倒排索引
- 搜索时：对用户输入的关键词分词，进行匹配

2.2 分析器核心价值

没有分析器，就没有 ES 的全文检索、模糊匹配、智能搜索。

三、分析器的三大组成部分（必考+核心）

一个完整的 Elasticsearch 分析器固定由 3 部分组成：

Character Filter（字符过滤器）
Tokenizer（分词器）
Token Filter（词条过滤器）

3.1 分析器组成结构流程图

执行顺序：固定从上到下执行！

四、三大组成部分详细讲解（作用+原理+示例）

4.1 第一部分：Character Filter（字符过滤器）

4.1.1 作用（文本预处理）

在分词之前，对原始文本进行清洗、过滤、替换
处理对象：整个字符串
主要任务：
- 去除 HTML 标签
- 替换特殊符号
- 过滤无用字符
- 转换特殊内容

4.1.2 特点

可以有0个、1个或多个
不切分文本，只修改文本

4.1.3 常见类型

html_strip：清除 HTML 标签
mapping：字符替换（如：& → and）
pattern_replace：正则替换

4.1.4 示例

原始文本：<h1>Hello ES&World</h1>
处理后：Hello ES and World

4.2 第二部分：Tokenizer（分词器）【核心】

4.2.1 作用（切分词语）

分析器的核心组件，唯一必须存在的组件
作用：将一段完整文本，按照指定规则切分成一个个词条（Token）
决定：文本到底怎么拆分！

4.2.2 特点

有且仅有 1 个，不能没有
决定分词粒度、规则、效果

4.2.3 常见类型

standard：标准分词（默认）
ik_max_word：IK 中文分词
whitespace：按空格分词
keyword：不分词
pattern：正则分词

4.2.4 示例

文本：我是中国人
IK 分词后：[我, 是, 中国, 中国人]

4.3 第三部分：Token Filter（词条过滤器）

4.3.1 作用（词条精加工）

对分词后的词条流进行二次处理
处理对象：切分后的词条
可执行操作：
- 转小写
- 删除停用词（的、了、is、the）
- 添加同义词
- 去重
- 拼音转换
- 前缀处理

4.3.2 特点

可以有0个、1个或多个
按顺序执行

4.3.3 常见类型

lowercase：转小写
stop：去停用词
synonym：同义词
unique：去重
pinyin：拼音转换

4.3.4 示例

分词后：[I, LOVE, MY, China]
处理后：[love, china]（小写 + 去停用词）

五、分析器完整执行流程（一步一步看懂）

原始文本

我爱《Elasticsearch》核心技术

执行步骤

Character Filter
去除特殊符号 →我爱Elasticsearch核心技术
Tokenizer
IK 分词 →[我, 爱, Elasticsearch, 核心, 技术]
Token Filter
- 小写转换 →elasticsearch
- 去停用词 → 去掉我
- 最终词条 →[爱, elasticsearch, 核心, 技术]

六、三大组件对比总结表

组件名称	执行顺序	数量要求	主要作用	处理对象
Character Filter	第1步	0~N	文本预处理、清洗、替换	完整字符串
Tokenizer	第2步	必须1个	切分词语、生成词条	完整字符串
Token Filter	第3步	0~N	词条标准化、增删改	分词后的词条

七、分析器在 ES 中的两个使用时机

7.1 写入时（索引分析器）

文档 → 分析器 → 分词 → 构建倒排索引

7.2 查询时（搜索分析器）

用户关键词 → 分析器 → 分词 → 匹配倒排索引

重点：写入和查询必须使用同一个分析器，否则搜不到数据！

八、自定义分析器示例（可直接使用）

PUT /my_index { "settings": { "analysis": { "char_filter": { "my_char_filter": { "type": "html_strip" // 清除HTML } }, "tokenizer": "ik_max_word", // IK中文分词 "filter": [ "lowercase", // 小写 "stop" // 去停用词 ], "analyzer": { "my_analyzer": { "char_filter": ["my_char_filter"], "tokenizer": "ik_max_word", "filter": ["lowercase", "stop"] } } } } }