当前位置：首页 > news >正文

Elasticsearch 从分词到查询

news 2026/5/12 10:31:27

在中文全文检索场景中，Elasticsearch 默认的分词器无法有效处理中文语义。IK Analyzer 是一个成熟且广泛使用的中文分词插件，支持智能切分（ik_smart）和细粒度切分（ik_max_word），并支持自定义词典。然而，仅安装插件远远不够——合理配置分析器、管理停用词，并深入理解不同查询方式的行为差异，是构建高质量中文搜索系统的关键。

本文将完整演示如何在 Elasticsearch 中配置 IK 分词器（包括停用词），并通过实际示例展示其分词效果，同时对比match、match_phrase、term、multi_match等查询方式在高亮结果中的表现。

一、默认分词行为与停用词问题

我们先观察未配置停用词时的分词结果。使用如下命令对测试文本进行分析：

curl-sS-uelastic:123456-XPOST"http://localhost:9200/_analyze"-H"Content-Type: application/json"-d' { "analyzer": "ik_smart", "text": "这是一个测试文档，用于演示ik_smart_analyzer的分词效果。" }'|jq.

返回结果包含：

{"token":"的","start_offset":30,"end_offset":31,"type":"CN_CHAR","position":7}

可见，“的”这类常见虚词被保留为独立 token。在大多数搜索场景中，这类停用词（stop words）对语义贡献极小，反而会增加索引体积、干扰相关性排序。因此，配置停用词表是中文搜索优化的重要一步。

二、创建索引：配置 IK 分词器与停用词

IK 插件默认读取config/analysis-ik/stopword.dic文件作为停用词表。下面为快速测试在settings中显式指定。

我们创建一个名为test_ik_index的索引，并自定义停用词列表（例如过滤“的”、“用于”等）：

curl-sS-uelastic:123456-XPUT"http://localhost:9200/test_ik_index"-H"Content-Type: application/json"-d' { "settings": { "analysis": { "analyzer": { "my_ik_smart": { "type": "custom", "tokenizer": "ik_smart", "filter": ["my_stop_filter"] } }, "filter": { "my_stop_filter": { "type": "stop", "stopwords": ["的", "用于", "这是", "一个"] } } } }, "mappings": { "properties": { "content": { "type": "text", "analyzer": "my_ik_smart", "search_analyzer": "my_ik_smart" } } } }'|jq.

说明：
my_stop_filter定义了要过滤的停用词。
analyzer组合了ik_smarttokenizer 和停用词过滤器。
此配置仅影响当前索引，不影响全局 IK 配置文件，便于多索引差异化管理。

三、验证停用词生效

再次分析相同文本，使用新定义的my_ik_smart分析器：

curl-sS-uelastic:123456-XPOST"http://localhost:9200/test_ik_index/_analyze"\-H"Content-Type: application/json"\-d' { "analyzer": "my_ik_smart", "text": "这是一个测试文档，用于演示ik_smart_analyzer的分词效果。" }'|jq.

返回结果中，"这是"、"一个"、"用于"、"的"均不再出现，仅保留：

[{"token":"测试"},{"token":"文档"},{"token":"演示"},{"token":"ik_smart_analyzer"},{"token":"分词"},{"token":"效果"}]

停用词已成功过滤，索引更干净，搜索更聚焦核心语义。

注意：停用词过滤发生在分析阶段（即索引和搜索时），因此必须确保analyzer和search_analyzer都使用相同的配置，否则可能导致查询不匹配。

四、插入测试文档

使用清洗后的分词逻辑插入文档：

curl-sS-uelastic:123456-XPOST"http://localhost:9200/test_ik_index/_doc/1"-H"Content-Type: application/json"-d' { "content": "这是一个测试文档，用于演示ik_smart_analyzer的分词效果。" }'|jq.

尽管原文包含停用词，但索引时已通过my_ik_smart过滤，实际存储的 term 不包含它们。

五、不同查询方式的行为对比

我们以查询“测试文档分词效果”为例，观察各种查询在高亮结果中的表现。所有查询均启用highlight，以便直观看到匹配位置。

1.`match`查询（默认 OR）

curl-sS-uelastic:123456-XGET"http://localhost:9200/test_ik_index/_search"-H"Content-Type: application/json"-d' { "query": { "match": { "content": "测试文档 分词效果" } }, "highlight": { "fields": { "content": {} } } }'|jq.

结果分析：

查询文本经my_ik_smart分词为["测试", "文档", "分词", "效果"]
默认OR逻辑，命中任一即返回
高亮：四个词均被<em>标签包裹，文档匹配 ✅

2.`match`+`"operator": "and"`

curl-sS-uelastic:123456-XGET"http://localhost:9200/test_ik_index/_search"-H"Content-Type: application/json"-d' { "query": { "match": { "content": { "query": "测试文档 分词效果", "operator": "and" } } }, "highlight": { "fields": { "content": {} } } }'|jq.

结果分析：

要求所有分词结果都存在
文档包含全部四个核心词
高亮：四个词均被<em>标签包裹，匹配 ✅

3.`match_phrase`（短语匹配）

curl-sS-uelastic:123456-XGET"http://localhost:9200/test_ik_index/_search"-H"Content-Type: application/json"-d' { "query": { "match_phrase": { "content": "测试文档 分词效果" } }, "highlight": { "fields": { "content": {} } } }'|jq.

结果分析：

要求 token 按顺序连续出现（默认slop=0）
实际序列：[测试, 文档, 演示, ik_smart_analyzer, 分词, 效果]，中间有其他词
高亮：无结果 ❌

4.`term`查询（精确匹配）

curl-sS-uelastic:123456-XGET"http://localhost:9200/test_ik_index/_search"-H"Content-Type: application/json"-d' { "query": { "term": { "content": "测试文档" } }, "highlight": { "fields": { "content": {} } } }'|jq.

结果分析：

term查询不分词，直接查找完整 term"测试文档"
但索引中只有测试和文档两个独立 term，没有组合成"测试文档"
高亮：无匹配 ❌

正确做法：如需对完整短语做精确匹配，应在 mapping 中为字段添加.keyword子字段（类型为keyword），或使用match_phrase。

5.`minimum_should_match`控制匹配比例

curl-sS-uelastic:123456-XGET"http://localhost:9200/test_ik_index/_search"-H"Content-Type: application/json"-d' { "query": { "match": { "content": { "query": "测试文档 分词效果", "minimum_should_match": "70%" } } }, "highlight": { "fields": { "content": {} } } }'|jq.

结果分析：

4 个词 × 70% = 至少 3 个匹配
文档包含全部 4 个
高亮：四个词均被<em>标签包裹，匹配 ✅

此方式适合用户输入较长、允许部分缺失的场景（如电商搜索）。

六、总结与最佳实践

查询类型	是否分词	匹配逻辑	高亮表现	适用场景
`match`	是	OR（默认）	命中词高亮	通用全文搜索
`match`+`operator: "and"`	是	所有词必须出现	全部高亮	精准组合查询
`match_phrase`	是	顺序+邻近（slop=0）	短语整体高亮	固定表达/标题匹配
`term`	否	精确值	text 字段通常无结果	keyword 字段
`minimum_should_match`	是	比例/数量匹配	命中词高亮	容错/模糊搜索