当前位置：首页 > news >正文

jieba 库 3 种分词模式 + 自定义词典，从原理到实战

news 2026/3/26 20:07:25

一、jieba 库原理分析

1. 什么是中文分词？

分词是将连续的汉字序列，按照一定规则重新组合成词语序列的过程。

英文单词天然用空格分隔，中文无天然分隔符，必须通过分词工具切分。
词语是理解语意的基本单元，模型训练、文本分析必须先分词。

2. jieba 分词核心原理

jieba 分词基于词典匹配 + 概率优化实现：

词典匹配：内置dict.txt词典，遍历句子时匹配所有可能成词的字符组合。
概率优化：通过 ** 隐马尔可夫模型（HMM）** 计算不同分词结果的概率，选择概率最大的分词方案，保证更符合人类语言习惯。

注意：jieba 分词并非 100% 准确，遇到生僻词或专业术语时，可通过自定义词典优化。

二、jieba 库源码解析

1. 核心文件结构

通过pip show jieba获取安装目录后，核心文件如下：

文件 / 文件夹	作用
`__init__.py`	包含核心类`Tokenizer`，对外暴露分词接口
`analyse/`	实现分词算法、关键词提取等核心逻辑
`lac_small/`	用于创建词法分析模型和数据读取器
`finalseg/`	完成分词后处理的相关代码
`__main__.py`	提供命令行调用 jieba 库的功能
`dict.txt`	保存所有词语的核心词典文件

2. 核心类：Tokenizer

Tokenizer是 jieba 库的核心类，封装了所有分词相关方法，关键方法如下：

__init__(self)：初始化分词器，加载默认词典。
cut(self, sentence, cut_all=False, HMM=True)：精确模式分词，返回生成器对象。
cut_for_search(self, sentence, HMM=True)：搜索引擎模式分词，返回生成器对象。
lcut(self, *args)：精确模式分词，直接返回列表类型（cut()的封装）。
lcut_for_search(self, *args)：搜索引擎模式分词，直接返回列表类型。
load_userdict(self, f)：加载用户自定义词典，解决专业词识别问题。

三、jieba 库的三种分词模式（教材 8.7.3）

本文统一使用测试文本：我们在学习Python办公自动化

1. 精确模式（默认，最常用）

定义：对句子进行最精确的切分，无冗余、无重复，是文本分析的首选模式。语法格式：

jieba.cut(sentence, cut_all=False, HMM=True, use_paddle=False)

参数说明：

sentence：需要分词的中文字符串。
cut_all=False：指定使用精确模式（True为全模式）。
HMM=True：是否使用隐马尔可夫模型优化分词结果。

示例代码：

import jieba s = '我们在学习Python办公自动化' result = jieba.cut(sentence=s) print(result) print(list(result))

运行结果：

<generator object Tokenizer.cut at 0x...> ['我们', '在', '学习', 'Python', '办公', '自动化']

注意：cut()方法返回的是生成器对象，需用list()转换为列表才能查看具体分词结果。

2. 全模式

定义：将句子中所有可能成词的组合都切分出来，会产生大量冗余词汇，适合理解词语构成，不适合实际文本分析。语法格式：

jieba.cut(sentence, cut_all=True)

示例代码：

import jieba content = "我们在学习Python办公自动化" result = jieba.lcut(content, cut_all=True) print(result)

运行结果：

['我们', '在', '学习', 'Python', '办公', '自动', '自动化']

3. 搜索引擎模式

定义：在精确模式基础上，对长粒度的词再次切分，提高关键词匹配召回率，专门适配搜索引擎、检索场景。语法格式：

jieba.cut_for_search(sentence, HMM=True)

示例代码：

import jieba content = "我们在学习Python办公自动化" result = jieba.lcut_for_search(content) print(result)

运行结果：

['我们', '在', '学习', 'Python', '办公', '自动', '自动化', '办公自动化']

四、自定义词典实战（扩展）

1. 为什么需要自定义词典？

jieba 默认词典无法识别专业术语、行业新词等，如 “办公自动化” 默认会拆分为 “办公”“自动化”，若需将其作为整体分词，可通过自定义词典实现。

2. 词典格式

创建userdict.txt文件，每行格式为：词词频(可选) 词性(可选)

办公自动化 8 n Python 10 nz 学习 3 v

3. 加载自定义词典

import jieba sentence = '我们在学习Python办公自动化' # 未加载自定义词典 res1 = jieba.lcut(sentence) print("未加载词典：", res1) # 加载自定义词典 jieba.load_userdict("./userdict.txt") res2 = jieba.lcut(sentence) print("使用自定义词典：", res2)

效果对比：

未加载：['我们', '在', '学习', 'Python', '办公', '自动化']
已加载：['我们', '在', '学习', 'Python', '办公自动化']

五、词性标注与命名实体识别（NER）

1. 词性标注（POS）

import jieba.posseg as pseg content = "我们在学习Python办公自动化" words = pseg.lcut(content) for word, flag in words: print(f"{word}\t{flag}")

运行结果：

我们 r 在 p 学习 v Python nz 办公 n 自动化 n

2. 命名实体识别（NER）

定义：从文本中识别人名、地名、机构名等专有名词。实现：结合词性标注，可识别专业名词（如Python）、普通名词（如办公自动化），更精准的 NER 需通过模型训练实现。

六、三种分词模式对比总结

模式	特点	适用场景
精确模式	精准、无冗余	文本分析、词频统计
全模式	所有可能成词，冗余多	理解词语结构
搜索引擎模式	精确 + 长词再拆分	搜索、关键词匹配

七、完整可运行代码（作业版）

import jieba import jieba.posseg as pseg # 统一测试文本 content = "我们在学习Python办公自动化" # 1. 精确模式 print("=== 精确模式 ===") print(jieba.lcut(content)) # 2. 全模式 print("\n=== 全模式 ===") print(jieba.lcut(content, cut_all=True)) # 3. 搜索引擎模式 print("\n=== 搜索引擎模式 ===") print(jieba.lcut_for_search(content)) # 4. 自定义词典 print("\n=== 自定义词典分词 ===") jieba.load_userdict("./userdict.txt") print(jieba.lcut(content)) # 5. 词性标注 print("\n=== 词性标注 ===") words = pseg.lcut(content) for w, f in words: print(w, "\t", f)

查看全文

http://www.jsqmd.com/news/460318/