当前位置：首页 > news >正文

jieba-analysis（Java 版结巴分词）

news 2026/7/15 16:49:08

jieba-analysis（Java 版结巴分词）虽然只有 9 个核心类，但它完整复现了 Python jieba 的三大分词模式，并高效实现了中文分词的核心流程。下面我用技术拆解 + 代码逻辑映射的方式，告诉你它到底做了哪些事：

✅ 一、整体目标

输入一段中文文本 → 输出一个词语列表（带位置信息）

例如：

String text = "小明硕士毕业于中国科学院";

List tokens = segmenter.process(text, SegMode.INDEX);

// 输出: [小明, 硕士, 毕业, 于, 中国, 科学, 学院, 中国科学院]

背后经历了词典匹配 + 统计模型补漏 + 路径优化三步。

🔧 二、核心工作流程（对应你的 9 个类）

1️⃣ 加载词典：WordDictionary

- 干的事：

- 读取 dict.txt（格式：词语词频词性）

- 构建双数组 Trie 树（Double-Array Trie），实现 O(1) 前缀查询

- 同时加载 HMM 所需的四个概率文件：

- prob_start.txt（B/M/E/S 初始概率）

- prob_trans.txt（状态转移概率）

- prob_emit.txt（发射概率）

- hmm_model.bin（可选）

- 为什么重要？

Trie 树让“从任意位置开始能匹配哪些词”变得极快，这是性能基石。

2️⃣ 生成 DAG（有向无环图）：JiebaSegmenter + Node

- 干的事：

- 对输入文本每个字符位置 i，用 WordDictionary 查出所有以 i 开头的词

- 构建 DAG：节点是字符位置，边是可能的词语（如位置0→2 表示“小明”）

- 数据结构：

Map> dag = new HashMap();

// key=起始位置, value=所有结束位置

- 例子：

“中国科学院” → DAG 包含路径：

0→1("中"), 0→3("中国"), 0→6("中国科学院"), 2→3("国")...

📌 这一步把“所有可能的切分方式”编码成一张图。

3️⃣ 计算最优路径：动态规划（DP）

- 干的事：

- 在 DAG 上跑 DP，计算从每个位置到结尾的最大路径概率

- 概率 = 词频（来自 dict.txt）的对数和（避免浮点下溢）

- 关键公式：

route[i] = max( log(freq(word)) + route[j+1] ) // for all j in dag[i]

- 结果：得到一个 route[] 数组，记录每个位置的最佳切分终点。

💡 这就是精确模式（cut_all=False）的核心——找最可能的词序列。

4️⃣ 处理未登录词：FinalSeg + HMM + Viterbi

- 触发条件：当 DAG 中某个片段没有匹配到任何词（全是单字）

- 干的事：

1. 把连续单字交给 FinalSeg

2. FinalSeg 调用 Viterbi 算法（在 viterbi 包中实现）

3. 利用 HMM 的 B/M/E/S 四状态模型，将单字序列重新组合成词

- B: Begin（词首）

- M: Middle（词中）

- E: End（词尾）

- S: Single（单字词）

- 例子：

输入“阿巴斯”（不在词典）→ HMM 推断为 B-M-E → 合并为“阿巴斯”

⚠️ 注意：jieba-analysis 的 HMM 只用于处理连续单字，不是全句重分析。

5️⃣ 模式适配：SegMode 控制输出粒度

- INDEX 模式（默认）：

- 先按 DAG 最优路径切分

- 再对长词做二次切分（如“中国科学院” → 加入“科学”、“学院”）

- 适合搜索引擎（提高召回率）

- SEARCH 模式：

- 同 INDEX（在 jieba-analysis 中两者等价）

- OTHER 模式（精确模式）：

- 只输出 DAG 最优路径，不做二次切分

- 适合文本分析

📌 这就是 Python jieba 的 cut() vs cut_for_search() 的 Java 实现。

6️⃣ 结果封装：SegToken

- 干的事：

- 把每个词包装成 SegToken 对象，包含：

- word: 词语本身

- startOffset: 起始字符位置（UTF-16）

- endOffset: 结束字符位置

- 为什么重要？

支持 Lucene/Solr 集成（需要位置信息做高亮、短语查询等）。

7️⃣ 辅助工具：CharacterUtil + Pair + Hit

- CharacterUtil：判断字符类型（中文/数字/英文/符号），决定是否跳过或单独切分

- Hit：Trie 树查询的返回状态（完全匹配 / 前缀匹配 / 不匹配）

- Pair：临时存储（如词+频率）

🔄 三、完整调用链（以 sentenceProcess 为例）

JiebaSegmenter segmenter = new JiebaSegmenter();

List tokens = segmenter.sentenceProcess("小明去北京大学");

// 内部流程：

1. WordDictionary.getSingleton().init() → 加载词典 & HMM 模型

2. CharacterUtil.cleanText() → 清理无效字符

3. generateDAG() → 构建 DAG 图

4. calc() → 动态规划求最优路径

5. for each segment in path:

if segment is single chars → FinalSeg.segment()

6. wrap result into List

✅ 四、总结：这 9 个类到底做了什么？

类核心职责技术关键词

JiebaSegmenter 总调度器 DAG 生成、模式选择、流程控制

WordDictionary 词典引擎 Double-Array Trie、HMM 参数加载

DictSegment / Hit Trie 节点与查询前缀匹配、状态反馈

Node DAG 节点动态规划状态存储

FinalSeg 未登录词处理器 HMM、Viterbi 解码

SegToken 结果载体词语 + 位置信息

CharacterUtil 字符预处理中英文判别、清洗

Pair 临时数据结构键值对存储

💡 它没做（所以代码少）：

- 词性标注（POS）

- 关键词提取（TF-IDF/TextRank）

- 繁简转换

- 句法分析

- 深度学习模型

🎯 最终结论

jieba-analysis 用 9 个类精准聚焦于“中文分词”这一件事，通过：

- Trie 树（高速词典匹配）

- DAG + DP（最优路径搜索）

- HMM + Viterbi（未登录词补全）

实现了高性能、低内存、高兼容性的工业级分词器。

它的简洁不是“功能弱”，而是恰到好处的工程取舍 —— 这正是它能在 Java 生态中广泛流行的原因。

查看全文

http://www.jsqmd.com/news/779950/

三步解锁网盘直链下载：告别繁琐的智能助手方案

Hivemind：去中心化P2P深度学习训练框架原理与实践

基于MCP协议与Apify的英国企业合规智能查询引擎实战指南

Linux基础3

从零打造专属VSCode深色主题：设计、开发与发布全流程

大模型行业应用落地——从辅助工具到产业革新

企业级AI助手技能库：模块化设计与自动化工作流实践

Opencode集成Cursor AI：本地代理服务实现跨编辑器AI编程

SQL如何统计各分组下指标的波动率_STDDEV聚合函数应用

风险投资中非正式社交的价值：从人际网络到融资策略

论文AI率怎么降？来看这3大指令与4款实测工具

深度学习对抗攻防全解析 | 全网独家实战，从 FGSM 到 PGD 核心攻击复现 + 工业级防御策略，覆盖图像分类 / 自动驾驶 / 人脸识别全场景

打通ModelScope与私有仓库：模型同步与格式转换工具详解

全球化时代工程师职业路径选择：从硅谷神话到多元生态

大模型发展现状解析——竞争格局与技术演进

CSS解决浮动元素导致的布局闪烁_稳定容器布局高度

使用 ESP8266 + Arduino IDE + ST7789 240*240 OLED 显示屏实现显示“Hello World!”

应对2026算法更新：告别逻辑断层，10款论文降AI工具实测盘点

构建内容生成流水线时如何集成Taotoken实现模型自动选型

mem.net：.NET高性能内存数据结构实战与优化指南

实战指南：基于OpenClaw框架为企业微信接入AI智能体

2026现阶段混凝土预制光伏配重墩专业制造商推荐：宣化区岩清水泥制品厂 - 2026年企业推荐榜

General Translation：基于组件翻译的React国际化新范式

2026年现阶段，丰台区市政工程检查井盖板优质供应商深度解析 - 2026年企业推荐榜

Archlinux微信中文输入法问题

Alfred集成Ollama：打造macOS本地AI无缝工作流

Git Worktree管理器：提升多分支并行开发效率的Rust工具

Random Forest 涨点改进｜全网独家复现｜特征增强 + 可解释性优化，助力血细胞异常检测临床级精准识别

Jmeter 分布式压测常见坑以及解决方案

2026绍兴GEO优化公司实测对比：服务与效果验证亲历分享

相关文章：