当前位置: 首页 > news >正文

中文分词演示 - yi

 

中文分词演示

 

主要功能
分词核心:定义了 segment函数,根据用户选择的模式调用不同的分词引擎:
精确模式:使用 jieba.lcut,力求最准确地将文本切分,适合文本分析。
全模式:使用 jieba.lcut(text, cut_all=True),扫描文本中所有可能成词的情况,速度快但可能存在冗余。
搜索引擎模式:使用 jieba.lcut_for_search,在精确模式基础上对长词再次切分,提高召回率,适用于搜索引擎场景。
THULAC模式:调用 thu1.cut(text, text=True),使用清华大学开发的 THULAC 工具进行分词和词性标注(结果会显示词性)。

 

分词器名称主要语言支持核心特点适用场景
Jieba 中文 支持精确、全、搜索引擎三种分词模式;可自定义词典;新词识别能力强 中文文本分析、搜索引擎索引
NLTK 英文 功能全面,提供分词、词性标注、命名实体识别等丰富工具 学术研究、教学、英文文本处理
spaCy 多语言(英文为主) 工业化强度高,处理速度快;提供词性标注、依存句法分析等一体化管道 大规模英文文本处理、生产环境
THULAC 中文 由清华大学开发,分词准确性高,同时支持词性标注 对中文分词准确率要求高的专业文本处理
HanLP 多语言(中文为主) 功能丰富,集成分词、词性标注、命名实体识别、依存句法分析等多种功能 需要综合NLP功能的复杂中文处理任务
FoolNLTK 中文 基于深度学习,分词准确率较高 对中文分词准确度有严苛要求的场景
PKUSEG 中文 由北京大学开发,支持多领域分词模型 特定领域(如新闻、医药)的中文分词
import gradio as gr
import jieba
import thulac# 初始化THULAC
thu1 = thulac.thulac()# 定义分词函数
def segment(text, mode):if mode == "精确模式":seg_list = jieba.lcut(text)return "/ ".join(seg_list)elif mode == "全模式":seg_list = jieba.lcut(text, cut_all=True)return "/ ".join(seg_list)elif mode == "搜索引擎模式":seg_list = jieba.lcut_for_search(text)return "/ ".join(seg_list)elif mode == "THULAC模式":# 使用THULAC进行分词thu_result = thu1.cut(text, text=True)return thu_resultelse:return "请选择有效的分词模式"# 创建Gradio界面
with gr.Blocks(title="中文分词演示") as demo:gr.Markdown("# 中文分词演示")gr.Markdown("使用jieba库进行中文分词,支持多种分词模式")with gr.Row():with gr.Column():input_text = gr.Textbox(label="输入文本", placeholder="请输入要分词的中文文本...")mode = gr.Radio(["精确模式", "全模式", "搜索引擎模式", "THULAC模式"], label="分词模式", value="精确模式")btn = gr.Button("开始分词")with gr.Column():output_text = gr.Textbox(label="分词结果", interactive=False)# 示例gr.Markdown("## 使用示例")gr.Examples(examples=[            ["今天天气真好", "精确模式"],["今天天气真好", "全模式"],["今天天气真好", "搜索引擎模式"],["今天天气真好", "THULAC模式"],["人工智能是人类发展的方向", "精确模式"],["人工智能是人类发展的方向", "全模式"],["人工智能是人类发展的方向", "搜索引擎模式"],["人工智能是人类发展的方向", "THULAC模式"],["自然语言处理技术很重要", "精确模式"],["自然语言处理技术很重要", "全模式"],["自然语言处理技术很重要", "搜索引擎模式"],["自然语言处理技术很重要", "THULAC模式"]],inputs=[input_text, mode],outputs=output_text,fn=segment,cache_examples=True)btn.click(fn=segment, inputs=[input_text, mode], outputs=output_text)if __name__ == "__main__":demo.launch()

 

http://www.jsqmd.com/news/120235/

相关文章:

  • 用 .NET MAUI 10 + VS Copilot 从 0 开发一个签到 App(四)和 Copilot 一起创建「签到历史页面」
  • 医院危急值处理模型 - yi
  • 【课程设计/毕业设计】基于SpringBoot框架的乡村政务信息管理系统基于springboot的村务管理系统的设计与实现【附源码、数据库、万字文档】
  • 2025年12月中国童装品牌调研:HEYLADS男生女生品牌实力解析 - 品牌测评鉴赏家
  • 5.A.swift 使用指南
  • 震惊!选对云服务器代理商,这5个关键指标必须知道!
  • Autodesk组件高危漏洞剖析:CVE-2025-10887缓冲区溢出威胁深度解析
  • 用 .NET MAUI 10 + VS Copilot 从 0 开发一个签到 App(五)注册 + 登录
  • sleuth(micrometer)+zipkin - yebinghuai-qq
  • 【毕业设计】基于springboot的校园一卡通管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 学习笔记:网络流
  • 震惊!云服务器代理商性价比排行,这3家让你省下千万预算!
  • Linux 中md5sum -c 参数
  • 【场景分析】基于 LHS 法的场景生成与基于KD的forward 场景削减附Matlab代码
  • 【毕业设计】基于springboot的村务管理系统的设计与实现基于SpringBoot的村事务处理平台的设计与实现(源码+文档+远程调试,全bao定制等)
  • 【场景分析】基于概率距离快速削减法的风光场景生成与削减方法附Matlab代码
  • 2025年最实用的3个免费降ai率工具和免费ai查重工具,不用焦虑ai率过高!
  • 本地知识库新选择:访答深度解析
  • 【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测附Python代码
  • DX12-1-DirectX3D初始化
  • 【年度消费观察】2025,年轻人没有抛弃白酒
  • 3个常见的降AI率工具大汇总(含免费降AI额度),AI率降到20以内!
  • 企业AI落地真相:从“降本增效“到骨感现实的深度剖析
  • 企业AI编程实战:可治理、可审计的完整解决方案
  • Java计算机毕设之基于springboot的影院购票管理系统的设计与实现基于SpringBoot的影院票务管理平台的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • 收藏必看!《百面大模型》:从零基础到大厂面试的全链路实战指南
  • 【URP】Unity[视差贴图]模拟[冰面裂缝]实践
  • 【协同攻击】基于人工势场算法APF实现无人机蜂群系统具有飞行时间和攻击角度的协同攻击研究附Matlab代码
  • Java计算机毕设之基于springboot的校园一卡通管理系统的设计与实现校园一卡通的发放、注销和状态更新、 充值信息管理(完整前后端代码+说明文档+LW,调试定制等)
  • Java计算机毕设之基于springboot的校园一卡通管理系统的设计与实现校园一卡通的发放、注销和状态更新、 充值信息管理(完整前后端代码+说明文档+LW,调试定制等)