当前位置: 首页 > news >正文

intent:book_flight

intent:book_flight

【免费下载链接】Rasa_NLU_ChiTurn Chinese natural language into structured data 中文自然语言理解项目地址: https://gitcode.com/gh_mirrors/ra/Rasa_NLU_Chi

  • 我想订一张去北京的机票
  • 帮我预订到上海的航班

intent:greet

  • 你好
  • 早上好

synonym:北京

  • 首都
  • 京城
## 实体标注与同义词处理 🔍 ### 实体标注技巧 在标注实体时,需要注意以下几点: - 使用 `start` 和 `end` 索引精确定位实体位置 - `value` 字段可以不同于文本中的实际内容,用于同义词处理 - 实体可以跨越多个词语 ### 同义词配置方法 Rasa NLU Chi 支持两种同义词配置方式: 1. **直接标注法**:在实体标注时指定标准化值 2. **同义词表法**:在 `entity_synonyms` 中集中定义 同义词配置示例:[rasa_nlu/extractors/entity_synonyms.py](https://link.gitcode.com/i/3bb6b02ee12fae3dbe79f70fa926b03a) ## 配置文件与训练管道设置 ⚙️ ### 中文专用配置 Rasa NLU Chi 针对中文提供了专门的配置方案。查看所有示例配置:[sample_configs/](https://link.gitcode.com/i/409f86f338e3dab31dac645714ed441d) #### MITIE + Jieba + sklearn 推荐配置 这是最推荐的中文处理管道配置: ```yaml language: "zh" pipeline: - name: "nlp_mitie" model: "data/total_word_feature_extractor_zh.dat" - name: "tokenizer_jieba" - name: "ner_mitie" - name: "ner_synonyms" - name: "intent_entity_featurizer_regex" - name: "intent_featurizer_mitie" - name: "intent_classifier_sklearn"

Jieba 分词器自定义词典

你可以使用自定义词典来优化分词效果:

- name: "tokenizer_jieba" default_dict: "./default_dict.big" user_dicts: "./jieba_userdict"

预定义词典位置:jieba_userdict/

完整训练流程指南 📈

第一步:准备训练数据

创建符合格式要求的训练数据文件。建议将数据拆分为多个文件以提高可维护性:

data/ ├── intents/ │ ├── book_flight.md │ ├── greet.md │ └── search_hotel.md └── entities/ ├── cities.md └── dates.md

第二步:配置训练管道

选择合适的配置文件。对于中文场景,推荐使用:

  • sample_configs/config_jieba_mitie_sklearn.yml
  • sample_configs/config_jieba_mitie_sklearn_plus_dict_path.yml

第三步:执行训练命令

使用以下命令开始训练:

python -m rasa_nlu.train \ -c sample_configs/config_jieba_mitie_sklearn.yml \ --data data/examples/rasa/demo-rasa_zh.json \ --path models

训练核心代码:rasa_nlu/train.py

第四步:验证与测试

训练完成后,模型将保存在models/目录下。你可以使用以下方式测试模型:

from rasa_nlu.model import Interpreter interpreter = Interpreter.load("models/default") result = interpreter.parse("我想订去北京的机票") print(result)

【免费下载链接】Rasa_NLU_ChiTurn Chinese natural language into structured data 中文自然语言理解项目地址: https://gitcode.com/gh_mirrors/ra/Rasa_NLU_Chi

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/513908/

相关文章:

  • 2026专家访谈服务优质平台推荐指南:专家访谈服务内容/专家访谈服务平台/专家访谈服务报价/专家访谈服务方案/专家访谈服务案例/选择指南 - 优质品牌商家
  • GIS小白必看:如何用QGIS快速加载全国三级河流SHP数据(附下载链接)
  • 保姆级教程:XXL-Job Admin服务端启动时,拦截器与配置类都悄悄干了啥?
  • 如何快速实现中文自然语言理解:Rasa_NLU_Chi多语言支持完全指南
  • 基于准PR控制的LCL三相并网逆变器仿真模型研究报告:详细滤波器参数设计、控制结构设计与性能验证
  • Apache Geode OQL查询语言:FROM子句的完整指南与实战技巧
  • Z-Image-GGUF开发环境搭建:Ubuntu系统与GPU驱动配置详解
  • 终极指南:Linux RDMA核心工具ibsrpdm详解——InfiniBand SRP目标发现与管理全攻略
  • 无网环境部署:离线安装OpenClaw+ollama-QwQ-32B全记录
  • 计算机毕业设计springboot同城喂溜宠物预约系统 基于SpringBoot的同城宠物上门照护预约平台 SpringBoot驱动的城市宠物代遛代喂一键预约系统
  • Qwen3.5-9B部署教程:使用vLLM引擎部署Qwen3.5-9B实现高并发图文推理服务
  • OpenClaw技能开发入门:为Qwen3-32B编写自定义文件处理器
  • BiRefNet实战指南:从入门到精通——30分钟完成高分辨率图像分割部署
  • 并网逆变器阻抗建模与扫频模型验证之旅
  • 终极指南:C++中CString参数传递的5个专业技巧
  • Springboot3+vue3科技文献推荐系统
  • 无需GPU也能跑:Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF轻量级部署方案
  • Pixel Dimension Fissioner惊艳案例:将专利摘要裂变为技术博客/投资人简报/科普视频脚本
  • 实测对比:通义万相Wan2.1在ComfyUI上的文生视频vs图生视频效果差异(附工作流文件)
  • 旁路电容设计的本质:电流路径、ESL控制与高频去耦真相
  • DIY红外遥控接收器:从HS0038引脚到完整电路搭建实战
  • ESP-IDF专用MMC56X3磁力计驱动详解
  • Pandoc 3.1.9实战:如何用自定义模板让Markdown转Word更专业(附免费模板下载)
  • OpenWrt+WireGuard实战:如何让家庭路由器秒变跨地域局域网节点(附避坑指南)
  • C++/CLI泛型性能优化终极指南:如何提升.NET互操作效率
  • 终极指南:如何用Ollama.js与服务工作者实现高效的AI后台处理
  • 霜儿-汉服-造相Z-Turbo与计算机视觉结合:利用YOLOv8进行人物姿态引导生成
  • 终极指南:如何使用Vercel AI SDK优化移动端AMP页面性能
  • 终极指南:如何利用C++ AMP实现GPU并行计算的3种核心方法
  • StructBERT零样本分类模型在Web安全领域的创新应用