当前位置: 首页 > news >正文

N-gram


📝 N-gram

1. N-gram 的定义

N-gram 是指一段文本中连续出现的 N 个词或字符的序列。它是一种特征工程(Feature Engineering)技术,将文本数据转化为机器学习模型可以理解的数字特征

  • N 是一个变量,代表序列的长度。
N 值 术语 示例序列 作用
1 Unigram (一元语法) 医生态度很好 仅保留词频信息,忽略词序和上下文。
2 Bigram (二元语法) 医生 态度态度 很好 捕捉局部词序和搭配,开始体现上下文信息。
3 Trigram (三元语法) 医生 态度 很好 捕捉更长的上下文,有助于识别固定短语

2. N-gram 的核心作用:捕捉上下文

在情感分析或主题分类中,单个词语(Unigram)往往不够:

  • 仅看 Unigram: 词语“不”和“好”的频率很高。模型只知道“不”是负面词,“好”是正面词。
  • 看 Bigram: 如果使用 Bigram,模型会识别到“不 好”(负面)和“非 常 好”(正面)。

在患者反馈中,N-gram 的重要性体现在:

场景 示例 N-gram 捕捉的特征
负面体验 “等待 时间 太长” Trigram (等待 时间 太长) 作为一个特征,比单个词语更能准确地指向“流程效率低下”这个主题。
混合情感 “护士 很好 但 医生 很忙” Bigrams (护士 很好, 医生 很忙) 帮助分类器识别到句子中存在两个对立的观点,从而将评论分类为“混合情感(Mixed)”。
专业术语 “电子病历 系统” Bigram (电子病历 系统) 比两个独立的 Unigram 更能准确地代表“IT 系统”这个主题。

3. "N-grams Classified" 在综述中的意义

当表 2B 的研究采用 "N-grams Classified" 作为特征时,这意味着:

  1. 特征工程: 研究人员首先将患者评论文本转换成了一个包含所有 $N=1, 2, 3...$ 等 N-gram 组合的特征向量
  2. 分类器输入: 他们没有将原始文本输入给分类器(如 SVM),而是将这个N-gram 频率统计TF-IDF 加权后的向量输入给 SVM 或 Naïve Bayes。
  3. 传统 ML 的标志: 使用 N-gram 作为主要特征是传统机器学习(如 SVM、NB)在 NLP 中最常用的做法。这些模型善于在高维稀疏特征(即大量的 N-gram)上找到关键模式

http://www.jsqmd.com/news/37294/

相关文章:

  • pandas介绍
  • 图像处理工具面面观:数字化时代的图片管理方案
  • 实用指南:前端性能优化?
  • 2025年北京cppm报考机构权威推荐榜单:cppm/cppm证书/cppm课程培训源头机构精选
  • 可见光通信(VLC)系统中单点光源功率分布模型
  • 2025年云桌面公司排行榜
  • vue3.0实现数组分组效果
  • 如何管理你的订阅服务?一个工具带来的财务新视角
  • 静态方法(有static)和非静态方法
  • 2025年天津企业的宣传片拍摄机构权威推荐榜单:形象宣传片拍摄/活动宣传片拍摄/宣传片拍摄源头机构精选
  • 【URP】Unity[后处理]阴影,中间调,色差Shadows,Midtones,Highlights
  • 2025 年 11 月深圳企业服务实力派推荐榜:深圳网站建设,深圳外贸独立站推广,阿里巴巴/1688店铺代运营,短视频拍摄运营,商标注册,小程序开发公司精选
  • 2025年深圳连锁门店神秘顾客暗访机构权威推荐榜单:调查汽车神秘顾客/门店巡检神秘顾客/汽车经销商暗访源头机构精选
  • ubuntu20.04更换为国内源
  • DevExpress VCL v25.2新功能预览 - 发布全新基于AI的报表平台
  • 麒麟v10 x86_64 离线安装mosquitto
  • 2025年深圳神秘顾客研究机构权威推荐榜单:神秘顾客调查/神秘顾客暗访/市场研究源头机构精选
  • table实现左右水平滚动
  • 2025年改善睡眠服务推荐排行榜:科技引领健康睡眠新时代
  • 实现表格合并
  • 实用指南:Android studio 高效使用
  • 2025年11月中国抗衰老设备技术排行榜:前沿科技与健康衰老新选择
  • Windows 下安装 swoole 图文教程(php)
  • 2025.11.11
  • 银河麒麟高级服务器操作系统V10SP1(ARM)【auditd服务内存泄露】问题解决方法
  • 【2025-11-10】中年篮球
  • 基于ITIL流程的ITSM平台对比选型:如何选择最贴合自身需求、能真正落地ITIL价值的ITSM工具?
  • 树上的巧克力-树形DP
  • 支付宝对接问题归类
  • PRISMA 简介:系统综述和荟萃分析(meta分析)的首选报告项目