当前位置: 首页 > news >正文

自然语言处理-序列标注算法-01

序列标注算法工程指南:HMM、CRF、BiLSTM-CRF 与 BERT-CRF

大模型时代公司接了序列标注相关的项目,乘此机会简单整理下之前所学,有不对之处还请指教,互相学习。
本系列共 5 篇,本文为总览篇,后续四篇分别深入每个算法的原理推导与完整可运行代码。


一、什么是序列标注

序列标注(Sequence Labeling)是 NLP 中最基础的结构预测任务:给定输入序列x=(x1,x2,…,xn)x = (x_1, x_2, \ldots, x_n)x=(x1,x2,,xn),为每个位置预测一个标签yiy_iyi,输出标签序列y=(y1,y2,…,yn)y = (y_1, y_2, \ldots, y_n)y=(y1,y2,,yn)

典型任务:

任务输入示例输出示例
命名实体识别(NER)张三 在 北京 工作B-PER O B-LOC O
词性标注(POS)I love NLPPRP VBP NN
中文分词我爱自然语言处理B I B I I I I I
语义角色标注(SRL)张三 打 了 李四A0 V O A1

二、标注方案:BIO / BIOES

工程中最常用BIOBIOES两种方案:

BIO 格式

  • B-{TYPE}:实体开始
  • I-{TYPE}:实体内部
  • O:非实体
张 三 是 北 京 人 B-PER I-PER O B-LOC I-LOC O

BIOES 格式(推荐)

  • B-{TYPE}:多词实体开始
  • I-{TYPE}:多词实体中间
  • O:非实体
  • E-{TYPE}:多词实体结束
  • S-{TYPE}:单词实体
张 三 是 京 城 人 B-PER E-PER O S-LOC ... O

工程建议:BIOES 对边界区分更精细,NER 任务中通常比 BIO 高 0.5~1% F1。


三、四大算法一览

序列标注 ├── 统计学习方法(可解释 · 低资源) │ ├── HMM 隐马尔可夫模型 → 详见 01_HMM.md │ └── CRF 条件随机场 → 详见 02_CRF.md └── 深度学习方法(高精度 · 端对端) ├── BiLSTM-CRF → 详见 03_BiLSTM-CRF.md └── BERT-CRF → 详见 04_BERT-CRF.md

四、横向对比

维度HMMCRFBiLSTM-CRFBERT-CRF
建模类型生成模型判别模型判别模型判别模型
特征工程无需需要人工自动学习预训练表示
训练数据量极少少~中少(微调)
推理速度极快
典型 F1(NER CoNLL-03)~70~85~90~93+
可解释性极低
适用场景资源极受限可解释/低资源无预训练条件主流生产方案
显存占用

五、技术演进路线

HMM (1990s) └─► 解决了:序列建模问题 └─► 缺陷:生成模型,特征独立性假设强 CRF (2001, Lafferty et al.) └─► 解决了:判别建模,任意特征,无独立性假设 └─► 缺陷:需要人工特征模板,特征工程成本高 BiLSTM-CRF (2016, Lample et al.) └─► 解决了:自动学习特征,端到端训练 └─► 缺陷:从零训练,需要一定标注数据量 BERT-CRF (2019, Devlin et al. + CRF) └─► 解决了:迁移学习,少量数据高精度 └─► 缺陷:推理慢,部署成本高

六、工程化选型建议

标注数据量 < 500 条? └─► 用 CRF(sklearn-crfsuite),快速验证数据可行性 有 GPU + 数据量 1k~10k? └─► 直接上 BERT-CRF(bert-base-chinese) 需要极低延迟(< 10ms)? └─► 蒸馏到 BiLSTM-CRF 或量化 BERT 需要可解释的特征权重? └─► CRF,可查看每个特征的权重系数

七、评估标准

序列标注统一使用span-level F1(而非 token-level accuracy),通过seqeval库计算:

fromseqeval.metricsimportf1_score,classification_report y_true=[['B-PER','I-PER','O','B-LOC']]y_pred=[['B-PER','I-PER','O','O']]print(f1_score(y_true,y_pred))# output: 0.6667print(classification_report(y_true,y_pred))# precision / recall / f1 / support by entity type

token-level accuracy 在 O 标签占多数时虚高,必须用 span-level F1 才能真实反映实体识别质量。


八、文档索引

文件内容
自然语言处理-序列标注算法-01本文:概念、对比、选型
自然语言处理-HMM深度解析-02HMM 完整推导 + 可运行训练代码
自然语言处理-CRF深度解析-03CRF 完整推导 + sklearn-crfsuite 完整代码
自然语言处理-BiLSTM-CRF深度解析-04BiLSTM-CRF 完整推导 + PyTorch 完整训练代码
自然语言处理-BERT-CRF深度解析-05BERT-CRF 完整推导 + HuggingFace 完整训练代码
http://www.jsqmd.com/news/1079634/

相关文章:

  • 基于Playwright与OpenCV的滑块验证码自动化破解实战
  • 油层物理——4.储层流体的高压物性
  • PYTHON+AI LLM DAY EIGHTY-SEVEN
  • Spring 极简学习笔记(三)
  • 问题解决方法:win11电脑突然找不到wifi图标
  • STM32单片机STM32二维码/条码识别结算系统156-1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_可以扫码
  • GPT-4.5生产级接入:环境隔离、密钥管理与错误熔断实战
  • Pinecone混合搜索实战:稠密+稀疏向量工程落地指南
  • 大路灯哪个品牌好?好用靠谱的护眼大路灯推荐,不踩雷选购秘籍
  • 东莞大型工厂饭堂承包哪家优
  • 从此告别素材荒|2026年视频剪辑新手用什么AI工具制作视频素材盘点
  • 前沿技术借鉴研讨-2026.6.25(低生育/孕产妇心血管疾病)
  • 23-440、STM32智能PID无刷电机PWM调速正反转设计-1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_可以扫码
  • 2026年第五届算法、数据挖掘和信息技术国际会议(ADMIT 2026)
  • 前端实战测评:基于调用 Gemini 3.5,完整交互页面搭建全流程
  • 实测横评:图片去水印工具有哪些?12款工具从免费在线到手机电脑全打通
  • PCF80空间单细胞蛋白组:有效应对组织自发荧光挑战,保障多重空间蛋白组学检测质量
  • SQL注入绕过WAF实战:从原理到Payload构造的完整对抗指南
  • 巴西开闸,iOS 支付规则进入碎片化时代
  • 依托达秘搭建运营系统:从流量捕猎到精细化农耕,2026 TikTok运营终局拼的是体系
  • 为什么越来越多三甲医院,深度选用语音通信系统?
  • ios云手机稳控环境不卡顿 苹果云手机原生真机更安全
  • ROS 2 Tracing 原理
  • 稀疏多项式优化:基于树宽与状态提升的SLchord/SLpush方法解析
  • API到底是个啥玩意?一文讲透,小白也能看懂!
  • 场外个股期权可以买吗?普通投资者需要注意哪些风险
  • 【软工方法论21】UML建模工具与画图技巧
  • 洗后干燥怎么护理
  • 国产系统怎么选?四类人群精准指南
  • BERT语义建模检测钓鱼URL实战指南