当前位置: 首页 > news >正文

【NLP】拒绝数学劝退!大白话讲清楚序列标注与 CRF(原理+公式+图解)

【NLP】拒绝数学劝退!大白话讲清楚序列标注与 CRF(原理+公式+图解)

摘要:你看古文会觉得头大吗?因为没有标点符号。其实机器看中文也是这样!如何教会机器给一长串汉字正确地“断句”?本文将避开晦涩的数学推导,用通俗的语言带你拆解 NLP 核心任务——序列标注,并揭秘条件随机场(CRF)背后的“打分”逻辑。无门槛,包看懂!


一、 什么是“序列标注”?(给汉字办身份证)

在 NLP(自然语言处理)的世界里,机器最头疼的一件事就是:中文没有空格
英文是I love AI(有空格隔开),中文是我爱人工智能(粘在一起)。

如果机器把“北京大学”切分成“北京/大/学”,意思就变了。为了解决这个问题,我们发明了序列标注(Sequence Labeling)

1. 任务定义

简单来说,就是给句子里的每一个字都发一张“身份证”(打标签)。只要标签发对了,词语的边界就出来了。

序列标注流程
标注
标注
标注
B:开始
输入: 昨
E:结束
输入: 天
S:单字
输入: ,

(图解:序列标注的基本流程,输入汉字,输出标签)

📝 核心概念(数学视角)

  • 输入 (xxx):称为观测序列。比如文本序列{x1,x2,...,xn}\{x_1, x_2, ..., x_n\}{x1,x2,...,xn}
  • 输出 (yyy):称为状态序列。比如标签序列{y1,y2,...,yn}\{y_1, y_2, ..., y_n\}{y1,y2,...,yn}
  • 目标:找到最正确的yyy,使得它与xxx最匹配。

2. 怎么打标签?(BMES 法)

我们最常用的是一套叫BMES的标签系统:

  • B (Begin):词语的开始。
  • M (Middle):词语的中间。
  • E (End):词语的结束。
  • S (Single):这个字自己独立成词(单字)。

3. 看个栗子

假设我们要处理这句话:“昨天,小明…”

  • 机器标注前:昨天,小明…
  • 机器标注后
    • 昨 ->B(词头)
    • 天 ->E(词尾) ->(B和E连起来,机器知道“昨天”是一个词)
    • , ->S(单字)
    • 小 ->B(词头)
    • 明 ->E(词尾) ->(机器识别出“小明”是一个人名)

4. 知识扩展:序列标注模型的进化史

为了解决这个问题,聪明的科学家们发明了一代又一代的模型:

模型特点能力值
HMM隐马尔可夫,只看当前字,不看上下文⭐⭐
CRF条件随机场(本文主角),能看上下文和逻辑⭐⭐⭐⭐
BiLSTM-CRF引入长短期记忆,读得更远⭐⭐⭐⭐⭐
BERT-CRF全知全能,精准聚焦⭐⭐⭐⭐⭐⭐

二、 为什么要用 CRF(条件随机场)?

有了标签系统,谁来负责贴标签呢?
最早有个笨笨的机器人叫HMM(隐马尔可夫模型)。它有个大毛病:近视眼
它遵循**“独立输出假设”**,认为“现在的标签只跟现在的字有关”。

但实际上,“名词”后面大概率接“动词”,“B”后面绝不可能接“S”

CRF 的出现解决了这个问题。它是一个判别式概率模型,它的强项在于处理两种依赖关系:

CRF结构图
标签 y2
标签 y1
标签 y3
输入 x1
输入 x2
输入 x3

(图解:CRF 的网状结构。注意看,标签 y2 不仅连着输入 x2,还连着旁边的 y1 和 y3,这就是“看规矩”的能力)

  1. 全局依赖 (Global Dependence)
    每一个输出的标签,不仅仅取决于当前的字,而是由整个输入句子决定的。
  2. 相邻依赖 (Neighbor Dependence)
    每一个标签,都跟它前后相邻的标签有关系。

三、 CRF 的“大脑”是怎么思考的?(核心原理)

很多人看到 CRF 的数学公式就想关网页,但其实它就是在做一个**“打分游戏”
CRF 的逻辑是:对于一句话,可能有成千上万种标注方法(路径),我要算出每一种方法的
得分**,分最高的那个就是正确答案

1. 打分公式(人话版)

别怕,我们看一眼公式的样子,然后马上拆解它:

P(y∣x)=1Zexp⁡(∑转移得分+∑状态得分)P(y|x) = \frac{1}{Z} \exp \left( \sum \text{转移得分} + \sum \text{状态得分} \right)P(yx)=Z1exp(转移得分+状态得分)

这就好比老师改卷子,总分由两部分组成:

第一部分:转移特征 (Transition Features) —— 负责“管纪律”
  • 含义:衡量相邻状态变量之间的影响。看标签和标签之间顺不顺眼。
  • 规则举例
    • 如果前一个标签是B,当前标签是E(组成双字词),符合纪律!✅加分
    • 如果前一个标签是B,当前标签是B(连续两个开头?),违反纪律!❌扣分
第二部分:状态特征 (State Features) —— 负责“看事实”
  • 含义:衡量观测序列对状态变量的影响。看字和标签配不配。
  • 规则举例
    • 看到“”这个字,把它标成E(结尾)。
    • 机器回想了一下(训练记忆):在“昨天、今天、蓝天”里,“天”都是结尾。符合事实!✅加分

2. 谁来决定加多少分?(权重)

你可能会问:为什么是加10分而不是加100分?
这是机器在训练阶段(刷题阶段)学出来的。如果训练数据里“B后面跟着E”出现得特别多,机器就会把这个规则的权重(Weight,即公式里的λ\lambdaλμ\muμ调得很高。


四、 怎么快速找到最高分?(维特比算法)

如果一句话有 10 个字,每个字有 4 种标签可能,那么组合就有4104^{10}410种(一百多万种)!
机器如果把每一条路都走一遍算出分数,CPU 都要烧了。

于是,我们用了一种走迷宫的捷径——维特比算法 (Viterbi Decoding)

算法精髓:步步为营,优胜劣汰

想象你在玩闯关游戏,从第 1 关走到第 10 关:

  1. 走到第 2 关时:虽然从起点过来有 4 条路,但我只保留分数最高的那 1 条,把剩下 3 条差的路直接剪断、忘掉!
  2. 走到第 3 关时:基于第 2 关留下的最好路径继续往下走,再次只保留最好的 1 条。
  3. 结果:不管句子多长,机器在每一步都只保留了“最优解”。走到终点时,回过头一看,留下的就是那条唯一的全局最优路径(比如红线所示)。


(图解:红线代表最终筛选出的最高分路径:B-E-B-E,即“老王/上课”)


五、 总结

  1. 序列标注:就是把“分词问题”变成了“给每个字打标签(BMES)”的问题。记住核心:输入是观测序列xxx,输出是状态序列yyy
  2. CRF 模型:是一个严谨的评分老师,它不仅看字(状态特征),还看标签顺不顺(转移特征),打破了 HMM 的独立假设。
  3. 核心公式:总分 = 事实分 + 纪律分。
  4. 维特比算法:是一种聪明的剪枝算法,帮我们快速找到得分最高的那条路。

学会了 CRF,你就掌握了 NLP 领域的“瑞士军刀”。无论是医疗领域的病历分析,还是金融领域的合同审核,背后都离不开它的支持!

如果你觉得这篇文章对你有帮助,欢迎点赞、收藏、关注三连!有任何疑惑和问题,请在评论区留言!

http://www.jsqmd.com/news/82647/

相关文章:

  • 2025年PCBA印刷电路板组件定制优质供应商推荐:看哪家技 - 工业推荐榜
  • 济南市发明专利快速授权的三种途径
  • LangGPT快速上手与实战应用指南
  • 终极指南:30分钟掌握GloVe词向量核心技术
  • AI Agent系列-Google AI Agent学习-对工程团队的启示
  • Android滑动菜单开发终极指南:快速集成EasySwipeMenuLayout
  • Ant Design Blazor:企业级Web应用开发的C全栈解决方案
  • vavr与Kotlin深度对比:Java函数式编程的两种实现路径
  • 实验型/生产型/微射流高压均质机生产商哪家好? - 品牌推荐大师
  • 2025年优质臭氧发生器供应商综合排名一览,中型臭氧发生器/高温电热鼓风干燥箱/防爆烘干箱/真空烘箱/真空干燥箱臭氧发生器企业排行 - 品牌推荐师
  • 终极指南:如何快速掌握ViT-B/32__openai模型完整应用
  • 3步掌握安全文件删除工具:trash-cli使用完全指南
  • AI Agent系列-Google AI Agent学习-安全与治理:自主进化:持续学习、Agent Gym 与两个前沿案例
  • 2025商用开式冷却塔年度TOP5权威推荐:甄选开式冷却塔推 - mypinpai
  • Qwen3-14B-AWQ终极指南:如何在消费级GPU上运行140亿参数大模型
  • 企业级.NET权限管理终极解决方案:零代码配置与多数据库无缝切换
  • OpenHarmony与ArkUI-X的跨平台开发AtomGit Pocket
  • 为什么说Kronos金融模型是普通投资者的AI交易助手?[特殊字符]
  • 沈阳公务员培训哪家靠谱?公务员培训哪家口碑好? - myqiye
  • 2025.12.13日14:10-smart巧妙的;洒脱的
  • LangGPT入门指南:从零开始掌握AI提示词设计
  • 2025横流式闭式冷却塔推荐制造商TOP5权威测评:老牌靠谱 - mypinpai
  • 2025年五大口碑好的PCB板品牌制造商推荐,PCB板定制生 - 工业品牌热点
  • Vue.Draggable版本控制完全指南:从入门到精通
  • 2025年沈阳公务员面试培训靠谱机构排行榜,看看哪家口碑好? - myqiye
  • Python机器学习:从零基础到项目实战
  • PermissionsDispatcher终极指南:5步掌握Android特殊权限处理技巧
  • 2025新媒体运营线下培训学校TOP5权威推荐:甄选机构助力 - 工业推荐榜
  • 2025年票务系统创新制造商TOP5推荐:文旅行业靠谱的票务 - mypinpai
  • Text2Video-Zero终极指南:无需训练的AI视频生成革命