【从知识库到知识图谱的推理之路】第三章 知识抽取与图谱构建(Knowledge Extraction Graph Construction) (二)3.2 半/非结构化文本抽取
3.2 半/非结构化文本抽取
半结构化与非结构化文本构成了自然语言处理领域中信息抽取的主要数据来源。半结构化文本通常指具有隐含格式但缺乏严格模式约束的文档,如网页表格、XML 文档、JSON 记录;非结构化文本则涵盖自由流式叙述文本,包括新闻文章、社交媒体帖子、科学文献与临床记录。从这两类文本中自动提取结构化知识,是构建大规模知识图谱、支撑问答系统与推理引擎的核心环节。该任务可分解为三个递进层次:命名实体识别与链接负责定位文本中的原子知识单元;关系抽取负责发现实体间的语义关联;事件抽取与复杂模式抽取负责捕获动态情境、时序演化与因果链条。三者共同构成从原始文本到可计算知识的形式化通路。
3.2.1 命名实体识别与链接(NER & EL)
命名实体识别(Named Entity Recognition, NER)旨在从连续文本中识别出具有特定语义类别的实体提及,如人物、组织、地点、时间表达式等。实体链接(Entity Linking, EL)在此基础上进一步将文本中的歧义提及映射到知识库中的唯一实体标识符。两者共同完成从文本到知识库节点的锚定过程。
3.2.1.1 传统 NER:BIO 标注、CRF、BiLSTM-CRF 架构
序列标注是 NER 的经典建模范式。BIO 标注方案将每个词映射为三种标签之一:B-X 表示实体类型 X 的开始词,I-X 表示该实体的内部词,O 表示非实体词。该方案通过严格的边界约束,将实体识别转化为逐
