当前位置: 首页 > news >正文

自然语言处理 —— 语言资源

本文摘要: 本文系统介绍了自然语言处理中的各类语言资源。重点阐述了语料库的设计要素,包括代表性、平衡性、抽样方法和规模控制,并以布朗语料库、英国国家语料库等为例展示了语料库规模的发展历程。详细解析了树库语料库的类型(语义树库和句法树库)及其在计算语言学等领域的应用。此外,还介绍了命题库语料库、动词网和词网等重要语言资源,包括它们的结构特点和在自然语言处理中的实际应用价值。这些语言资源为自然语言处理系统的开发提供了重要基础。

目录

自然语言处理 —— 语言资源

语料库

语料库设计的核心要素

语料库的代表性

语料库的平衡性

抽样

语料库的规模

树库语料库

树库语料库的类型

树库语料库的应用

命题库语料库

动词网

词网


自然语言处理 —— 语言资源

在本章中,我们将学习自然语言处理中的各类语言资源。

语料库

语料库是在自然交流场景中产生的、大规模且结构化的机器可读文本集合,其复数形式为 corpora。语料库的获取方式多样,包括原生电子文本、口语转写文本、光学字符识别文本等。

语料库设计的核心要素

语言的表达是无限的,但语料库的规模必然是有限的。为构建有限规模的优质语料库,需要通过抽样的方式,按比例纳入各类文本类型,这是语料库设计的关键。

接下来我们将学习语料库设计的几个重要要素:

语料库的代表性

代表性是语料库设计的核心特征。以下两位知名学者 —— 利奇与拜伯给出的定义,能帮助我们更好地理解这一概念:利奇(1991)提出,若基于某一语料库得出的研究结论,能够推广至其拟代表的语言变体,那么该语料库就具备对这一语言变体的代表性。拜伯(1993)则认为,代表性指的是样本涵盖某一语言群体中语言变异全部范畴的程度。

由此可得出,语料库的代表性由两大因素决定:

  1. 平衡性:语料库所包含的文本体裁范围
  2. 抽样方式:各类体裁下文本片段的选取方法
语料库的平衡性

平衡性是语料库设计的另一重要要素,具体体现为语料库涵盖的文本体裁范围。我们已经了解到,通用语料库的代表性,取决于其自身的平衡程度。一个平衡性良好的语料库,会覆盖能够代表目标语言的各类文本范畴。目前尚无可靠的科学指标来衡量语料库的平衡性,实际设计中主要依靠经验估算与专业判断。换言之,语料库的合理平衡度,仅由其预设的使用场景决定。

抽样

抽样也是语料库设计的核心要素,与语料库的代表性和平衡性高度相关,因此抽样是构建语料库过程中不可或缺的环节。

拜伯(1993)指出,构建语料库时,首先需要考虑整体设计问题:例如纳入的文本类型、文本数量、具体文本的选择、文本内部样本片段的提取,以及样本片段的长度。这些环节均涉及抽样决策,无论该决策是有意识做出的,还是无意识的。

选取具有代表性的样本时,需考虑以下三个要点:

  1. 抽样单位:指需要进行抽样的基本单元。例如书面文本的抽样单位,可以是报纸、期刊或书籍。
  2. 抽样框架:所有抽样单位构成的清单即为抽样框架。
  3. 研究总体:指所有抽样单位的集合,可从语言产出、语言接收或语言产物三个维度进行定义。
语料库的规模

规模是语料库设计的又一重要要素。那么语料库的规模该如何界定?这一问题并无固定答案,语料库的规模由其预设用途,以及实际操作中的各类因素共同决定,具体包括:

  1. 预期的用户查询类型
  2. 用户研究语料数据所采用的方法
  3. 数据来源的可获取性

随着技术的发展,语料库的规模也在不断扩大。以下对比表能直观体现语料库规模的发展变化:

年代语料库名称规模(单词数)
20 世纪 60-70 年代布朗语料库、LOB 语料库100 万
20 世纪 80 年代伯明翰系列语料库2000 万
20 世纪 90 年代英国国家语料库1 亿
21 世纪初英语银行语料库6.5 亿

在后续章节中,我们将介绍几种典型的语料库类型。

树库语料库

树库语料库是对文本进行语言学解析后的语料库,主要对句子的句法或语义结构进行标注。“树库(treebank)” 这一术语由杰弗里・利奇提出,这一命名源于树状结构是呈现语法分析结果最常用的方式。通常,树库的构建是以已完成词性标注的语料库为基础的。

树库语料库的类型

语义树库和句法树库是语言学中最常见的两种树库类型,接下来我们将详细介绍:

  1. 语义树库这类树库采用规范化的形式来呈现句子的语义结构,不同语义树库的语义表征深度存在差异。典型的语义树库包括:机器人指令树库、地理查询树库、格罗宁根意义库、机器人世界杯语料库等。

  2. 句法树库与语义树库不同,句法树库系统的输入,是对树库解析数据转换后得到的形式语言表达式,其输出则是基于谓词逻辑的意义表征。目前已有多种语言的句法树库被构建完成,例如阿拉伯语的宾州阿拉伯树库、哥伦比亚阿拉伯树库;汉语的中研院句法树库;英语的 Lucy 树库、Susane 树库以及 BLLIP《华尔街日报》句法语料库等。

树库语料库的应用

树库语料库的应用场景主要包括以下方面:

  1. 计算语言学领域树库最核心的用途是研发前沿的自然语言处理系统,例如词性标注器、句法分析器、语义分析器以及机器翻译系统。
  2. 语料库语言学领域树库主要用于句法现象的研究。
  3. 理论语言学与心理语言学领域树库可作为研究语言交互的实证依据。

命题库语料库

命题库(PropBank,全称为 Proposition Bank)是对动词命题及其论元进行标注的语料库,是一种以动词为核心的语言资源,其标注工作更贴近句法层面。该语料库由美国科罗拉多大学博尔德分校语言学系的玛莎・帕尔默等人研发。在广义上,任何对命题及其论元进行标注的语料库,都可被称作命题库。

在自然语言处理领域,命题库项目发挥了至关重要的作用,是实现语义角色标注的关键资源。

动词网

动词网(VerbNet,简称 VN)是英语中规模最大、领域无关的层级式词汇资源,同时整合了词汇的语义与句法信息。作为覆盖范围广泛的动词词典,动词网还与词网、Xtag 句法标注库、框架网等其他词汇资源建立了映射关系。其内部按照动词类别进行组织,在莱文动词分类的基础上,通过细化分类、增加子类的方式,实现同类动词在句法和语义上的一致性。

每个动词网的动词类别均包含以下两部分内容:

  1. 句法描述集合(句法框架)用于描述论元结构的各类表层实现形式,适用于及物、不及物、介词短语、结果补语等句法结构,以及各类语态转换形式。
  2. 语义描述集合包含有生命、人类、组织等语义范畴,用于限定论元所能承担的题元角色类型,同时可添加额外的限制条件,以此明确与某一题元角色相关联的句法成分特征。

词网

词网(WordNet)由美国普林斯顿大学研发,是英语的词汇数据库,同时也是自然语言工具包(NLTK)语料库的重要组成部分。在词网中,名词、动词、形容词和副词被划分为不同的认知同义词集合,即同义词集(Synsets)。所有同义词集之间,通过概念语义关系和词汇关系相互联结。这一结构特征让词网在自然语言处理领域具备极高的实用价值。

在信息系统领域,词网的应用场景十分广泛,包括词义消歧、信息检索、文本自动分类、机器翻译等。其最重要的应用之一,是计算词汇间的相似度,目前已有多种算法实现了这一功能,并被集成到各类工具包中,例如 Perl 语言的 Similarity 包、Python 语言的 NLTK 工具包以及 Java 语言的 ADW 工具包。

http://www.jsqmd.com/news/436998/

相关文章:

  • 智能考试系统核心模块回归测试:从基础数据到业务闭环的深度验证
  • 逻辑回归实战:从原理到不平衡数据优化(含欠拟合/过拟合诊断与召回率提升) - 教程
  • 自然语言处理 —— 简介
  • 止痒去屑洗发水怎么选?2026年热门品牌大盘点,去油去屑洗发水/去屑洗发水/止痒去屑洗发水,止痒去屑洗发水产品排行榜单 - 品牌推荐师
  • 书匠策AI:解锁课程论文新姿势,让学术创作如虎添翼!
  • 用Matlab实现基于LBP的面部表情识别
  • [特殊字符]解锁课程论文新姿势!书匠策AI:你的学术超能力启动站[特殊字符]
  • 全球前11%:奋飞咨询助力金属贸易企业实现Ecovadis评分19分跃升 - 奋飞咨询ecovadis
  • 爱喝咖啡的小姐姐订单发货说明
  • pikachu靶场——Cross-Site Scripting-6 XSS之href和js(Kali系统)
  • HGVE-2023-E006(CVE-2023-5870)
  • vue基于springboot的美食分享推荐管理系统的设计与实现 _io551-vue
  • list
  • 华为AI“做到全球前二” 没那么容易?
  • of vs for
  • 易语言开发从入门到精通:进阶篇·Windows应用程序数据安全与权限管理深度实战·密码加密/解密·数据签名/验签·文件加密/解密·数据库加密·进程/线程安全·网络传输加密·防破解/反调试·企业内部管理
  • DataFocus智能问数深度评测:为什么它是值得推荐的智能问数十大品牌之一?
  • Comate 4.0新年全面焕新!底层重构、七大升级、复杂任务驾驭力跃升
  • 荣耀卖了2600亿,华为是不是 “血亏”?
  • 鸿蒙应用开发:网络与通信
  • 备份usrtoken
  • 6个月免费学习路线图:从Python小白到AI智能体开发高手(收藏版)
  • Spring Boot中文件下载与JSON响应冲突的深度解析
  • 豆包AI商业实战手册深度解读:33个真实副业变现场景与完整闭环指南
  • IX8024@ACP#产品规格参数详解,应用场景分享
  • 含风光柴储微网多目标优化调度:MATLAB代码实现与探索
  • Go 缓存架构设计终极指南
  • 选对雷达模块,省一半开发时间!飞睿智能5.8G/24G选型指南
  • 2026开学第一周记 - -dEnIed
  • 【计算机毕业设计案例】基于django+Spark的南昌房价数据分析系统的设计与实现(程序+文档+讲解+定制)