自然语言处理 —— 基础入门
摘要:本文介绍了自然语言处理的基础知识,重点阐述了语言的构成要素和语法范畴。语言由音系学、形态学、句法学、语义学和语用学五个相互关联的部分组成。语法范畴包括数、性、人称、格、级、定指/不定指、时态、体、语气和一致关系等基本模块。文章还对比了英语书面语和口语的语法差异,指出口语中存在言语不流畅、修正和词汇片段等特征。这些语言学基础知识为自然语言处理研究提供了理论框架。
目录
自然语言处理 —— 基础入门
自然语言语法
描述性语法
规定性语法
语言的构成要素
音系学
音位
形态学
词位
句法学
语义学
语用学
语法范畴
数
性
人称
格
级
定指与不定指
时态
体
语气
一致关系
口语句法学
言语不流畅与修正
话语重启
词汇片段
自然语言处理 —— 基础入门
自然语言语法
在语言学中,语言是一系列任意的语音符号集合。我们可以认为,语言兼具创造性、规则性、先天性与普遍性,同时也是人类独有的产物。不同的人对语言本质的理解存在差异,人们对语言本质也有着诸多误解,因此,理解 “语法” 这一含义模糊的术语就显得尤为重要。在语言学中,语法可被定义为语言运行所遵循的规则或准则。从广义上,语法可分为两类:
描述性语法
语言学家和语法学家对使用者的语言规则进行梳理总结后形成的规则体系,被称为描述性语法。
规定性语法
这是一种截然不同的语法概念,它试图为语言使用确立一套正确性标准,这类语法与语言的实际使用规律关联甚微。
语言的构成要素
语言学研究的语言体系可划分为多个相互关联的组成部分,这些划分是语言学研究中约定俗成且带有一定任意性的分类方式。各构成要素的解释如下:
音系学
音系学是语言的首要构成要素,研究特定语言的语音系统。该词源自古希腊语,其中 “phone” 意为 “声音” 或 “语音”。语音学是音系学的一个分支,从语音的产生、感知及物理属性角度,研究人类语言的语音。国际音标(IPA)是音系学研究中,对人类语音进行规范表征的工具。在国际音标体系中,每个书写符号唯一对应一种语音,反之亦然。
音位
音位是语言中区分不同词汇的语音单位,在语言学中,音位通常用斜杠标注。例如,音位 /k/ 出现在 kit(小桶)、skit(滑稽短剧)等词汇中。
形态学
形态学是语言的第二大构成要素,研究特定语言中词汇的结构与分类。该词源自古希腊语,“morphe” 意为 “形式”。形态学探究语言中词汇的构成规则,即语音如何组合成语素(如前缀、后缀、词根)这类有意义的单位,同时也研究词汇如何归为不同的词性。
词位
在语言学中,词位是形态分析的抽象单位,对应一个词汇的所有形态变化形式。词位在句子中的使用方式由其语法范畴决定,词位可以是单个词汇,也可以是多词组合。例如,talk(说话)是单字词位,有 talks、talked、talking 等多种语法变体;“speak up(大声说)”“pull through(渡过难关)” 等则属于多词词位。
句法学
句法学是语言的第三大构成要素,研究词汇如何组合成更大的语言单位,以及组合的顺序和规则。该词源自古希腊语 “suntassein”,意为 “整理、排列”。句法学的研究对象包括句子的类型与结构、从句及短语的相关规则。
语义学
语义学是语言的第四大构成要素,研究语言如何传递意义,这些意义既可以与外部客观世界相关联,也可以与句子的语法结构相关。该词源自古希腊语 “semainein”,意为 “表示、表明、发出信号”。
语用学
语用学是语言的第五大构成要素,研究语言的功能及其在具体语境中的使用规律。该词源自古希腊语 “pragma”,意为 “行为、事务”。
语法范畴
语法范畴可定义为某一语言的语法体系中,具有共同特征的语言单位或语法特征的类别,这些单位是构成语言的基本模块,语法范畴也被称为语法特征。
以下为常见的语法范畴分类:
数
数是最简单的语法范畴,主要包含两种形式:单数和复数。单数表示 “一个” 的概念,复数表示 “一个以上” 的概念。例如:dog(狗,单数)/dogs(狗,复数)、this(这个,单数)/these(这些,复数)。
性
语法性通过人称代词和第三人称的形式变化体现,常见的语法性形式有:第三人称单数的 he(他)、she(她)、it(它);第一、二人称的 I(我)、we(我们)、you(你 / 你们);第三人称复数 they(他们 / 她们 / 它们),属于通性或中性。
人称
人称也是基础的语法范畴,主要分为三类:
- 第一人称:指说话者自身;
- 第二人称:指听话者,即被说话的对象;
- 第三人称:指说话所提及的人或事物。
格
格是较难掌握的语法范畴之一,用于表示名词短语在句中的语法功能,或名词短语与动词、其他名词短语之间的语法关系。人称代词和疑问代词主要有三种格的形式:
- 主格:充当句子的主语,例如:I(我)、we(我们)、you(你 / 你们)、he(他)、she(她)、it(它)、they(他们 / 她们 / 它们)、who(谁);
- 所有格:表示所属关系,例如:my/mine(我的)、our/ours(我们的)、his(他的)、her/hers(她的)、its(它的)、their/theirs(他们的 / 她们的 / 它们的)、whose(谁的);
- 宾格:充当句子的宾语,例如:me(我)、us(我们)、you(你 / 你们)、him(他)、her(她)、them(他们 / 她们 / 它们)、whom(谁)。
级
级这一语法范畴主要适用于形容词和副词,分为三种形式:
- 原级:单纯描述事物的属性特征,例如:big(大的)、fast(快的)、beautiful(美丽的);
- 比较级:表示两个事物之间某一属性的程度差异,即 “更……”,例如:bigger(更大的)、faster(更快的)、more beautiful(更美丽的);
- 最高级:表示三个及以上事物之间某一属性的最高程度,即 “最……”,例如:biggest(最大的)、fastest(最快的)、most beautiful(最美丽的)。
定指与不定指
这两个概念较为简单,定指表示所指对象是说话者和听话者都已知、熟悉或可识别的;不定指则表示所指对象是双方未知或不熟悉的。这一概念可通过冠词与名词的搭配使用理解:
- 定冠词:the;
- 不定冠词:a/an。
时态
时态属于动词的语法范畴,是通过语言形式表示动作发生的时间,时态建立了动作发生时间与说话时刻之间的关联。时态大致分为三类:
- 一般现在时:表示动作发生在当下,例如:Ram works hard.(拉姆努力工作。);
- 一般过去时:表示动作发生在说话时刻之前,例如:it rained.(下雨了。);
- 一般将来时:表示动作发生在说话时刻之后,例如:it will rain.(将要下雨了。)。
体
体表示对动作或事件的观察视角,主要分为两种类型:
- 完成体:将动作或事件视为一个完整的整体,例如:英语中的一般过去时句子 “yesterday I met my friend.(昨天我见到了我的朋友。)” 就属于完成体,因该视角下事件是完整结束的;
- 进行体:将动作或事件视为正在进行、尚未完成的过程,例如:英语中的现在分词形式句子 “I am working on this problem.(我正在解决这个问题。)” 属于进行体,因该视角下事件处于持续进行中。
语气
语气的定义相对复杂,简单来说,它表示说话者对所述内容的态度,是动词的语法特征之一,与时态、体相互独立。常见的语气包括:陈述语气、疑问语气、祈使语气、禁令语气、虚拟语气、可能语气、愿望语气,此外动名词和分词也会体现相应语气特征。
一致关系
一致关系也被称为 “呼应”,指一个词的形式会根据与之相关的其他词发生变化,即让不同词汇或词性在某一语法范畴上保持形式一致。常见的一致关系基于以下语法范畴形成:
- 人称一致:主要体现为主谓一致,例如:英语中只能说 I am、He is,而不能说 He am、I is;
- 数的一致:同样主要体现为主谓一致,不同的人称和数对应特定的动词形式,例如:第一人称单数 “I really am.(我确实是。)”、第二人称复数 “We really are.(我们确实是。)”、第三人称单数 “The boy sings.(这个男孩唱歌。)”、第三人称复数 “The boys sing.(这些男孩唱歌。)”;
- 性的一致:在英语中,主要体现为代词与先行词在性上保持一致,例如:He reached his destination.(他到达了目的地。)、The ship reached her destination.(这艘船抵达了目的地。);
- 格的一致:格的一致在英语中并非显著的语法特征,例如:who came first − he or his sister?(谁先到的 —— 他还是他的姐姐 / 妹妹?)。
口语句法学
英语书面语和口语的语法虽有诸多共性,但也在多个方面存在差异。以下特征是二者语法的主要区别:
言语不流畅与修正
这是英语书面语和口语语法最显著的区别,这类现象单独来看被称为 “言语不流畅”,整体则被称为 “言语修正”。言语不流畅主要包括以下表现:
- 填充词:说话者在语句中会使用一些无实际语义的填充词,也叫停顿填充词,例如:uh(呃)、um(嗯);
- 待修正部分与修正部分:语句中被重复的词汇片段为待修正部分,同一位置被替换的词汇则为修正部分。举例理解:Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?(ABC 航空公司有单价 5000 卢比的单程航班呃单程票价吗?)在这个句子中,“one-way flights(单程航班)” 是待修正部分,“one-way fares(单程票价)” 是修正部分。
话语重启
在填充词停顿后,会出现话语重启的现象。例如在上述例句中,说话者先开始询问 “单程航班”,随后停顿并使用填充词,修正后重新开始询问 “单程票价”,这就是话语重启。
词汇片段
说话时,人们有时会说出不完整的词汇片段,例如:wwha-what is the time?(几 —— 几点了?),句中的 “wwha-” 就是词汇片段。
