堪萨斯大学新研究:揭示读唇出错原因,有望提升读唇训练与AI转录能力
研究揭示读唇奥秘
堪萨斯大学(University of Kansas)的研究人员发现,英语中约有三分之一的单词在发音时看起来至少与另一个单词相似。
研究背景与目的
2026年6月30日消息,堪萨斯大学的一项新研究运用网络科学,探究了人们读唇时出错的原因。言语语言听力专业的教授Michael Vitevitch及其合著者绘制了一张包含约20000个英语单词的视觉地图,旨在更好地理解为何有些单词比其他单词更难通过读唇识别。研究结果发表在《美国声学学会杂志》(Journal of the Acoustical Society of America)上,这些发现有望改进读唇训练方法,提升人工智能读唇、转录及提供其他数字服务的能力。
研究方法的独特之处
Michael Vitevitch表示,以往很多研究只关注人们读唇的准确率,而没有深入研究错误本身的特征。他们采用的研究方法是关注人们读唇的错误类型。此前关于读唇的研究大多由口语研究人员开展,主要关注音素以及参与者识别的单词与实际发音的接近程度。而Vitevitch关注的是视觉特征,即“视位”(visemes,音素的视觉等价物),专注于从嘴唇、下巴和嘴巴获取信息,不借助听觉。他举例说,有时候单词发音和视觉上都相似,比如“kit”、“cat”和“cut”;而有时候单词发音不同,但视觉上相似,比如“vet”、“fit”和“fuzz”,在这两种情况下,仅通过观察面部,无法区分这些单词。
研究得出的结论
通过对单词地图的分析,研究人员得出以下结论:一是人们更有可能将一个单词误认成另一个更常用的单词;二是发音时,英语中约三分之一的单词看起来至少与另一个单词相似;三是如果一个单词有很多视觉上相似的单词,那么读唇识别它就会更困难;四是读唇错误并非随机发生,当视觉上相似的单词在视觉网络中处于同一区域时,出错的可能性更大。Vitevitch还指出,令人惊讶的是,人们读唇的能力并不强,大多数错误表明,只差一两个视觉特征(即一两个视位)就能正确识别,能获取很多信息,但可能还不足以准确识别单词。
研究成果的应用与后续计划
研究人员绘制的视觉地图让他们了解了单词在视觉空间中的分布情况,某些区域的单词分布比预期更密集,视觉空间的拉伸和压缩方式超出了预期,这种拉伸和压缩对读唇的准确性有影响。Vitevitch团队希望将研究成果应用于读唇训练,跟踪人们随时间推移所犯的错误,让错误逐渐接近目标单词。此外,这项研究的另一个应用领域是自动转录训练,像Zoom这样的系统在语音转录方面已经做得不错,如果它们不仅利用音频信息,还利用说话者面部的视觉信息,是否能做得更好呢?Vitevitch表示,他的团队将以不同方式继续跟进这项研究,继续探索人们读唇的方式,有可能朝着机器学习应用方向发展,并寻找帮助那些需要辅助理解语音的人的方法。Vitevitch的合著者包括堪萨斯大学的研究生Maia Flynn和Reid Kelly,以及弗雷斯诺加利福尼亚州立大学(California State University, Fresno)的Lorin Lachs。
