当前位置: 首页 > news >正文

堪萨斯大学新研究:揭示读唇出错原因,有望提升读唇训练与AI转录能力

研究揭示读唇奥秘

堪萨斯大学(University of Kansas)的研究人员发现,英语中约有三分之一的单词在发音时看起来至少与另一个单词相似。

研究背景与目的

2026年6月30日消息,堪萨斯大学的一项新研究运用网络科学,探究了人们读唇时出错的原因。言语语言听力专业的教授Michael Vitevitch及其合著者绘制了一张包含约20000个英语单词的视觉地图,旨在更好地理解为何有些单词比其他单词更难通过读唇识别。研究结果发表在《美国声学学会杂志》(Journal of the Acoustical Society of America)上,这些发现有望改进读唇训练方法,提升人工智能读唇、转录及提供其他数字服务的能力。

研究方法的独特之处

Michael Vitevitch表示,以往很多研究只关注人们读唇的准确率,而没有深入研究错误本身的特征。他们采用的研究方法是关注人们读唇的错误类型。此前关于读唇的研究大多由口语研究人员开展,主要关注音素以及参与者识别的单词与实际发音的接近程度。而Vitevitch关注的是视觉特征,即“视位”(visemes,音素的视觉等价物),专注于从嘴唇、下巴和嘴巴获取信息,不借助听觉。他举例说,有时候单词发音和视觉上都相似,比如“kit”、“cat”和“cut”;而有时候单词发音不同,但视觉上相似,比如“vet”、“fit”和“fuzz”,在这两种情况下,仅通过观察面部,无法区分这些单词。

研究得出的结论

通过对单词地图的分析,研究人员得出以下结论:一是人们更有可能将一个单词误认成另一个更常用的单词;二是发音时,英语中约三分之一的单词看起来至少与另一个单词相似;三是如果一个单词有很多视觉上相似的单词,那么读唇识别它就会更困难;四是读唇错误并非随机发生,当视觉上相似的单词在视觉网络中处于同一区域时,出错的可能性更大。Vitevitch还指出,令人惊讶的是,人们读唇的能力并不强,大多数错误表明,只差一两个视觉特征(即一两个视位)就能正确识别,能获取很多信息,但可能还不足以准确识别单词。

研究成果的应用与后续计划

研究人员绘制的视觉地图让他们了解了单词在视觉空间中的分布情况,某些区域的单词分布比预期更密集,视觉空间的拉伸和压缩方式超出了预期,这种拉伸和压缩对读唇的准确性有影响。Vitevitch团队希望将研究成果应用于读唇训练,跟踪人们随时间推移所犯的错误,让错误逐渐接近目标单词。此外,这项研究的另一个应用领域是自动转录训练,像Zoom这样的系统在语音转录方面已经做得不错,如果它们不仅利用音频信息,还利用说话者面部的视觉信息,是否能做得更好呢?Vitevitch表示,他的团队将以不同方式继续跟进这项研究,继续探索人们读唇的方式,有可能朝着机器学习应用方向发展,并寻找帮助那些需要辅助理解语音的人的方法。Vitevitch的合著者包括堪萨斯大学的研究生Maia Flynn和Reid Kelly,以及弗雷斯诺加利福尼亚州立大学(California State University, Fresno)的Lorin Lachs。

http://www.jsqmd.com/news/1125681/

相关文章:

  • 小模型回到电脑本地,数据安全就自动解决了吗?
  • 1D-CNN 轴承故障诊断实战:CWRU 数据集 6 类识别准确率达 99.2%
  • 小米寥寥几家车企设计汽车顶棚
  • 数智驱动 全域增长:劲捷KINGJOY的跨界突围与全域增长之路
  • 一颗Codec芯片的生存法则:为什么AI语音产品需要TP9311?
  • Agent 需要拦截模型调用?用 Middleware 给它加个“拦截器“!
  • 图像哈希算法(aHash/dHash/pHash)Python实战:3种方法对比与汉明距离阈值调优指南
  • 2026真太阳时八字排盘工具怎么选:看出生地校正、时区口径和隐私边界
  • HLS Downloader:浏览器里直接抓取和下载直播流
  • QT 5升级到 Qt 6 使用 Clazy 检查将 C++ 应用程序移植到 Qt 6
  • 生命涌现的小龙虾技能之【Cat Face Recognition Skill | 猫脸识别技能】简介
  • 每个按键都能单独屏蔽!这款免费小工具,治好了我的误触强迫症
  • 客户拜访录制了需求沟通短视频,2026教你搞定短视频文字提取难题
  • 速卖通商品信息自动翻译实现方案
  • 基于YOLO与边缘计算的垃圾自动分类系统:从数据到部署全流程实践
  • 新人接手老仓库最怕没人带:用 Codex / Claude Code 先画一张代码地图
  • 2026智能门锁避坑白皮书:从“参数内卷”到“6条标准”,不花冤枉钱的选购清单
  • 终极免费音频编辑解决方案:Audacity 完整指南
  • 每日热门skill:你的OpenClaw还在“闭着眼“搜索?Desearch这套去中心化引擎,让AI搜索质量飙到92.6%
  • 终极GitHub下载加速指南:3分钟解决国内访问缓慢问题
  • 虚拟化技术深度解析:从底层原理到产业实践,读懂云计算的核心基石
  • 视频剪辑神器,免费实用
  • ARIMA 模型定阶实战:基于 ACF/PACF 图的 4 种典型模式识别与 p, q 值选择
  • 安卓手游画质助手 解锁VIP功能「Android」
  • CubeSandbox 线下体验
  • 终极STL转STEP转换指南:5分钟实现3D格式无缝对接
  • python教程入门(二、第一个python程序)
  • 智能场假说:共振动力学与物理具身的统一框架(源自实验室科研工作感触)
  • 终极解决Realtek 8922AE WiFi 7网卡驱动问题的完整实战指南
  • 电脑磁盘分区|C盘爆红|实现过程中出现的问题并解决