当前位置: 首页 > news >正文

跨话语重评分实现更具包容性的语音识别

跨话语重评分实现更具包容性的语音识别

在一篇入选ICASSP前3%的优秀论文中,某中心的研究人员通过改进基于图的标签传播技术,提升了针对非标准发音的语音识别性能。

自动语音识别模型,通常用于语音助手中将语音转换为文本,通常包含两个阶段。第一阶段,一个深度神经网络将代表话语的声学信息映射到关于所说话词的多个假设。第二阶段,一个语言模型评估(重新评分)这些假设词序列的合理性。第一阶段——声学模型——针对大量说话者的平均性能进行了优化;因此,它在训练集中代表性不足的语音变体上(例如地方口音中的发音)表现往往不佳。标准的重评分方法无法纠正第一阶段语音识别器中存在的这种多数性偏见。

在今年的声学、语音与信号处理国际会议上,我们提出了一种新的语音识别假设重评分方法,有助于纠正对训练数据中代表性不足或失配的语音所产生的错误。

该方法从具有不同说话者但具有相似假设的语音样本构建一个图,并在听起来相似的语音片段之间创建边。然后,它会提升图中相邻节点所共享的假设的概率,这意味着听起来相似的语音片段会使相似的假设得到提升。其效果是,即使某些单词的发音在孤立情况下可能性很低,但如果它们在多个语音片段中保持一致,这些发音可以相互支持。

在实验中,我们在一个区域性口音英语数据库上测试了跨话语重评分方法。该语音识别器主要在北美英语上训练,因此对来自英格兰、苏格兰、爱尔兰、印度等地的说话者显示出较高的错误率。我们的方法全面降低了词错误率,平均降低了44%。

该算法需要比较整组语音片段,因此目前主要在半监督学习场景中直接有用。在这种设置下,通常一个大型的教师ASR模型为另一个通常计算效率更高的学生模型标注训练数据。通过为包含代表性不足语音模式的语音样本附加更准确的标签,我们可以使训练所用数据多样化,并最终帮助克服多数性偏见。

今年,ICASSP组织者将最佳论文奖的概念泛化,认可了会议接收论文中排名前3%的论文。我们很荣幸我们的论文位列其中。

图构建

我们考虑的情况是,初始的转录假设由一个完全训练的递归神经网络转录器ASR模型生成。RNN-T模型是一种编码器-解码器模型,这意味着它有一个编码器模块将输入映射到表示空间,以及一个解码器模块利用这些映射(称为嵌入)来生成ASR假设。

为了对这些假设进行重评分,我们采用了基于图的标签传播技术,将标签从已标注的示例传播到未标注的示例。在我们的案例中,图节点代表语音嵌入,标签是第一次识别过程产生的ASR假设。

我们图构建方法的第一步是选择要纳入图中的数据。我们将数据分成若干组,每组内的语音片段在其ASR假设上有实质性的重叠,并为每个这样的组构建一个单独的图。例如,单个图可能主要由关于天气的类似措辞的查询构成。

一旦确定了哪些语音片段要包含在图中,我们就测量它们嵌入之间的距离。我们尝试了几种不同的距离度量,但最终确定了一种基于动态时间规整的距离度量。DTW最初设计用于测量时间序列之间的距离,但我们将嵌入向量中的每个值本质上视为一个单独的时间步长。基于DTW的距离度量在此应用中效果良好,因为经验上它与语音片段转录本之间的距离(以编辑距离衡量)有很好的相关性。

基于距离测量,我们计算图节点之间的边。我们尝试了根据节点之间的DTW距离对边进行加权,但再次根据经验,我们发现二元边效果最好。我们从数据中学习一个距离阈值;所有彼此距离低于该阈值的节点通过边连接,距离超过该阈值的节点则保持未连接。

标签传播

在半监督学习的设置中,图中包含一些标注数据(其转录本高度准确)和大量未标注数据。我们使用标准的基于图的标签传播算法,将不同ASR假设的“优劣分数”分布到整个图中。本质上,这些算法旨在最小化连接(即相似)图节点之间标签值的剧烈不连续性。

其思想是,即使ASR模型对具有非标准发音的语音片段的正确转录赋予了较低置信度分数,该语音片段的嵌入也会与正确转录获得高置信度分数的语音片段共享边。然后,正确的转录将传播到图的该区域,从而增加具有非标准发音的语音片段被正确转录的几率。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/325895/

相关文章:

  • 开关磁阻电机控制仿真:Matlab 2016b的探索之旅
  • AI Coding Pattern 详解
  • RAG 是什么
  • 分布式共识:区块链 / Web3 的底层基石(域名投资赛道专属解析)
  • 2026安全健康提神抗疲劳长牛健购买指南,合肥地区推荐靠谱商家
  • 2026年值得关注的新中式家具靠谱生产商,价格怎样
  • 大模型榜单周报(2026/01/31)
  • 2025年市面上有实力的尘埃粒子检测仪工厂电话,台式粒子计数器/尘埃粒子测试仪公司哪家强
  • Chandra OCR效果惊艳:多页PDF自动分节,章节标题识别与Markdown锚点生成
  • 分析光纤收发器源头厂家,哪家品牌靠谱且价格有优势呢?
  • 2025年市面上热门的中型货架品牌怎么选,层板货架/平台货架/重型货架/穿梭式货架/库房货架,中型货架制造商推荐
  • 探讨工程净化生产企业哪家费用低,靠谱选择别错过
  • 为什么verl更适合生产环境?三大优势解析
  • 2026年柠檬酸钠制造企业排名,出货快的柠檬酸钠厂家哪家好
  • 2025年丝印机选购必看:本地口碑爆棚的产品推荐,丝印机口碑推荐优选实力品牌
  • 盘点上海工业扫码枪工程案例多的品牌,这些制造商值得关注
  • 当AI测出我的职业焦虑症:软件测试者的破局三法则
  • 极地计算测试实战:跨越温差的可靠性挑战
  • 深度解析:智能体系统成熟后,组织面临的隐蔽风险——“创新高原期”
  • Scaling Laws:《Scaling Laws for Neural Language Models》Figure 3 解读
  • OrCAD快速入门:图解说明主菜单与工具栏功能
  • 吐血推荐专科生必备!9款一键生成论文工具TOP9测评
  • 普通型光纤收发器国内厂家排名情况如何,哪家产品更靠谱
  • 互联网大厂Java求职面试实战:Spring Boot微服务与Kafka消息队列应用解析
  • 为什么脑波疲劳监测成为开发团队的必备工具?
  • 计算机毕业设计springboot考研社区网站 SpringBoot驱动的考研互助交流平台设计与实现 基于SpringBoot的考研信息共享与二手交易网站开发
  • 【开题答辩全过程】以 基于安卓的空巢老人服务平台的开发为例,包含答辩的问题和答案
  • 2026年二维码扫描器供应企业推荐,专业品牌口碑大比拼
  • 政策破冰:AI测试示范区的三重战略价值
  • 2026年远距离读码器品牌排行出炉,新算技术上榜