当前位置：首页 > news >正文

跨话语重评分实现更具包容性的语音识别

news 2026/3/27 10:44:11

跨话语重评分实现更具包容性的语音识别

在一篇入选ICASSP前3%的优秀论文中，某中心的研究人员通过改进基于图的标签传播技术，提升了针对非标准发音的语音识别性能。

自动语音识别模型，通常用于语音助手中将语音转换为文本，通常包含两个阶段。第一阶段，一个深度神经网络将代表话语的声学信息映射到关于所说话词的多个假设。第二阶段，一个语言模型评估（重新评分）这些假设词序列的合理性。第一阶段——声学模型——针对大量说话者的平均性能进行了优化；因此，它在训练集中代表性不足的语音变体上（例如地方口音中的发音）表现往往不佳。标准的重评分方法无法纠正第一阶段语音识别器中存在的这种多数性偏见。

在今年的声学、语音与信号处理国际会议上，我们提出了一种新的语音识别假设重评分方法，有助于纠正对训练数据中代表性不足或失配的语音所产生的错误。

该方法从具有不同说话者但具有相似假设的语音样本构建一个图，并在听起来相似的语音片段之间创建边。然后，它会提升图中相邻节点所共享的假设的概率，这意味着听起来相似的语音片段会使相似的假设得到提升。其效果是，即使某些单词的发音在孤立情况下可能性很低，但如果它们在多个语音片段中保持一致，这些发音可以相互支持。

在实验中，我们在一个区域性口音英语数据库上测试了跨话语重评分方法。该语音识别器主要在北美英语上训练，因此对来自英格兰、苏格兰、爱尔兰、印度等地的说话者显示出较高的错误率。我们的方法全面降低了词错误率，平均降低了44%。

该算法需要比较整组语音片段，因此目前主要在半监督学习场景中直接有用。在这种设置下，通常一个大型的教师ASR模型为另一个通常计算效率更高的学生模型标注训练数据。通过为包含代表性不足语音模式的语音样本附加更准确的标签，我们可以使训练所用数据多样化，并最终帮助克服多数性偏见。

今年，ICASSP组织者将最佳论文奖的概念泛化，认可了会议接收论文中排名前3%的论文。我们很荣幸我们的论文位列其中。

图构建

我们考虑的情况是，初始的转录假设由一个完全训练的递归神经网络转录器ASR模型生成。RNN-T模型是一种编码器-解码器模型，这意味着它有一个编码器模块将输入映射到表示空间，以及一个解码器模块利用这些映射（称为嵌入）来生成ASR假设。

为了对这些假设进行重评分，我们采用了基于图的标签传播技术，将标签从已标注的示例传播到未标注的示例。在我们的案例中，图节点代表语音嵌入，标签是第一次识别过程产生的ASR假设。

我们图构建方法的第一步是选择要纳入图中的数据。我们将数据分成若干组，每组内的语音片段在其ASR假设上有实质性的重叠，并为每个这样的组构建一个单独的图。例如，单个图可能主要由关于天气的类似措辞的查询构成。

一旦确定了哪些语音片段要包含在图中，我们就测量它们嵌入之间的距离。我们尝试了几种不同的距离度量，但最终确定了一种基于动态时间规整的距离度量。DTW最初设计用于测量时间序列之间的距离，但我们将嵌入向量中的每个值本质上视为一个单独的时间步长。基于DTW的距离度量在此应用中效果良好，因为经验上它与语音片段转录本之间的距离（以编辑距离衡量）有很好的相关性。

基于距离测量，我们计算图节点之间的边。我们尝试了根据节点之间的DTW距离对边进行加权，但再次根据经验，我们发现二元边效果最好。我们从数据中学习一个距离阈值；所有彼此距离低于该阈值的节点通过边连接，距离超过该阈值的节点则保持未连接。

标签传播

在半监督学习的设置中，图中包含一些标注数据（其转录本高度准确）和大量未标注数据。我们使用标准的基于图的标签传播算法，将不同ASR假设的“优劣分数”分布到整个图中。本质上，这些算法旨在最小化连接（即相似）图节点之间标签值的剧烈不连续性。

其思想是，即使ASR模型对具有非标准发音的语音片段的正确转录赋予了较低置信度分数，该语音片段的嵌入也会与正确转录获得高置信度分数的语音片段共享边。然后，正确的转录将传播到图的该区域，从而增加具有非标准发音的语音片段被正确转录的几率。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

查看全文

http://www.jsqmd.com/news/325895/