人工智能应用-机器听觉:10.现代声纹识别技术
现代声纹识别技术多采用深度学习方法:首先收集大规模人群的发音数据,然后训练出一个深度神经网络来提取与说话人身份相关的显著特征。与早期基于统计概率模型的方法相比,这种神经网络方法具有更好的抗干扰能力与长时建模能力,在真实应用中表现优越。
这种优越性主要归因于以下两点:
大规模样本学习:大量不同人的声音数据有助于模型学习到共性与各异的边界,从而能更准确地抽取与身份相关的关键特征。
长时序建模:说话人与长时间发音单元的特征关系密切,深度学习能更好地捕捉这种长时信息,从而识别说话人的独特性。
