人工智能应用-机器听觉:11.说话人向量
将一段语音输入深度神经网络,网络输出为训练集中各个发音人的分类结果。网络训练的目标是让正确发音人的输出更大,其他人的输出更小,从而学习到哪些声音特征能区分不同的人。
基于深度神经网络的声纹识别模型示意图
但是,此模型只能识别训练集内的说话人。若要实现“开放式”识别(即识别任何新说话人),通常会取网络倒数第二层或最后一层的激活值作为说话人向量,用来表示输入语音的说话人特征。这样就能将一个人的发音映射到一个固定维度的向量空间里。
将一段语音输入深度神经网络,网络输出为训练集中各个发音人的分类结果。网络训练的目标是让正确发音人的输出更大,其他人的输出更小,从而学习到哪些声音特征能区分不同的人。
基于深度神经网络的声纹识别模型示意图
但是,此模型只能识别训练集内的说话人。若要实现“开放式”识别(即识别任何新说话人),通常会取网络倒数第二层或最后一层的激活值作为说话人向量,用来表示输入语音的说话人特征。这样就能将一个人的发音映射到一个固定维度的向量空间里。