当前位置：首页 > news >正文

ICASSP 2022：语音转换与数据增强技术新突破

news 2026/3/27 5:54:45

某机构文本转语音团队在ICASSP 2022的研究

论文聚焦于语音转换和数据增强——有时两者兼而有之。

作者：Andrew Breen
2022年5月17日
阅读时长：6分钟

相关出版物

Voice Filter：使用语音转换作为后处理模块的少样本文本转语音说话人自适应
Cross-speaker style transfer：使用数据增强的文本转语音跨说话人风格迁移
Distribution augmentation：用于低资源情感文本转语音的分布增强
Text-free non-parallel many-to-many voice conversion：使用归一化流的无文本非并行多对多语音转换

Voice Filter：使用语音转换作为后处理模块的少样本文本转语音说话人自适应

在《Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module》一文中，某机构TTS团队解决了少样本说话人自适应问题，即仅通过少量训练样本来学习新的合成语音。该论文将问题重新定义为学习一个语音转换模型，该模型应用于高质量TTS模型的输出，这是对现有少样本TTS范式的一个概念性转变。

该方法的关键在于，用于将TTS模型输出转换为新语音的“语音过滤器”，是使用TTS模型自身创建的合成数据进行训练的。

该TTS模型具有时长可控性，意味着输入文本被编码以指示每个音素在输出语音中应具有的时长。这使研究人员能够创建两个并行的训练语料库。一个语料库包含来自120个不同说话人的真实训练样本。另一个语料库是由TTS模型生成的合成语音，但其时长与多说话人样本的时长相匹配。

语音过滤器在这两个并行语料库上进行训练，然后，对于少样本学习，只需在新说话人上对其进行微调。在实验中，研究人员发现，这种方法产生的语音质量与使用30倍数据量训练的传统模型相当。

分布增强：用于低资源情感文本转语音

《Distribution augmentation for low-resource expressive text-to-speech》考虑的是新语音缺乏训练数据的情况。目标是重新排列现有示例的文本以生成新示例，并重新组合相应语音样本的片段以生成新样本。这不会增加训练目标的声学多样性，但确实增加了训练输入的 linguistic 多样性。

为了确保合成的训练示例在句法上不会变得过于不连贯，研究人员为输入文本构建了句法分析树，然后交换不同树之间句法等效的分支。交换声学信号的相应部分需要文本和信号之间良好的对齐，这可以通过现有的强制对齐模型来实现。

训练期间，为确保最终的TTS模型不会对合成示例产生过度的偏向，研究人员还加入了一个特殊的输入标记，用于指示两个现有样本融合的点。期望模型能够学会优先考虑真实样本内部的音素序列，而不是跨越融合样本边界的音素序列。在推理时，该标记的值在所有输入上简单地设置为0。

该模型语音输出的质量由60名人类评估者进行评估，他们在五个不同的数据集上将其与基线模型的语音输出进行比较。总体而言，新模型的输出在所有方面都获得了比基准模型输出更高的分数。

研究领域

对话式人工智能