当前位置: 首页 > news >正文

亚马逊TTS团队ICASSP 2022语音转换与数据增强研究

语音转换与数据增强技术新突破

文本自动转换为语音对某智能助手至关重要:这是该助手与客户沟通的方式。由某机构文本转语音(TTS)小组开发的模型也通过某云服务(AWS)的Polly服务提供给AWS客户。在今年的国际声学、语音与信号处理会议(ICASSP)上,TTS小组发表了四篇论文,全部涉及语音转换(在将一种合成语音转换为另一种语音时保留韵律特征)、数据增强,或两者兼有。

在“语音过滤器:使用语音转换作为后处理模块的少样本TTS说话人自适应”一文中,某机构TTS小组解决了少样本说话人自适应问题,即仅用少量训练样本学习一种新的合成语音。该论文将问题重新定义为学习一个语音转换模型,并将其应用于高质量TTS模型的输出上,这是对现有少样本TTS范式的概念性转变。

在“使用数据增强实现TTS的跨说话人风格迁移”中,团队展示了如何构建一个能够进行情感表达的TTS模型,即使目标语音的可用训练数据仅由中性语音组成。其思路是首先训练一个语音转换模型,将其他语音中的情感表达样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。

在“低资源情感TTS的分布增强”中,TTS小组通过重组现有示例的片段以生成新示例,从而扩展了用于训练TTS模型的文本范围。关键在于保持合成示例的句法连贯性,这样TTS模型就不会浪费资源去学习不可能的音素序列。(这是唯一不依赖语音转换的数据增强论文。)

最后,在“使用标准化流的无文本非并行多对多语音转换”中,团队将广泛用于TTS的标准化流概念应用于语音转换问题。与大多数深度学习模型一样,标准化流学习产生输入数据向量表示的函数。不同之处在于这些函数是可逆的,因此可以从表示中恢复输入。团队假设从输入数据中保留更多信息将产生更好的语音转换,初步实验证实了这一假设。

语音过滤器

“语音过滤器:使用语音转换作为后处理模块的少样本TTS说话人自适应”背后的想法是,对于少样本学习,采用现有高质量TTS模型的输出(即语音频谱图)并将其适应于新的目标语音,比调整模型本身更容易。

该方法的关键在于,语音过滤器(负责将TTS模型的输出转换为新语音)是使用由TTS模型自身创建的合成数据进行训练的。

语音过滤器的训练过程:
TTS模型是时长可控的,这意味着输入文本经过编码,以指示每个音素在输出语音中应持续的时长。这使得研究人员能够创建两个并行的训练语料库:一个语料库包含来自120个不同说话者的真实训练样本;另一个语料库是由TTS模型生成的合成语音,但其时长与多说话者样本的时长匹配。

语音过滤器在这两个并行语料库上进行训练。对于少样本学习,研究人员只需在新说话者的少量数据上对过滤器进行微调。实验发现,这种方法产生的语音质量,与传统模型使用30倍数据训练出来的语音质量相当。

跨说话人风格迁移

在“使用数据增强实现TTS的跨说话人风格迁移”中,研究人员使用的语音转换模型基于先前在亚马逊科学博客上报道过的CopyCat模型。转换后的情感数据被添加到中性数据中,共同构成用于训练TTS模型的数据集。

TTS模型接受两个输入:一个文本序列和一个风格向量。在训练期间,文本序列传递到TTS模型,而目标语音样本的频谱图则传递到一个参考编码器,该编码器生成风格嵌入。在推理时,没有输入频谱图。但研究人员证明,他们可以通过向模型输入预计算的风格嵌入来控制TTS模型输出的风格。

研究人员使用MUSHRA感知量表,基于人工评估对模型进行了评估。人类评估者报告称,相对于基准模型,新模型将14个不同说话者中,合成语音与真实语音之间感知风格相似度的差距平均缩小了58%。

分布增强

“低资源情感TTS的分布增强”考虑了新语音训练数据匮乏的情况。其目标是置换现有示例的文本以生成新示例,并重新组合相应语音样本的片段以产生新样本。这并未增加训练目标的声学多样性,但确实增加了训练输入的 linguistic 多样性。

为确保合成的训练示例不会变得过于句法不连贯,研究人员为输入文本构建了解析树,然后在不同的树之间交换句法等价的子树(如上图所示)。交换声学信号的相应部分需要文本与信号之间良好的对齐,这可以通过现有的强制对齐模型来实现。

训练期间,为了确保最终的TTS模型不会对合成示例产生过度偏置,研究人员还引入了一个特殊的输入token,用于标记两个现有样本融合的点。预期是模型将学习优先考虑真实样本内部的音素序列,而不是跨越融合样本边界的音素序列。在推理时,所有输入的该token值都简单地设置为0。

该模型语音输出的质量由60名人类评估者进行评估,他们在五个不同的数据集上将其与基线模型的语音输出进行比较。总体而言,新模型的输出在所有数据集上都获得了比基准模型输出更高的分数。

标准化流

标准化流学习将输入数据映射到一个表示空间,以最大化对某个先验分布的近似。“流”一词表示映射可以是数据通过一系列可逆变换的结果,而对分布的强制施加则实现了归一化。

在“使用标准化流的无文本非并行多对多语音转换”中,某机构TTS研究人员考虑了一个流,其输入包括源频谱图、音素嵌入、说话人身份嵌入、声学信号的基频以及一个表示输入音频帧是否为浊音的标志。该流将输入映射到特定应用领域中音素频率的分布。

通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员预先在一个标准TTS任务(其训练数据丰富)上训练该流,以预先学习分布。

由于流是可逆的,只要其他模型输入(音素嵌入、说话人ID等)可用,表示空间中的向量就可以映射回一组源输入。为了使用标准化流执行语音转换,研究人员在此反向映射过程中简单地用另一个说话者替换一个说话者。

研究人员考察了两种不同的实验设置:一种是语音转换模型同时接受文本序列和频谱图作为输入;另一种是它只接受频谱图。在第二种情况下,预训练的标准化流模型显著优于基准。直接从训练数据学习音素分布的标准化流模型表现不佳,这表明了预训练步骤的重要性。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/450277/

相关文章:

  • 圆环图配置详尽指南:从中心设置到渐变颜色应用
  • Python学习1(print、格式控制、input、类型转换)
  • 告别死记硬背!5款自主探索型科学实验平台,孩子玩着学出理科思维 - 品牌测评鉴赏家
  • C盘空间不足一键清理免费工具:2026年笔记本应急自救指南
  • 探索电机世界:定子永磁型双凸极永磁同步电机与磁通切换电机
  • 北京西服定制排行榜,西服定制店铺推荐
  • 谷歌 Pixel 10a:升级有限但价格亲民
  • 高考物理实验复习封神平台推荐!告别“读数火葬场”,20分稳拿不崩 - 品牌测评鉴赏家
  • NEAR AI开源IronClaw,强化AI Agent安全
  • 51单片机智能浇花器项目全解析
  • SQL逆袭:从传统走向前沿
  • 宝妈必藏|6个在家就能用的科学实验平台,免费好用不费妈 - 品牌测评鉴赏家
  • SpringBoot+Vue在线视频会议系统(含AI助手+敏感词过滤+即时通讯 多人在线会议(视频+语音+投屏) 2:集成DeepSeek大模型作为AI会议助手 3:智能敏感词过滤系统(可自定义规则)
  • 原生Java框架:JBoltAI助力Java开发公司AI转型
  • 无线低功耗大容量数据采集记录系统设计方案
  • “养龙虾”OpenClaw+华为泰山2280(现货)+麒麟操作系统V10,保姆级部署操作指南
  • AI 代码迁移:理想与现实的差距
  • 苹果3月活动,新品能否带来惊喜?
  • pcb硬金工艺详解 硬金与沉金区别
  • 小县城AI热潮,真实含量几何?
  • 秃鹰搜索算法优化极限学习机实现多输入单输出拟合预测
  • OpenClaw是什么?OpenClaw能做什么?2026年OpenClaw部署保姆级教程
  • 移动机器人轨迹跟踪:Backstepping算法的MATLAB实践
  • JBoltAI 4.1 企业实际使用体验及功能解析
  • 企业采购招标管理系统(Java)
  • DRM设备文件
  • LVS(Linux virual server)
  • 2026最新OpenClaw(龙虾ai)安装配置API思路与推荐方案
  • 强化学习综述
  • 瓶颈定位四步法:日志分析+工具链