当前位置: 首页 > news >正文

ICASSP 2022:语音转换与数据增强技术新突破

某机构文本转语音团队在ICASSP 2022的研究

论文聚焦于语音转换和数据增强——有时两者兼而有之。

作者:Andrew Breen
2022年5月17日
阅读时长:6分钟

相关出版物

  • Voice Filter:使用语音转换作为后处理模块的少样本文本转语音说话人自适应
  • Cross-speaker style transfer:使用数据增强的文本转语音跨说话人风格迁移
  • Distribution augmentation:用于低资源情感文本转语音的分布增强
  • Text-free non-parallel many-to-many voice conversion:使用归一化流的无文本非并行多对多语音转换

Voice Filter:使用语音转换作为后处理模块的少样本文本转语音说话人自适应

在《Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module》一文中,某机构TTS团队解决了少样本说话人自适应问题,即仅通过少量训练样本来学习新的合成语音。该论文将问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出,这是对现有少样本TTS范式的一个概念性转变。

该方法的关键在于,用于将TTS模型输出转换为新语音的“语音过滤器”,是使用TTS模型自身创建的合成数据进行训练的。

该TTS模型具有时长可控性,意味着输入文本被编码以指示每个音素在输出语音中应具有的时长。这使研究人员能够创建两个并行的训练语料库。一个语料库包含来自120个不同说话人的真实训练样本。另一个语料库是由TTS模型生成的合成语音,但其时长与多说话人样本的时长相匹配。

语音过滤器在这两个并行语料库上进行训练,然后,对于少样本学习,只需在新说话人上对其进行微调。在实验中,研究人员发现,这种方法产生的语音质量与使用30倍数据量训练的传统模型相当。

分布增强:用于低资源情感文本转语音

《Distribution augmentation for low-resource expressive text-to-speech》考虑的是新语音缺乏训练数据的情况。目标是重新排列现有示例的文本以生成新示例,并重新组合相应语音样本的片段以生成新样本。这不会增加训练目标的声学多样性,但确实增加了训练输入的 linguistic 多样性。

为了确保合成的训练示例在句法上不会变得过于不连贯,研究人员为输入文本构建了句法分析树,然后交换不同树之间句法等效的分支。交换声学信号的相应部分需要文本和信号之间良好的对齐,这可以通过现有的强制对齐模型来实现。

训练期间,为确保最终的TTS模型不会对合成示例产生过度的偏向,研究人员还加入了一个特殊的输入标记,用于指示两个现有样本融合的点。期望模型能够学会优先考虑真实样本内部的音素序列,而不是跨越融合样本边界的音素序列。在推理时,该标记的值在所有输入上简单地设置为0。

该模型语音输出的质量由60名人类评估者进行评估,他们在五个不同的数据集上将其与基线模型的语音输出进行比较。总体而言,新模型的输出在所有方面都获得了比基准模型输出更高的分数。

研究领域

  • 对话式人工智能

标签

  • 文本转语音(TTS)
  • 少样本学习
  • 合成数据生成
  • ICASSPFINISHED
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
http://www.jsqmd.com/news/511569/

相关文章:

  • 【仅限首批200名工控工程师开放】PLC梯形图→C自动转换工具内测版泄露:支持西门子S7-1500/SCL混合编译,含LAD语义树解析引擎白皮书
  • 如何用Ludwig低代码框架优化城市能源互联网:分布式能源管理完整指南
  • 为什么Contentlayer是开发者的首选内容SDK?终极指南解析
  • MangoHud与AI游戏助手:性能优化建议生成
  • Deepfake Offensive Toolkit安全认证考试管理员指南:考场设置与监督
  • Python模块之ffprobe计算视频时长、视频类别
  • H型钢基本参数和选用
  • Dify插件安装失败?3种Linux/macOS/Windows环境下的SSL证书绕过与离线安装秘技,解决99.2%召回配置异常
  • 从理论到实践:构建企业级大数据溯源平台
  • 【真能降AI】速降AIGC,降重!标价即卖价,全网最低!维普、知网、万方等一键降AIGC率,逻辑清晰,语义通顺,只需稍改错别字和标点。
  • C#数据持久化新思路:除了Json和XML,试试康耐视CogSerializer存对象到文件
  • Inpaint-Anything开发者访谈:揭秘AI图像修复的核心技术与未来愿景
  • coala 实战教程:5 个真实场景下的代码质量提升案例
  • Silero Models学术论文引用指南:研究影响力深度分析
  • 终极指南:如何彻底掌握TypeScript深层对象键名大写挑战
  • 新方法精确定位统计离群值的根本原因
  • 莱茵优品电话查询:官方联系方式与使用指南 - 品牌推荐
  • 零样本分类神器体验:AI万能分类器WebUI操作全解析
  • 【2026实战指南】论文AIGC率怎么降?实测5款免费降AI工具,手把手教你从80%降至10%
  • 如何快速掌握动态模板:Obsidian效率提升终极指南
  • 【LeRobot教程】第二章:模仿学习算法与训练Pipeline
  • guacamole-server未来发展方向:路线图和新功能预览
  • 2026.3.21 - 呓语
  • JPEXS Free Flash Decompiler技术文档版本控制:Git管理实践
  • 广东地区美罗蒂克座椅电梯老人款费用多少,性价比怎么样 - 工业品牌热点
  • Nature算法推荐-基于图强化学习的主动配电网实时故障管理【文献+复现代码】[红旗]深度强化学习算法创新之图强化学习[红旗]超强创新点推荐
  • android app添加/修改商品页面一定和详情页大部分一致
  • K值和U值是一个概念吗?
  • 断舍离第一步:先把你闲置的盒马鲜生礼品卡变现 - 团团收购物卡回收
  • 开源可部署的中文Prompt-NLU模型:SiameseUniNLU在政务问答系统中的轻量化应用