当前位置: 首页 > news >正文

Alexa语音合成新突破:上下文感知的说话风格适配

今天,某中心设备高级副总裁在西雅图发布了其组织的最新产品与服务系列。在演示过程中,某中心副总裁兼Alexa首席科学家描述了Alexa科学团队的三项新进展。其中之一便是说话风格适配。

Alexa的语音由文本到语音模型生成,这些模型将Alexa自然语言理解模型和对话管理器的文本输出转换为合成语音。

近年来,Alexa一直在使用神经TTS,即基于神经网络的TTS,这不仅使语音听起来更加自然,也大大提升了其多功能性。神经TTS使得Alexa能够改变其说话风格——例如新闻播报风格或音乐风格——并且使得能够将韵律或语调模式从一个声音转移到另一个声音。

在人类言语中,说话风格和韵律通常取决于上下文,为了使Alexa与用户的互动尽可能自然,对她而言也应是如此。例如,设想以下交流:

用户:Alexa,播放Village People。
Alexa:你指的是乐队、专辑还是歌曲?

人类说话者会很自然地强调“乐队”、“专辑”和“歌曲”这些与缺失信息最相关的词语。

借助说话风格适配,Alexa将开始以同样的方式改变韵律模式,以适应对话上下文。同样,她也会改变语气:在某些情境下,欢快、活泼的语气可能很合适,但如果Alexa刚刚未能成功完成一个请求,这种语气可能会令人反感。

说话风格适配的模型之一会以感知上下文的方式生成替代措辞,这样Alexa就不会反复问同一个问题。在一轮对话中,她可能会说:“你指的是歌曲吗?”,在另一轮中,则可能是:“那我应该播放歌曲吗?”,依此类推。

因此,说话风格适配标志着向“概念到语音”方向迈出了一步,这是文本到语音技术的预想后继者,它以概念的高级表示为输入,并基于上下文和其他信号,在如何传达该概念方面拥有相当大的自由度。例如,有时相同的概念内容可以通过语音语调、明确的语言表达,或两者结合来传达。

说话风格适配依赖于来自对话管理器的状态信息。这些信息包括用户的意图——用户想要执行的动作,例如播放一首歌曲——以及槽位值——动作涉及的具体实体,例如歌曲名称。

它还包括当前的对话状态——开始、展开或结束——以及对话管理器对其当前对话状态理解的置信度。

首先,状态信息传递给语音生成器的措辞重构模块,这是一个基于Transformer架构的神经网络,在一个大型的、领域特定的语言语料库上进行训练。基于状态信息,该模型生成一个替代措辞列表。

然后,这些重构的措辞传递给另一个神经网络,该网络经过训练,用于识别每个句子中的“焦点词”,这些词是语音中特别强调的良好候选对象。

对话状态信息、措辞重构模块提出的重构方案以及焦点词模型的输出,全部传递给另一个神经网络——发音器——它生成最终的输出语音。

焦点词信息与槽位信息一起,告诉发音器应该强调输入句子中的哪些词。来自对话管理器的置信度得分则决定了语音风格,范围从低到高的兴奋程度。

然而,这仍然是第一天,我们正在试验利用其他上下文信息来进一步定制Alexa的回应。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/163711/

相关文章:

  • 2025年12月江苏南京高铁医疗转运服务商竞争格局深度分析报告 - 2025年品牌推荐榜
  • Mem Reduct内存管理:3分钟学会释放50%系统内存的终极指南
  • Unlock Music音频解密工具:浏览器端音乐格式转换完整解决方案
  • ABB变频器故障解析:从代码识别到解决方案
  • 使用Vivado2018.3进行状态机设计的手把手教程
  • 深度剖析 USB 3.2 Gen 2x2 实现机制与优势
  • WindowResizer终极指南:快速突破窗口限制的免费工具
  • NVIDIA显卡色彩校准终极指南:3分钟实现专业级色彩还原
  • VMware Unlocker终极指南:5分钟搞定macOS虚拟化
  • Calibre豆瓣插件完全手册:轻松实现电子书元数据自动化管理
  • Deepin Boot Maker:高效系统部署的智能启动盘制作解决方案
  • AKShare金融数据实战指南:5大高效方法快速掌握Python量化分析
  • Venera漫画阅读器全功能深度解析:打造个人专属漫画世界
  • 深岩银河存档编辑器:5分钟速成完整实战指南
  • Windows苹果设备驱动完整配置指南:彻底解决连接与网络共享问题
  • PyTorch-CUDA-v2.9镜像能否运行3D Reconstruction三维重建?MVSNet实战
  • 国家中小学智慧教育平台电子课本下载全攻略:3步搞定所有教材
  • PyTorch-CUDA-v2.9镜像是否支持Hugging Face Transformers?完全兼容
  • Forza Mods AIO完整指南:免费开源游戏修改工具快速上手
  • Unlock Music音频解密工具:浏览器端音乐格式转换全攻略
  • Navicat Premium for Mac 完整重置教程:无限试用期解决方案
  • 终极跨平台资源下载神器:一键搞定所有网络媒体内容
  • MouseClick:智能鼠标自动化工具,彻底告别重复点击的烦恼
  • ROFL-Player:5分钟掌握英雄联盟回放分析技巧
  • 现代字体技术对比分析终极指南:从技术演进到实战应用
  • DDrawCompat终极指南:Windows经典游戏兼容性修复完整解决方案
  • 5步掌握喜马拉雅音频本地化:技术深度测评与实战指南
  • Markn轻量级Markdown查看器:5分钟掌握高效文档预览技巧
  • 开源阅读鸿蒙版终极指南:免费打造专属数字书房
  • PyTorch-CUDA-v2.9镜像能否用于SLAM建图?深度学习vs传统方法