当前位置: 首页 > news >正文

Interspeech 2022:跨学科研究的融合与演进

Interspeech 2022:跨学科研究的增长

循环训练语音合成与语音识别模型、利用语言理解来改善语音韵律,这些只是语音相关领域交叉融合的几个例子。


当 Penny Karanasou 在 2010 年首次于 Interspeech 上发表论文时,她还是一名计算机科学的博士生,论文主题是自动语音识别。六年后,她加入了某中心,成为自然语言理解小组的一员。在过去的两年半里,她一直从事文本到语音的研究工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有亲身体验。

她也与 Interspeech 有着深厚的渊源。今年的会议是她第二次担任程序委员会的分区主席,也是她第七次主持会议环节。考虑到她在对话式 AI 领域广泛的经验,最令她着迷的领域趋势之一是自动语音识别、自然语言理解和文本到语音之间日益增长的重叠,这或许是很自然的。

“近年来,随着新开发的神经技术,我们开始看到不同语音领域之间有越来越多的重叠和协同作用,”Karanasou 说,“一个方向是实际上可以将 TTS 用于 ASR,即使用 TTS 系统生成合成数据进行数据增强。在英语中,我们可能需要特定领域的数据,或用于词汇表外单词的数据,或用于数据分布长尾中不常见示例的数据。但这也是低资源语言的一种有用方法。”

“另一种结合 ASR 和 TTS 的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式训练。你训练一个系统,并用其输出来训练另一个。然后使用某种置信度指标或其他选择方法来选择保留的数据进行新一轮训练。进行这种循环训练实际上可以改善两个任务。”

“近年来我们观察到的另一件事是,两个领域有共同的方法。在 TTS 和 ASR 中,整个社区都在朝着全神经端到端系统发展。我们还看到上下文的加入,以实现长格式的 ASR 和 TTS。因此,不仅仅关注一个句子,而是考虑对话中先前所说的更多上下文——或任何类型的上下文。”

语言理解与语音

“我认为这也是 NLU 产生影响的地方,”Karanasou 说,“随着所有这些语言模型的出现——比如最著名的 BERT——我们看到 NLU 被整合到语音领域中。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文及句法和语义信息。例如,通过正确的句法和语义信息,我们也可以在 TTS 中获得更好的韵律。”

正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科间交叉融合的一个例子。语言模型对单词序列的概率进行编码,而一个单词与其他单词的共现被证明是其含义的良好指标。但在它们被引入 NLU 之前,语言模型早已被用于 ASR 中,以区分相同声音序列的不同解释(一个经典的例子是 “Pulitzer Prize” 和 “pullet surprise”)。

“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT 出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。”

Interspeech 一直都有关于 ASR 和 TTS 的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但 Karanasou 指出,对话式 AI 子领域之间日益增长的重叠的另一个迹象是,越来越多的 Interspeech 论文关注以语音作为输入并以端到端方式执行下游计算的模型。这包括关于口语理解、口语翻译和口语对话的研究。

“传统上,我们会在 NLP 会议上看到这些关于口语理解的环节,”Karanasou 说,“但现在我们在像 Interspeech 这样的会议上看到了更多的 SLU 环节。”

“说了这么多,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是 TTS 的相反任务,但你需要处理不同的数据和不同的评估技术。例如,TTS 主要基于主观评估,而 ASR 则最小化词错误率,所以是客观评估。”

然而,对 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。

“我认为人们应该阅读其他领域的论文,”她说,“机器翻译当然是 NLU 的一部分。但越来越多的是,我们甚至从图像处理、计算机视觉中获得想法。理解另一个领域发生的事情并将其转移到你自己的领域,这实际上是非常丰富的。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/262692/

相关文章:

  • 银行网页如何通过vue.js实现大文件文件夹上传及分块?
  • 2026年最新敏感肌保湿修复产品测评:高口碑屏障修护与长效锁水极简成分标杆推荐 - 速递信息
  • 导师严选8个AI论文工具,专科生搞定毕业论文+格式规范!
  • 工程建筑网页如何通过js实现文件夹上传及断点续传?
  • 详细介绍:3ds Max渲染核心:高光追(Embree)与光线追踪(Ray Trace)
  • 金融行业网页如何用vue2实现文件夹上传及秒传功能?
  • 吐血推荐!9款一键生成论文工具测评:本科生毕业论文救星
  • 农业大数据平台如何用百度UE优化WORD表格导入功能?
  • 2026年目前知名的智能货架源头厂家哪家好,重载货架/中型货架/货架定制/抽屉式模具架/背网货架,智能货架源头厂家找哪家 - 品牌推荐师
  • 技术学校品牌企业哪家好?成都万通未来高级技工学校了解一下 - 工业品牌热点
  • 教育行业如何通过UEDITOR插件实现PPT动画转存为网页?
  • 医院HIS系统如何集成百度编辑器实现PDF病历跨平台编辑?
  • 2026四川气体探测器供货商排行榜,探寻气体探测器哪家性价比高 - 工业品牌热点
  • 2026年免费音效素材下载网站最新动态
  • 2026年1月15万左右城市SUV实力排行榜:基于长期口碑与实测数据的TOP5权威榜单揭晓 - 品牌推荐
  • 2026年做得好的户外led大屏广告代理公司有哪些,地铁广告/电视台广告/公交广告,户外led大屏广告代理公司推荐 - 品牌推荐师
  • Playwright多语言回归测试框架对比
  • 智能API回归测试的核心挑战与解决路径
  • 详细介绍:我为什么当博主
  • 保险网页项目怎么用javascript实现文件夹上传及加密?
  • 2026年辽宁口碑不错的气体探测器公司排名,这些企业值得关注 - 工业品牌热点
  • 出差旅行充电宝怎么选?2026年最新兼顾安全与便携的终极指南与实测推荐 - 品牌推荐
  • xilinx FPGA利用can IP实现can总线通信verilog源码,直接可用,注释清晰...
  • 【节点】[Slider节点]原理解析与实际应用
  • 重磅丨白山云斩获“金算奖 · 2025年度边缘 AI 卓越企业”!
  • 告别充电风险:2026年最新盘点真正懂差旅安全需求的三家高适配充电宝合作伙伴 - 品牌推荐
  • 24.C++进阶:set|构造|迭代器|增删查|multiset|OJ
  • 25.C++进阶:map|pair类型|构造|增删查|数据修改|迭代器|multimap|OJ
  • 基于大数据爬虫+Hadoop的新闻媒体内容推荐与热点话题分析系统开发任务书
  • 2026出差旅行充电宝品牌实力解码:安全派与实用派产品的用户评价与场景案例复盘 - 品牌推荐