当前位置: 首页 > news >正文

深度噪声抑制技术在语音增强中的突破

某中心团队在Interspeech 2020深度噪声抑制挑战赛中夺冠

在电子语音通信中,噪声和混响不仅会降低语音清晰度,还会因长时间聆听劣质语音而导致听众疲劳。随着在COVID-19疫情期间远程会议时间的增加,这一问题变得尤为突出。

今年Interspeech会议举办的深度噪声抑制挑战赛旨在解决这一问题,分别设置了实时语音增强和非实时语音增强两个竞赛项目。在19支参赛团队中,某中心团队取得了最佳成绩,在非实时赛道获得第一名,在实时赛道获得第二名。

技术突破

为满足实际应用需求,实时系统被限制在仅使用4%的CPU资源(基于i7-8565U核心测量),远低于比赛允许的最大值。尽管如此,该实时系统的表现与第一名仅相差0.03平均意见分,同时超越了其他非实时参赛系统。

获奖技术已应用于某智能助手的通信公告和随处接入功能,并已在某视频会议客户端的macOS和Windows版本中向用户开放。

感知优化创新

传统语音增强算法使用手动调整的语音和噪声模型,通常假设噪声是恒定的。这些方法在某些类型噪声(如汽车噪声)和不太嘈杂或混响的环境中可以正常工作,但在处理非平稳噪声(如键盘声和嘈杂人声)时往往失效。

语音增强不仅需要从噪声和混响中提取原始语音,还需要以人耳感知自然舒适的方式实现。这使得自动回归测试变得困难,并增加了深度学习语音增强系统设计的复杂性。

实时系统通过直接优化语音的感知特性(频谱包络和语音活性),同时忽略感知无关的方面,充分利用了人类感知特性。最终算法在保持极高计算效率的同时,实现了最先进的语音质量。

对于非实时系统,采用无妥协的方法,使用改进的U-Net深度卷积网络从增强语音中榨取每一分质量,最终赢得比赛冠军。

性能权衡

在深度噪声抑制挑战赛中,处理后的音频样本被匿名发送给人类听众进行评分,产生平均意见分。实时应用始终存在复杂度和质量之间的权衡。研究显示,通过增加CPU需求可以进一步提高实时提交系统的质量,或者通过牺牲部分质量来进一步节省CPU使用。

业界普遍认为,深度学习正在对音频处理产生深远影响。尽管仍面临数据增强、感知相关损失函数和处理未见条件等挑战,但未来发展前景令人振奋。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/9309/

相关文章:

  • APUE学习笔记之UNIX标准及实现(二) - Invinc
  • 存一下刚开始学编程的东西
  • 深入解析:预览pdf(url格式和blob格式)
  • 线性偏微分方程和非线性偏微分方程的区别
  • 1-50 题解
  • 基于AXI模块的视频流传输(ps控制篇)
  • lora的各种变体
  • GO+RabbitMQ+Gin+Gorm+docker 部署 demo - 实践
  • k8s pod启动失败困难排查
  • Python测试
  • 免费文字转语音 AI 工具 All In One
  • Kubernetes Deployment:部署与管理应用指南
  • 实用指南:Android高级开发第三篇 - JNI异常处理与线程安全编程
  • Windows+VSCode搭建小智(xiaozhi)开发环境 - 教程
  • StarTree支持Apache Iceberg扩展湖仓用例
  • 偏微分方程的解
  • 如何在 HTML 中添加按钮 - 实践
  • Road Trip of the National Day holiday
  • selenium基础 - 教程
  • 详细介绍:20250602在荣品的PRO-RK3566开发板的Android13下的uboot启动阶段配置BOOTDELAY为10s
  • 完整教程:基于单片机的FFT的频谱分析仪设计
  • 费马小定理的证明
  • 威尔逊定理的证明
  • 实用指南:HTML实现端午节主题网站:龙舟争渡,凭吊祭江诵君赋
  • 大数据-276 Spark MLib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树 - 实践
  • 深入解析:rknn优化教程(一)
  • WannaCry勒索病毒数字取证与安全监控实战指南
  • Azure DevOps 管道部署系列之一本地服务器 - 实践
  • 深入解析:板凳-------Mysql cookbook学习 (九--2)
  • 20251006 模拟测 总结