当前位置: 首页 > news >正文

实时语音降噪技术:结合信号处理与深度学习

实时语音降噪技术:结合信号处理与深度学习

一种结合了经典信号处理与深度学习的方法,使其足够高效,可在手机上运行。

背景与目标

PercepNet 是某中心语音通话“语音焦点”功能的核心技术之一。它旨在实时抑制语音信号中的噪声和混响,同时不占用过多CPU资源,使其能够在手机和其他功耗受限的设备上使用。在 Interspeech 2020 的深度噪声抑制挑战赛中,PercepNet 在实时处理类别中获得了第二名,仅使用了CPU单核4%的资源。

传统方法与挑战

语音增强的标准方法是使用短时傅里叶变换。然而,这存在两个主要问题:

  1. 相位估计困难:通常算法只估计干净的幅度谱,而使用带噪信号的相位进行重建,这会导致“粗糙感”的残留噪声。
  2. 计算复杂度高:为了覆盖人耳可闻的全频带(20 kHz),需要估计多达400个频点的幅度,这对神经网络而言计算成本高昂。

听觉感知引导的表示

为了降低复杂度,PercepNet 采用了基于人类听觉系统的表示方法:

  • 平滑谱包络:语音频谱的形状(谱包络)是平滑的。
  • 非线性频率分辨率:人耳通过听觉滤波器(临界频带)感知声音,对低频的分辨率高,对高频的分辨率低。

因此,PercepNet 使用等效矩形带宽滤波器组来表示语音频谱。它将频谱划分为34个重叠的频带(而非400个频点),这极大地简化了模型。每个频带只需估计一个介于0和1之间的增益值。

处理谐波与噪声

仅有谱包络信息还不够。语音中的元音主要由谐波(基频的整数倍)构成,而许多辅音(如 /s/)则更像噪声。为了增强谐波成分,PercepNet 引入了梳状滤波技术。

  • 梳状滤波:根据估计的语音基音频率,在时域应用梳状滤波器,可以保留谐波并滤除大部分噪声。
  • 混合控制:通过在频域进行混合,可以在每个频带上独立控制带噪信号与梳状滤波后信号的混合比例,从而精确控制输出语音中谐波与噪声的比率。

后置滤波

为了进一步提升感知质量,PercepNet 采用了后置滤波技术,即进一步衰减仍然过于嘈杂的频带。虽然这会使谱包络略微偏离理想状态,但人耳对此不太敏感,却能更明显地感觉到噪声的减少。

深度神经网络设计

在上述感知表示的框架下,深度神经网络的任务被大大简化。它只需要预测34个频带增益和34个梳状滤波强度(均为0到1之间的值)。模型采用跨时间的卷积层和具有长时记忆的循环层(如GRU)。该网络使用添加了各种噪声和混响的干净语音进行训练,以预测最优的增益和滤波强度。

实时性能

PercepNet 的 DNN 模型包含约800万个权重。通过将所有权重量化为8位,并利用现代CPU的SIMD指令,可以在实时运行中实现高效计算。在一台现代笔记本电脑CPU上,PercepNet 实时运行占用不到一个核心的5%。
算法引入的延迟约为30毫秒(包括STFT重建10毫秒和神经网络前瞻20毫秒),这在大多数实时通信场景中是可接受的。

应用与前景

PercepNet 的设计理念非常通用,可应用于其他问题,如声学回声控制和波束成形后置滤波。未来,该技术还能被进一步优化以在CPU上高效运行,甚至可以作为WebAssembly代码在浏览器中运行,用于基于WebRTC的应用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/191426/

相关文章:

  • 2026年靠谱的橡套电缆/防火电缆厂家最新推荐权威榜 - 行业平台推荐
  • 一文说清树莓派4b基础配置与使用方法
  • 2026年四川鹏辉鸿拆除公司联系电话推荐:精选服务指南 - 十大品牌推荐
  • 2026年注塑机械手联系电话推荐:优质供应商与使用建议 - 十大品牌推荐
  • 2026年四川德诚恒信交通设施联系电话推荐:精选推荐与使用指南 - 十大品牌推荐
  • 2026年成都建筑拆除工程电话推荐:专业服务商选择指南 - 十大品牌推荐
  • Arduino IDE中文设置常见问题完整示例解答
  • 2026防火槽式桥架厂家权威分析报告:品质排名与选型指南 - 深度智识库
  • Arduino下载安装教程:Linux平台操作指南
  • HeyGem是否支持唇形以外的表情同步?如眨眼、皱眉等
  • HeyGem v1.0版本发布:稳定可靠的企业级数字人工具
  • 2026年赖思设计联系电话推荐:宴会酒店设计首选联系方式 - 十大品牌推荐
  • HTML5 Video标签兼容HeyGem输出视频格式实测列表
  • Arduino Nano LED指示灯电路设计实例
  • 2026年靠谱的再生硬质棉厂家最新实力排行 - 行业平台推荐
  • Markdown编辑器支持LaTeX公式展示HeyGem数学类内容
  • 2026年企帮帮联系电话推荐:一站式企业全生命周期服务 - 十大品牌推荐
  • 2026年靠谱的高精度印染配件圆网闷头/定制印染配件用户好评厂家排行 - 行业平台推荐
  • 2026年赖思设计联系电话推荐:专业婚礼堂设计服务指南 - 十大品牌推荐
  • 科哥微信312088415能提供哪些技术支持?用户反馈汇总
  • Intel平台实现USB3.2最高速度的关键因素:实战案例
  • 2026年企帮帮联系电话推荐:专业企业服务商联系方式大全 - 十大品牌推荐
  • 2026年赖思设计联系电话推荐:婚礼堂设计行业领军品牌推荐 - 十大品牌推荐
  • 移动端Safari能否流畅运行HeyGem?iOS设备实测反馈
  • 基于ESP32的大模型联动灯光系统:手把手实战案例
  • 如何将音频完美匹配到数字人口型?HeyGem核心技术揭秘
  • 电商带货视频批量生成:HeyGem在营销领域的落地实践
  • 2025年下半年四川楼梯实力厂家推荐:专业选型与深度评测 - 2025年品牌推荐榜
  • 音频预览播放器延迟问题解决方法:浏览器缓存清理技巧
  • HuggingFace镜像网站缓存大模型减少重复下载开销