当前位置：首页 > news >正文

终极指南：如何用ClearerVoice-Studio让嘈杂语音瞬间清晰

news 2026/6/29 14:48:54

终极指南：如何用ClearerVoice-Studio让嘈杂语音瞬间清晰

【免费下载链接】ClearerVoice-StudioAn AI-Powered Speech Processing Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Enhancement, Separation, and Target Speaker Extraction, etc.项目地址: https://gitcode.com/gh_mirrors/cl/ClearerVoice-Studio

ClearerVoice-Studio是一款基于AI技术的开源语音处理工具包，为开发者和研究人员提供了业界领先的预训练模型，支持语音增强、语音分离、语音超分辨率和目标说话人提取等多种功能。无论您是处理会议录音、语音识别系统，还是需要从嘈杂环境中提取清晰语音，这个工具包都能让您的语音处理工作变得简单高效。

项目亮点速览

🚀开箱即用- 提供多种SOTA预训练模型，无需从零开始训练 🎯多任务支持- 语音增强、分离、超分辨率、目标说话人提取一体化 🔧灵活集成- 支持Python API调用，轻松融入现有项目 📊专业评估- 内置全面的语音质量评估工具 ⚡高效处理- 支持批量处理多种音频格式

核心应用场景

会议录音降噪优化

在远程会议或线下会议场景中，背景噪音、键盘敲击声、空调声等常常影响录音质量。ClearerVoice-Studio的语音增强功能能有效去除这些干扰，让会议内容清晰可辨。项目中提供的FRCRN_SE_16K和MossFormer2_SE_48K模型在VoiceBank+DEMAND测试集上表现出色，PESQ评分分别达到3.23和3.15。

多人对话分离提取

当音频中存在多个说话人时，语音分离功能可以将不同说话人的声音准确分离。这在会议记录、访谈分析、语音识别预处理等场景中尤为重要。MossFormer2_SS_16K模型在LRS2_2Mix测试集上取得了15.5的SI-SNRi评分，展现了优秀的分离能力。

低质量录音修复

对于采样率较低或质量较差的录音，语音超分辨率功能可以将16kHz音频提升至48kHz，显著改善听觉体验。MossFormer2_SR_48K模型在处理降采样音频时，能将16kHz音频的LSD从2.80降至1.93，同时PESQ评分从1.97提升至3.15。

特定说话人追踪

在多人对话中提取特定说话人的声音，这在司法取证、语音分析等专业领域非常有用。AV_MossFormer2_TSE_16K模型支持基于唇部动作、EEG信号等多种辅助信息的目标说话人提取。

快速上手体验

三步快速部署

安装环境：通过PyPI直接安装或从源码构建

pip install clearvoice

或者从源码安装：

git clone https://gitcode.com/gh_mirrors/cl/ClearerVoice-Studio cd ClearerVoice-Studio/clearvoice pip install --editable .

基础使用：几行代码即可开始处理音频

from clearvoice import ClearVoice # 语音增强示例 myClearVoice = ClearVoice(task='speech_enhancement', model_names=['MossFormer2_SE_48K']) output_wav = myClearVoice(input_path='samples/input.wav', online_write=False) myClearVoice.write(output_wav, output_path='samples/output_enhanced.wav')

批量处理：支持目录和列表文件批量处理

# 处理整个目录 myClearVoice(input_path='samples/path_to_input_wavs', online_write=True, output_path='samples/path_to_output_wavs') # 处理列表文件 myClearVoice(input_path='samples/scp/audio_samples.scp', online_write=True, output_path='samples/path_to_output_wavs_scp')

多格式音频支持

ClearerVoice-Studio支持广泛的音频格式，包括WAV、AAC、MP3、FLAC、OGG等，无论是单声道还是立体声，16位或32位精度都能完美处理。这大大降低了数据预处理的门槛。

进阶使用指南

模型训练与微调

对于需要定制化模型的用户，项目提供了完整的训练框架。您可以在train目录下找到各个任务的训练代码和配置文件。

语音增强训练示例：

cd train/speech_enhancement # 修改配置文件中的数据集路径 vim config/train/MossFormer2_SE_48K.yaml # 开始训练 bash train.sh

关键配置文件：

模型配置：train/speech_enhancement/config/train/
数据加载：train/speech_enhancement/dataloader/
损失函数：train/speech_enhancement/losses/

自定义数据处理

项目提供了数据生成脚本，可以生成带噪声的语音数据用于训练。这在数据稀缺的情况下特别有用：

cd train/data_generation/speech_enhancement/generate_noisy_speech # 配置噪声和语音数据路径 vim config/para.cfg # 运行数据生成 bash run.sh

多模型组合使用

对于复杂场景，可以组合使用多个模型。例如，先进行语音增强去除噪声，再进行语音超分辨率提升音质：

# 语音增强 myClearVoice_SE = ClearVoice(task='speech_enhancement', model_names=['MossFormer2_SE_48K']) enhanced_wav = myClearVoice_SE(input_path='noisy_input.wav', online_write=False) # 语音超分辨率 myClearVoice_SR = ClearVoice(task='speech_super_resolution', model_names=['MossFormer2_SR_48K']) final_wav = myClearVoice_SR(input_path=enhanced_wav, online_write=False)

效果评估与验证

专业语音质量评估

ClearerVoice-Studio集成了SpeechScore工具包，提供全面的语音质量评估指标。无论是侵入式还是非侵入式评估，都能得到准确的量化结果。

评估示例：

from speechscore import SpeechScore import pprint # 初始化评估器 mySpeechScore = SpeechScore(['PESQ', 'STOI', 'SISDR', 'DNSMOS', 'SRMR']) # 评估单个文件 scores = mySpeechScore(test_path='audios/noisy.wav', reference_path='audios/clean.wav', window=None, score_rate=16000, return_mean=False) pprint.pprint(scores)

支持的评估指标：