当前位置：首页 > news >正文

FUTURE POLICE模型训练数据预处理实战：语音清洗与标注工具使用

news 2026/3/26 20:42:06

FUTURE POLICE模型训练数据预处理实战：语音清洗与标注工具使用

想自己训练一个像FUTURE POLICE这样能听懂人话、还能清晰回答的语音模型吗？第一步，也是最关键的一步，就是把你的语音数据“收拾”干净。这就像做菜前要洗菜切菜一样，数据预处理的好坏，直接决定了你最后“炒”出来的模型是米其林大餐，还是黑暗料理。

很多朋友兴致勃勃地收集了一堆录音，结果一训练，模型要么听不懂，要么答非所问，问题往往就出在数据预处理这个环节。语音里有杂音、一句话被切成好几段、文字标注得乱七八糟……这些都会让模型学“歪”。

今天，我就带你走一遍完整的语音数据预处理流程。我们不谈复杂的算法原理，就手把手教你用几个趁手的开源工具，把一堆原始的录音文件，变成模型能“消化吸收”的高质量训练数据。整个过程，我会结合自己趟过的坑，分享一些让数据质量更高、处理效率翻倍的小技巧。

1. 准备工作：认识你的“原材料”与目标

在开始动手之前，我们得先搞清楚两件事：手里有什么，以及我们要做成什么样子。

你的原始语音数据可能来自各种渠道：可能是你自己录制的，也可能是从公开数据集下载的。常见的格式是MP3或WAV。这些数据通常带着各种“瑕疵”：背景里可能有空调声、键盘声；一段录音里可能包含多句话；最重要的是，它们还没有对应的文字稿（转录文本）。

而FUTURE POLICE这类模型需要的训练数据，是高度规整的配对数据。简单说，就是一段干净的语音文件（通常是WAV格式），配上一段准确无误的对应文字。模型的学习过程，就是建立“这个声音”和“这段文字”之间的映射关系。数据越干净、配对越精准，模型学得就越快、越好。

所以，我们预处理的核心目标就三个：

语音清洗：把杂音去掉，让说话人的声音更突出。
语音分割：把长录音切成一个个独立的句子或话语片段。
文本标注：为每一段切好的语音，配上正确的文字内容。
格式转换：把最终的语音-文本对，整理成模型要求的格式（比如，一个WAV文件对应一个JSON文件，里面写着文本）。

工欲善其事，必先利其器。下面我介绍的工具链，都是开源免费的，在普通电脑上就能运行。

2. 第一步：语音清洗——让声音更干净

原始的语音经常伴有噪音，比如环境底噪、突然的咳嗽声、鼠标点击声等。直接使用这些带噪语音，会迫使模型去学习噪音模式，干扰它对有效语音特征的捕捉。

这里我推荐使用Audacity和noisereduce库相结合的方式。Audacity适合手动处理少量问题严重的文件，而noisereduce适合批量自动化处理。

2.1 使用Audacity进行手动精细处理

Audacity是一个功能强大且开源的音频编辑软件，非常适合可视化检查和处理单个文件。

安装与导入：从官网下载安装Audacity。打开软件，直接将你的语音文件拖入窗口即可导入。
可视化查看：波形图中，平稳的低幅度部分通常是环境噪音，突然的高尖峰可能是爆音或杂音。
降噪处理（关键步骤）：
- 选中一段只有环境噪音的区域（例如录音开始前或结束后的静默段）。
- 点击菜单栏的效果->降噪->取得噪声样本。
- 然后按Ctrl+A全选整个音频，再次打开效果->降噪，直接点击确定应用。软件会根据你采集的噪声样本，智能衰减全文中类似的噪音。
其他处理：你还可以使用标准化效果来调整音量，或用压缩器来平衡声音大小差异。

手动处理效果好，但效率低。对于大批量数据，我们需要自动化脚本。

2.2 使用noisereduce库进行批量降噪

noisereduce是一个Python库，原理和Audacity类似，但可以集成到代码中批量运行。

首先安装它：pip install noisereduce。

下面是一个简单的批量处理脚本示例：

import os import librosa import soundfile as sf import noisereduce as nr from tqdm import tqdm # 用于显示进度条 def batch_denoise(input_folder, output_folder, sr=16000): """ 批量降噪函数 :param input_folder: 原始语音文件夹路径 :param output_folder: 降噪后语音输出文件夹路径 :param sr: 采样率，通常16000Hz就够用 """ os.makedirs(output_folder, exist_ok=True) # 支持.wav和.mp3格式 audio_files = [f for f in os.listdir(input_folder) if f.endswith(('.wav', '.mp3'))] for filename in tqdm(audio_files, desc="Processing Audio"): input_path = os.path.join(input_folder, filename) output_path = os.path.join(output_folder, filename) # 1. 加载音频 audio, rate = librosa.load(input_path, sr=sr) # 2. 估计前100毫秒为噪音样本（假设开头有静音段） noise_sample = audio[:int(0.1 * rate)] # 3. 执行降噪 reduced_noise = nr.reduce_noise(y=audio, y_noise=noise_sample, sr=rate, prop_decrease=0.9) # 4. 保存降噪后的音频 sf.write(output_path, reduced_noise, rate) # 使用示例 batch_denoise("./raw_audio", "./cleaned_audio")

经验分享：prop_decrease参数控制降噪强度，0.9表示去除90%的估计噪音。如果设得过高（如0.99），可能会导致语音失真。建议先拿几个文件测试，找到最适合你数据集的强度值。

3. 第二步：语音分割——把长音频切成句

清洗后的音频可能还是长达数分钟，包含多句话。我们需要将其切割成单个的“话语单元”，这样才便于后续标注和模型训练。

VAD（语音活动检测）技术是完成这项任务的利器。我推荐使用silero-vad，它轻量、准确，且易于使用。

import torch import numpy as np import soundfile as sf import os from silero_vad import load_silero_vad, read_audio, get_speech_timestamps def split_audio_by_silence(input_path, output_folder, sr=16000): """ 使用VAD将长音频按静音区间切分成短音频 :param input_path: 输入音频文件路径 :param output_folder: 切分后片段输出文件夹 :param sr: 采样率 """ os.makedirs(output_folder, exist_ok=True) # 1. 加载Silero VAD模型 torch.set_grad_enabled(False) model, utils = load_silero_vad() (get_speech_ts, _, read_audio, _, _) = utils # 2. 读取音频 wav = read_audio(input_path, sampling_rate=sr) # 3. 获取有语音的时间段 speech_timestamps = get_speech_ts(wav, model, sampling_rate=sr, threshold=0.5, min_speech_duration_ms=300) # 4. 根据时间戳切分并保存 for i, ts in enumerate(speech_timestamps): start_sample = ts['start'] end_sample = ts['end'] segment = wav[start_sample:end_sample] output_path = os.path.join(output_folder, f"{os.path.basename(input_path).split('.')[0]}_seg{i:03d}.wav") sf.write(output_path, segment, sr) print(f"Saved: {output_path}, duration: {len(segment)/sr:.2f}s") # 使用示例：处理一个文件夹下的所有音频 input_dir = "./cleaned_audio" output_base_dir = "./segmented_audio" for file in os.listdir(input_dir): if file.endswith('.wav'): file_output_dir = os.path.join(output_base_dir, file.split('.')[0]) split_audio_by_silence(os.path.join(input_dir, file), file_output_dir)

关键参数解析：

threshold：语音检测的阈值（0-1）。值越高，越“保守”，只检测非常确定的语音，可能漏掉一些；值越低，越“敏感”，可能把一些噪音也当成语音。0.5是个不错的起点。
min_speech_duration_ms：最小语音持续时间（毫秒）。低于这个时长的片段会被忽略，可以有效过滤短促的咳嗽等声音。

切分完成后，你可能会得到大量几秒到十几秒不等的短音频文件，这就为下一步标注做好了准备。

4. 第三步：文本标注——给声音配上文字

这是最耗时但也最核心的一步。准确的文本标注是模型学会“听音识字”的基础。手动逐句听写效率极低，我们可以借助ASR（自动语音识别）工具进行初筛，然后人工校对。

4.1 使用Whisper进行自动预标注

OpenAI开源的Whisper模型在语音识别上表现非常出色，我们可以用它先为所有语音片段生成一个初稿文本。

import whisper import os import json def whisper_pre_transcribe(audio_folder, output_json_path): """ 使用Whisper批量转录音频文件夹 :param audio_folder: 切分后的音频文件夹 :param output_json_path: 输出JSON文件路径，用于存储所有标注 """ model = whisper.load_model("base") # 可选：tiny, base, small, medium, large。base在精度和速度上平衡较好。 annotations = {} audio_files = [f for f in os.listdir(audio_folder) if f.endswith('.wav')] for filename in audio_files: audio_path = os.path.join(audio_folder, filename) # 使用Whisper进行识别 result = model.transcribe(audio_path, language="zh") # 指定中文 transcribed_text = result["text"].strip() # 存储结果：以文件名（不含后缀）为键 file_id = os.path.splitext(filename)[0] annotations[file_id] = { "audio_path": audio_path, "text": transcribed_text, "needs_review": True # 标记为需要校对 } print(f"{filename}: {transcribed_text}") # 将标注结果保存为JSON文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(annotations, f, ensure_ascii=False, indent=2) print(f"预标注完成，结果已保存至: {output_json_path}") # 使用示例 whisper_pre_transcribe("./segmented_audio/sample_recording", "./annotations/initial_transcripts.json")

4.2 人工校对与高效标注工具

Whisper的识别结果虽然好，但仍有错误，尤其是专有名词、数字、标点或口音较重时。这时就需要人工介入校对。

我强烈推荐使用Audacity配合文本编辑器或专门的标注工具（如label-studio）进行校对。

高效校对流程：

并行工作：在Audacity中打开一个音频片段，同时在一个文本编辑器（如VS Code）或表格（如Excel）中打开对应的Whisper识别文本。
边听边改：播放音频，仔细核对文本。修正错别字、补充缺失的标点、调整语气词（如“嗯”、“啊”可以根据需要保留或删除）。
批量操作：如果一段音频完全识别错误，可以重新用Whisper（更大模型）识别一次，或者手动重听。
格式统一：确保标点符号使用全角（中文语境下），数字格式统一（如“一百” vs “100”），根据你的训练目标决定是否保留语气词。

校对完成后，你会得到一个准确的、音频文件名与文本对应的列表或字典。这是你数据预处理中最宝贵的成果。

5. 第四步：格式转换——打包成模型“食谱”

不同的模型训练框架需要不同格式的数据输入。常见的格式是“清单文件”，如一个TXT或JSONL文件，每一行包含音频文件路径和对应的文本。

假设我们经过校对，得到了一个Python字典final_annotations，键是音频ID，值是包含audio_path和text的字典。

import json def prepare_training_manifest(annotations_dict, output_manifest_path): """ 准备训练所需的清单文件（JSON Lines格式） :param annotations_dict: 最终的标注字典 :param output_manifest_path: 输出清单文件路径 """ with open(output_manifest_path, 'w', encoding='utf-8') as f: for audio_id, info in annotations_dict.items(): # 构建一条训练数据记录 record = { "audio": info["audio_path"], # 音频文件路径 "text": info["text"], # 对应的文本 "duration": get_audio_duration(info["audio_path"]) # 可选：音频时长 } f.write(json.dumps(record, ensure_ascii=False) + '\n') print(f"训练清单文件已生成: {output_manifest_path}") def get_audio_duration(audio_path): """辅助函数：获取音频时长（秒）""" import librosa y, sr = librosa.load(audio_path, sr=None) return len(y) / sr # 假设final_annotations是从校对后的JSON加载的 with open('./annotations/final_corrected.json', 'r', encoding='utf-8') as f: final_annotations = json.load(f) prepare_training_manifest(final_annotations, "./training_data/train_manifest.jsonl")

生成的train_manifest.jsonl文件内容大致如下：

{"audio": "./segmented_audio/sample_recording/sample_recording_seg000.wav", "text": "你好，请介绍一下你自己。", "duration": 2.5} {"audio": "./segmented_audio/sample_recording/sample_recording_seg001.wav", "text": "今天的天气真不错。", "duration": 1.8} ...

这个文件就是可以直接喂给FUTURE POLICE或其他语音模型训练脚本的“食谱”。