当前位置：首页 > news >正文

零基础入门SenseVoiceSmall：手把手教你识别语音中的喜怒哀乐

news 2026/3/26 8:22:04

零基础入门SenseVoiceSmall：手把手教你识别语音中的喜怒哀乐

1. 认识SenseVoiceSmall：不只是语音转文字

想象一下，当你听一段录音时，不仅能知道对方说了什么，还能感受到说话时的情绪——是开心、愤怒还是悲伤。这就是SenseVoiceSmall带来的革命性体验。作为阿里巴巴达摩院开源的语音理解模型，它超越了传统语音识别工具的局限，让机器真正"听懂"人类声音中的情感。

1.1 为什么选择SenseVoiceSmall

SenseVoiceSmall有三大核心优势：

情感识别能力：自动检测语音中的情绪状态，标记为HAPPY（开心）、ANGRY（愤怒）、SAD（悲伤）等
多语言支持：准确识别中文、英文、日语、韩语和粤语
环境音感知：能识别背景音乐（BGM）、掌声、笑声等声音事件

这些特性使其在客服质检、心理咨询、内容审核等领域具有独特价值。比如，客服中心可以用它自动分析客户来电时的情绪变化，及时发现潜在不满。

2. 快速部署：10分钟搭建语音情感分析平台

2.1 环境准备

SenseVoiceSmall镜像已经预装了所有必要组件，包括：

Python 3.11
PyTorch 2.5
FunASR（阿里语音识别核心库）
Gradio（可视化交互界面）

如果你在其他环境部署，只需执行以下命令安装依赖：

pip install torch==2.5.0 funasr modelscope gradio av -U

同时确保系统安装了ffmpeg用于音频处理：

# Ubuntu/Debian系统 sudo apt-get update && sudo apt-get install ffmpeg # macOS系统 brew install ffmpeg

2.2 启动Web界面

创建一个名为app_sensevoice.py的文件，内容如下：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess model = AutoModel( model="iic/SenseVoiceSmall", trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", ) def process_audio(audio_path, language): if not audio_path: return "请上传音频文件" result = model.generate( input=audio_path, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if result: return rich_transcription_postprocess(result[0]["text"]) return "识别失败" with gr.Blocks(title="语音情感识别") as demo: gr.Markdown("# SenseVoiceSmall 语音情感识别") with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频") language = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="选择语言" ) btn = gr.Button("开始分析", variant="primary") with gr.Column(): output = gr.Textbox(label="识别结果", lines=15) btn.click(process_audio, [audio_input, language], output) demo.launch(server_name="0.0.0.0", server_port=6006)

运行服务：

python app_sensevoice.py

首次运行会自动下载模型，可能需要几分钟时间。

2.3 访问界面

通过SSH隧道将服务映射到本地：

ssh -L 6006:127.0.0.1:6006 -p [端口] root@[IP地址]

然后在浏览器访问：http://127.0.0.1:6006

3. 实战操作：识别语音中的情感

3.1 上传音频并分析

在Web界面中：

点击"上传音频"按钮选择文件（支持MP3、WAV等格式）
选择语言（或保持"auto"自动检测）
点击"开始分析"按钮

稍等片刻，你将在右侧看到识别结果，其中包含文字内容和情感标签。

3.2 解读情感标签

SenseVoiceSmall会在文本中插入情感标记，常见的有：

[HAPPY]：开心、愉悦的情绪
[ANGRY]：愤怒、不满的情绪
[SAD]：悲伤、难过的情绪
[NEUTRAL]：中性语气

例如：

今天真是太高兴了[HAPPY]，我们团队获得了年度最佳创新奖！

3.3 识别环境声音

除了情感，模型还能检测背景声音：

[BGM]：背景音乐
[APPLAUSE]：掌声
[LAUGHTER]：笑声
[CRY]：哭声

示例：

感谢大家的支持[APPLAUSE]，我们会继续努力[BGM]。

4. 进阶技巧：提升识别准确率

4.1 音频质量优化

使用16kHz采样率的单声道音频
确保录音环境安静，减少背景噪音
单次上传的音频建议不超过10分钟

4.2 语言选择建议

虽然模型支持自动检测语言，但在以下情况建议手动指定：

音频中有多种语言混合时
说话人带有浓重口音时
专业术语较多的场景

4.3 批量处理音频

如需分析大量音频文件，可以使用以下Python脚本：

import os from funasr import AutoModel model = AutoModel(model="iic/SenseVoiceSmall", device="cuda:0") def batch_process(folder_path): results = [] for file in os.listdir(folder_path): if file.endswith(('.wav', '.mp3')): path = os.path.join(folder_path, file) res = model.generate(input=path, language="auto") if res: results.append(f"{file}: {res[0]['text']}") return results # 使用示例 audio_folder = "./audios" analysis_results = batch_process(audio_folder) for result in analysis_results: print(result)