当前位置：首页 > news >正文

一键启动SenseVoiceSmall，AI情感识别开箱即用

news 2026/3/26 19:53:49

一键启动SenseVoiceSmall，AI情感识别开箱即用

1. 引言：语音理解进入富文本时代

传统语音识别技术（ASR）的核心目标是将声音信号转化为文字，但这一过程往往忽略了语音中蕴含的丰富非语言信息。在真实场景中，用户的情绪状态、背景环境音等“副语言特征”对理解语义至关重要。例如，在客服对话分析中，仅靠转录文本难以判断客户是否不满；在视频内容审核中，掌声或笑声的出现可能影响内容推荐策略。

阿里达摩院推出的SenseVoiceSmall模型正是为解决这一问题而生。它不仅具备高精度多语言语音识别能力，更集成了情感识别与声音事件检测两大核心功能，实现了从“听清”到“听懂”的跨越。本文将基于预集成 Gradio WebUI 的镜像环境，详细介绍如何快速部署并使用该模型，实现 AI 驱动的富文本语音理解。

本镜像已预装完整依赖环境，支持 GPU 加速推理，真正做到“一键启动、开箱即用”，适用于开发者快速验证、产品原型构建及教学演示等场景。

2. 核心能力解析

2.1 多语言语音识别

SenseVoiceSmall 支持多种主流语言的高精度识别，包括：

中文普通话（zh）
英语（en）
粤语（yue）
日语（ja）
韩语（ko）

模型采用超过 40 万小时的多语言数据进行训练，在低资源语言和口音鲁棒性方面表现优异。相比 Whisper 系列模型，其在中文任务上的词错误率（CER）显著降低，尤其在嘈杂环境下仍能保持稳定输出。

2.2 富文本识别：情感与事件标签化

这是 SenseVoice 的最大亮点——Rich Transcription（富文本转录）。不同于传统 ASR 仅输出纯文本，SenseVoice 能在转录结果中自动插入结构化标签，反映音频中的情绪变化和环境特征。

情感识别（Emotion Detection）

可识别以下主要情感类别：

<|HAPPY|>：开心、愉悦
<|ANGRY|>：愤怒、激动
<|SAD|>：悲伤、低落
<|NEUTRAL|>：中性、平静

这些标签以特殊标记形式嵌入文本流中，便于后续做情感趋势分析或对话状态追踪。

声音事件检测（Sound Event Detection）

支持常见人机交互相关的声音事件标注：

<|BGM|>：背景音乐
<|APPLAUSE|>：掌声
<|LAUGHTER|>：笑声
<|CRY|>：哭声
<|COUGH|>：咳嗽
<|SNEEZE|>：打喷嚏

此类信息可用于视频内容打标、会议纪要生成、直播监控等多种场景。

技术优势总结：
SenseVoiceSmall 通过统一建模框架同时完成语音识别、情感分类与事件检测，避免了多模型串联带来的延迟累积和误差传播，极大提升了端到端效率。

3. 快速部署与使用指南

3.1 启动 WebUI 服务

本镜像已预装funasr、gradio等核心库，并内置app_sensevoice.py脚本，通常会自动启动 Web 服务。若未运行，请按以下步骤手动执行：

# 安装必要依赖（如尚未安装） pip install av gradio

创建或编辑app_sensevoice.py文件：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用 GPU 推理 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) demo.launch(server_name="0.0.0.0", server_port=6006)

运行脚本：

python app_sensevoice.py

3.2 本地访问方式

由于平台安全限制，需通过 SSH 隧道转发端口。在本地终端执行：

ssh -L 6006:127.0.0.1:6006 -p [实例端口号] root@[服务器IP地址]

连接成功后，在浏览器打开：

👉 http://127.0.0.1:6006

即可看到如下界面：

上传一段包含笑声或背景音乐的语音，点击“开始 AI 识别”，系统将在数秒内返回带标签的富文本结果，例如：

大家好 <|HAPPY|>，今天给大家带来一个好消息 <|LAUGHTER|><|BGM|>！我们团队终于完成了这个项目 <|APPLAUSE|>。

3.3 结果后处理说明

原始模型输出包含大量<|TAG|>形式的标记，可通过rich_transcription_postprocess函数清洗为更易读格式。例如：

from funasr.utils.postprocess_utils import rich_transcription_postprocess raw_text = "你好 <|HAPPY|>，今天天气不错 <|BGM|>" clean_text = rich_transcription_postprocess(raw_text) print(clean_text) # 输出：你好（开心），今天天气不错（背景音乐）

该函数会自动将情感和事件标签转换为括号注释，便于展示或导入下游系统。

4. 性能与工程优化建议

4.1 推理性能实测

在 NVIDIA RTX 4090D 显卡上测试，SenseVoiceSmall 展现出极高的推理效率：

音频时长	推理耗时	实时因子（RTF）
10s	~70ms	0.007
60s	~400ms	0.0067

实时因子远低于 1，意味着模型可在毫秒级完成长段语音处理，适合实时流式识别场景。

4.2 工程优化建议

音频预处理建议：
- 推荐输入采样率为 16kHz 的单声道音频
- 若原始音频为其他格式，模型会调用ffmpeg自动重采样，但会增加少量开销
VAD 参数调优：
```
vad_kwargs={"max_single_segment_time": 30000}
```
此参数控制最大语音片段长度（单位：毫秒），设置过大可能导致内存占用升高，建议根据实际音频分段需求调整。
批处理优化：使用batch_size_s控制每批次处理的音频时长（秒），合理设置可提升吞吐量。对于并发请求较多的服务端部署，建议结合队列机制实现动态批处理。
GPU 内存管理：
- 初始加载模型约占用 2.5GB 显存（FP16）
- 可通过device="cuda:1"指定不同 GPU 卡，避免与其他任务冲突

5. 应用场景与扩展方向

5.1 典型应用场景

场景	应用价值
客服质检	自动识别客户愤怒情绪，触发预警机制
视频内容分析	提取笑声、掌声密度，辅助爆款视频判定
教育评估	分析学生回答时的情感状态，评估心理压力
智能音箱	结合语气判断用户意图，提升交互自然度
医疗辅助	检测咳嗽、喷嚏频率，用于远程健康监测