当前位置：首页 > news >正文

如何用SenseVoice Small识别语音并标注情感？科哥镜像一键上手

news 2026/7/8 1:42:28

如何用SenseVoice Small识别语音并标注情感？科哥镜像一键上手

1. 背景与技术价值

随着智能语音交互场景的不断扩展，传统语音识别（ASR）已无法满足复杂语义理解的需求。用户不仅希望“听清”说了什么，更希望系统能“听懂”说话时的情绪状态和环境背景。在此背景下，SenseVoice Small模型应运而生——它不仅具备高精度语音转文字能力，还集成了语音情感识别（SER）和声学事件检测（AED）两大高级功能。

由开发者“科哥”基于 FunAudioLLM/SenseVoice 开源项目进行二次开发构建的“SenseVoice Small 根据语音识别文字和情感事件标签”镜像，极大降低了部署门槛。该镜像预配置了 WebUI 界面、依赖环境及启动脚本，用户无需手动安装库或调试模型即可实现：

多语言语音识别（支持中/英/日/韩/粤语等）
自动标注说话人情绪（开心、生气、伤心等7类）
识别音频中的背景事件（掌声、笑声、咳嗽、键盘声等）

这一能力在客服质检、心理评估、内容审核、智能助手等领域具有广泛的应用潜力。

2. 镜像简介与核心特性

2.1 镜像基本信息

项目	内容
镜像名称	SenseVoice Small根据语音识别文字和情感事件标签二次开发构建by科哥
基础框架	FunAudioLLM/SenseVoice
模型版本	SenseVoice-Small
推理模式	CPU/GPU 兼容
用户界面	WebUI 图形化操作界面
是否开源	是（保留原作者版权信息）

2.2 技术优势对比

相较于主流 ASR 模型如 Whisper-Small，SenseVoice-Small 在以下方面表现突出：

维度	Whisper-Small	SenseVoice-Small
语音识别准确率	高	更高（尤其中文）
多语言支持	支持99种语言	支持主要语种+自动检测
情感识别	❌ 不支持	✅ 支持7类情绪标签
声学事件识别	❌ 不支持	✅ 支持10+类环境音
推理速度（短语音）	~300ms	~150ms
模型大小	~1.9GB	~2.1GB

核心价值总结：SenseVoice-Small 在保持轻量化的同时，实现了“语音→文本+情感+事件”的一体化输出，是目前少有的开源小型多任务音频理解模型。

3. 快速部署与运行指南

3.1 启动方式

该镜像已在 CSDN 星图平台完成封装，支持一键拉取并运行。若使用 JupyterLab 或容器环境，请执行以下命令重启服务：

/bin/bash /root/run.sh

此脚本将自动启动基于 Gradio 构建的 WebUI 服务。

3.2 访问地址

服务启动后，在浏览器中访问：

http://localhost:7860

即可进入图形化操作界面。

4. WebUI 界面详解与使用流程

4.1 页面布局说明

整个界面采用双栏设计，左侧为功能区，右侧为示例资源区：

┌─────────────────────────────────────────────────────────┐ │ [紫蓝渐变标题] SenseVoice WebUI │ │ webUI二次开发 by 科哥 | 微信：312088415 │ ├─────────────────────────────────────────────────────────┤ │ 📖 使用说明 │ ├──────────────────────┬──────────────────────────────────┤ │ 🎤 上传音频 │ 💡 示例音频 │ │ 🌐 语言选择 │ - zh.mp3 (中文) │ │ ⚙️ 配置选项 │ - en.mp3 (英文) │ │ 🚀 开始识别 │ - ja.mp3 (日语) │ │ 📝 识别结果 │ - ko.mp3 (韩语) │ └──────────────────────┴──────────────────────────────────┘

4.2 完整使用步骤

步骤 1：上传音频文件或录音

方式一：上传本地音频

点击🎤 上传音频或使用麦克风区域，选择支持格式的音频文件：

支持格式：MP3、WAV、M4A
推荐采样率：16kHz 或更高
文件大小无限制，但建议控制在 5 分钟以内以提升响应速度

方式二：实时麦克风录音

点击右侧麦克风图标，授权浏览器访问麦克风权限后：

点击红色圆形按钮开始录制
再次点击停止录制
系统自动生成临时 WAV 文件用于识别

步骤 2：选择识别语言

通过下拉菜单设置目标语言：

选项	说明
auto	自动检测语言（推荐新手使用）
zh	强制识别为中文普通话
yue	粤语专用识别
en	英文识别
ja	日语识别
ko	韩语识别
nospeech	强制跳过语音识别

提示：对于混合语言对话（如中英夹杂），建议使用auto模式以获得最佳效果。

步骤 3：启动识别任务

点击🚀 开始识别按钮，系统将执行以下流程：

加载音频数据
执行语音活动检测（VAD）
调用 SenseVoice-Small 模型进行联合推理
输出包含文本、情感和事件标签的结果

处理时间参考：

10秒音频：约 0.5~1 秒
1分钟音频：约 3~5 秒
性能受 CPU/GPU 资源影响较小，适合边缘设备部署

步骤 4：查看识别结果

识别结果展示于📝 识别结果文本框中，格式如下：

[事件标签][情感标签]文本内容

情感标签说明（位于句尾）

Emoji	标签英文	含义
😊	HAPPY	开心
😡	ANGRY	生气/激动
😔	SAD	伤心
😰	FEARFUL	恐惧
🤢	DISGUSTED	厌恶
😮	SURPRISED	惊讶
（无）	NEUTRAL	中性

事件标签说明（位于句首）

Emoji	标签英文	含义
🎼	BGM	背景音乐
👏	Applause	掌声
😀	Laughter	笑声
😭	Cry	哭声
🤧	Cough/Sneeze	咳嗽/喷嚏
📞	Ringing	电话铃声
🚗	Engine	引擎声
🚶	Footsteps	脚步声
🚪	Door	开门声
🚨	Alarm	警报声
⌨️	Keyboard	键盘敲击声
🖱️	Mouse	鼠标点击声

4.3 示例演示

示例 1：普通中文对话

输入音频：zh.mp3
输出结果：

开放时间早上9点至下午5点。😊

文本：开放时间早上9点至下午5点。
情感：😊 开心（语气积极）

示例 2：带背景事件的节目开场

输入音频：rich_1.wav
输出结果：

🎼😀欢迎收听本期节目，我是主持人小明。😊

事件：🎼 背景音乐 + 😀 笑声
文本：欢迎收听本期节目，我是主持人小明。
情感：😊 开心

示例 3：英文朗读

输入音频：en.mp3
输出结果：

The tribal chieftain called for the boy and presented him with 50 pieces of gold.

文本：部落首领叫来了男孩，并给了他50块金币。
情感：NEUTRAL（叙述性语调）

5. 高级配置与优化建议

5.1 配置选项说明

点击⚙️ 配置选项可展开高级参数（通常无需修改）：

参数	说明	默认值
语言	识别语言设定	auto
use_itn	是否启用逆文本正则化（数字转文字）	True
merge_vad	是否合并 VAD 分段以减少碎片	True
batch_size_s	动态批处理时间窗口（秒）	60