当前位置：首页 > news >正文

支持粤语/日语/韩语识别：SenseVoice-Small ONNX量化ASR模型部署教程

news 2026/7/9 14:16:10

支持粤语/日语/韩语识别：SenseVoice-Small ONNX量化ASR模型部署教程

1. 环境准备与快速部署

在开始使用SenseVoice-Small模型之前，我们需要先准备好运行环境。这个模型支持ONNX量化格式，意味着它既保持了高精度，又具备极快的推理速度。

首先确保你的系统满足以下基本要求：

Python 3.8或更高版本
至少4GB内存（推荐8GB以上）
支持CUDA的GPU（可选，但能大幅提升速度）

安装必要的依赖包：

pip install modelscope gradio torch onnxruntime

如果你是GPU用户，建议额外安装GPU版本的ONNX Runtime：

pip install onnxruntime-gpu

模型会自动从ModelScope平台下载，无需手动下载权重文件。整个环境搭建过程通常只需要5-10分钟。

2. 模型功能特点介绍

SenseVoice-Small是一个专门为多语言语音识别设计的先进模型，相比其他语音识别方案，它有以下几个突出优势：

多语言支持强大：不仅支持普通话，还专门优化了粤语、日语、韩语的识别效果。模型使用超过40万小时的多语言数据训练，覆盖50多种语言。

识别速度快：采用非自回归端到端框架，推理延迟极低。测试显示，10秒音频仅需70毫秒就能完成识别，比Whisper-Large快15倍。

富文本输出：不仅能转写文字，还能识别说话人的情感状态（高兴、悲伤、生气等），并检测音频中的事件（掌声、笑声、咳嗽等）。

易于部署：提供完整的服务部署方案，支持Python、C++、Java、C#等多种客户端调用。

3. 快速上手实践

3.1 启动Web界面

模型提供了基于Gradio的Web界面，让使用者无需编写代码就能体验语音识别功能。通过以下命令启动服务：

python /usr/local/bin/webui.py

启动后，在浏览器中访问显示的本地地址（通常是http://127.0.0.1:7860）。首次运行需要加载模型，可能需要1-2分钟时间，请耐心等待。

3.2 使用语音识别功能

界面加载完成后，你会看到简洁的操作面板：

示例音频：点击可以直接试听和识别预置的示例音频
上传音频：支持上传MP3、WAV等常见音频格式文件
录制音频：可以直接使用麦克风录制实时音频

选择音频源后，点击"开始识别"按钮，系统就会进行语音转写。识别结果会显示在下方文本框中，包含转写文字、情感分析和事件检测信息。

3.3 代码调用示例

如果你希望通过代码直接调用模型，这里有一个简单示例：

from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks # 创建语音识别管道 asr_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx' ) # 识别音频文件 result = asr_pipeline('audio.wav') print(result)

这段代码会输出包含转写文本、时间戳、情感标签等丰富信息的结构化结果。