当前位置：首页 > news >正文

语音识别小白入门：用SenseVoice快速实现多语言转写

news 2026/3/31 23:17:55

语音识别小白入门：用SenseVoice快速实现多语言转写

1. 引言

1.1 语音识别的实际价值

你有没有遇到过这样的场景：开会时需要快速记录讨论内容，但手写速度跟不上说话速度；或者收到一段外语语音，却因为语言障碍无法理解内容；又或者想要整理采访录音，但逐字听写太耗费时间。这些都是语音识别技术能够解决的现实问题。

SenseVoice Small语音识别模型就是一个能够将语音自动转换为文字的工具，它不仅能识别中文、英文，还支持粤语、日语、韩语等多种语言。更重要的是，它不仅能转写文字，还能识别说话人的情感状态和环境声音，让语音转写更加智能和实用。

1.2 为什么选择SenseVoice

对于初学者来说，选择语音识别工具时最关心的是：安装是否简单、使用是否方便、效果是否够好。SenseVoice Small基于ONNX量化技术，模型体积小（仅230M），推理速度快，10秒音频处理仅需70毫秒，同时还提供了友好的Web界面和API接口，非常适合初学者快速上手。

本文将带你从零开始，一步步学习如何使用SenseVoice Small模型搭建自己的语音识别服务，让你在30分钟内就能实现多语言语音转写。

2. 环境准备与快速部署

2.1 系统要求与依赖安装

SenseVoice Small对系统要求不高，主流配置的电脑都能运行。建议使用Linux或Windows系统，Python版本3.7及以上。

首先打开命令行终端，执行以下命令安装所需依赖：

# 安装核心依赖包 pip install funasr-onnx gradio fastapi uvicorn soundfile jieba

这些依赖包的作用分别是：

funasr-onnx：语音识别的核心引擎
gradio：用于构建Web界面
fastapi和uvicorn：提供API服务
soundfile：处理音频文件
jieba：中文分词工具

安装过程通常需要2-3分钟，取决于网络速度。

2.2 一键启动服务

依赖安装完成后，我们只需要一条命令就能启动语音识别服务：

# 启动语音识别服务 python3 app.py --host 0.0.0.0 --port 7860

看到终端显示"Application startup complete"类似提示后，说明服务已经成功启动。现在你可以在浏览器中访问以下地址：

Web界面：http://localhost:7860
API文档：http://localhost:7860/docs
健康检查：http://localhost:7860/health

3. 快速上手体验

3.1 使用Web界面转写语音

Web界面是最简单的使用方式，适合不熟悉编程的用户。打开http://localhost:7860后，你会看到一个简洁的界面：

上传音频文件：点击上传按钮，选择你要转写的音频文件（支持mp3、wav、m4a、flac等格式）
选择语言：如果你知道音频的语言，可以手动选择（如中文、英语等），或者选择"auto"让模型自动检测
开始识别：点击提交按钮，等待几秒钟就能看到转写结果

转写结果不仅包含文字内容，还会标注出说话人的情感状态（如开心、生气）和环境声音（如笑声、掌声），让转写结果更加丰富和实用。

3.2 第一次转写示例

为了让你快速看到效果，我们可以用手机录制一段10秒左右的语音，比如："今天天气真好，我想去公园散步。你呢？有什么计划吗？"

将这段语音保存为wav或mp3格式，上传到Web界面，选择"auto"或"zh"（中文），点击提交后很快就能看到转写结果。你会发现模型不仅准确转写了文字，还可能标注出"开心"的情感状态。

4. API接口使用详解

4.1 基础API调用

除了Web界面，SenseVoice还提供了REST API接口，方便开发者集成到自己的应用中。最简单的调用方式使用curl命令：

# 使用curl调用语音识别API curl -X POST "http://localhost:7860/api/transcribe" \ -F "file=@你的音频文件.wav" \ -F "language=auto" \ -F "use_itn=true"

参数说明：

file：音频文件路径
language：语言代码，如"zh"（中文）、"en"（英语）、"auto"（自动检测）
use_itn：是否启用逆文本正则化，建议设为true（将"三"转为"3"，"百分之十"转为"10%"）

4.2 Python代码集成

如果你正在开发Python应用，可以直接使用Python代码调用识别服务：

import requests # 设置API地址和文件路径 url = "http://localhost:7860/api/transcribe" audio_file = "path/to/your/audio.wav" # 准备请求数据 files = {"file": open(audio_file, "rb")} data = {"language": "auto", "use_itn": "true"} # 发送请求 response = requests.post(url, files=files, data=data) # 输出结果 print("转写结果:", response.json()["text"]) print("情感分析:", response.json()["emotion"]) print("音频事件:", response.json()["events"])

这段代码会输出转写文字、情感分析结果和检测到的音频事件，你可以根据需要选择使用哪些信息。

5. 实用技巧与进阶功能

5.1 多语言识别技巧

SenseVoice支持50多种语言的自动检测，但在某些情况下，手动指定语言可以获得更好的效果：

中英混合内容：如果音频中同时包含中文和英文，建议使用"auto"让模型自动处理
方言识别：对于粤语内容，明确指定"yue"可以提高识别准确率
专业术语：日语、韩语等语言，如果包含专业词汇，建议提供上下文提示

5.2 处理长音频文件

对于较长的音频文件（如会议录音、讲座记录），建议先进行分段处理：

from funasr_onnx import SenseVoiceSmall # 初始化模型 model = SenseVoiceSmall( "/root/ai-models/danieldong/sensevoice-small-onnx-quant", batch_size=10, quantize=True ) # 分段处理长音频 result = model(["long_audio.wav"], language="auto", use_itn=True) # 输出分段结果 for i, segment in enumerate(result): print(f"分段{i+1}: {segment['text']}") print(f"情感: {segment['emotion']}")