当前位置：首页 > news >正文

Linux环境下SenseVoice-Small ONNX模型的高效部署方案

news 2026/7/1 9:44:37

Linux环境下SenseVoice-Small ONNX模型的高效部署方案

1. 引言

语音识别技术正在快速发展，而SenseVoice-Small作为一款支持多语言的语音识别模型，在识别精度和推理速度方面都表现出色。特别是在Linux环境下，通过ONNX格式的部署能够充分发挥其性能优势。

本文将带你从零开始，在Linux系统上完成SenseVoice-Small ONNX模型的完整部署流程。无论你是刚接触语音识别的新手，还是希望优化现有部署的开发者，都能从中获得实用的部署技巧和优化建议。

2. 环境准备与依赖安装

2.1 系统要求

首先确保你的Linux系统满足以下基本要求：

Ubuntu 18.04或更高版本（其他Linux发行版也可，但可能需要调整安装命令）
Python 3.8及以上版本
至少4GB内存（推荐8GB以上）
足够的存储空间用于模型文件（约500MB）

2.2 创建虚拟环境

为了避免依赖冲突，建议使用虚拟环境：

# 创建新的虚拟环境 python -m venv sensevoice_env # 激活虚拟环境 source sensevoice_env/bin/activate

2.3 安装核心依赖

安装必要的Python库：

# 更新pip pip install --upgrade pip # 安装核心依赖 pip install onnx onnxruntime pip install soundfile librosa kaldi-native-fbank pip install torch torchaudio # 安装FunASR相关依赖 pip install funasr

3. 模型获取与转换

3.1 下载SenseVoice-Small模型

从ModelScope或Hugging Face获取模型：

from modelscope import snapshot_download # 下载SenseVoice-Small模型 model_dir = snapshot_download('iic/SenseVoiceSmall') print(f"模型已下载到: {model_dir}")

3.2 转换为ONNX格式

如果需要将原始模型转换为ONNX格式，可以使用以下脚本：

import torch from funasr import AutoModel # 加载原始模型 model = AutoModel(model="iic/SenseVoiceSmall", device="cpu") # 定义输入样例 dummy_input = torch.randn(1, 16000) # 1秒音频 # 导出为ONNX格式 torch.onnx.export( model, dummy_input, "sensevoice_small.onnx", opset_version=13, input_names=["audio"], output_names=["text"], dynamic_axes={ 'audio': {0: 'batch_size', 1: 'audio_length'}, 'text': {0: 'batch_size'} } )

4. ONNX模型部署

4.1 初始化ONNX Runtime会话

import onnxruntime as ort import numpy as np def create_onnx_session(model_path): """创建ONNX Runtime会话""" # 配置会话选项 options = ort.SessionOptions() options.graph_optimization_level = ort.GraphOptimizationLevel.ORT_ENABLE_ALL options.intra_op_num_threads = 4 # 设置线程数 # 创建会话 session = ort.InferenceSession( model_path, options, providers=['CPUExecutionProvider'] # 使用CPU执行 ) return session # 初始化模型 model_path = "sensevoice_small.onnx" session = create_onnx_session(model_path)

4.2 音频预处理函数

import librosa import kaldi_native_fbank as knf def preprocess_audio(audio_path, sample_rate=16000): """预处理音频文件""" # 加载音频 audio, sr = librosa.load(audio_path, sr=sample_rate) # 提取FBank特征 opts = knf.FbankOptions() opts.frame_opts.samp_freq = sample_rate opts.frame_opts.dither = 0 opts.mel_opts.num_bins = 80 fbank = knf.Fbank(opts) features = fbank.compute(audio) # 添加批次维度 features = np.expand_dims(features, axis=0) return features.astype(np.float32) def process_audio_stream(audio_data, sample_rate=16000): """处理实时音频流""" # 实时音频处理逻辑 # 这里可以添加VAD（语音活动检测）等预处理步骤 processed_data = preprocess_audio(audio_data) return processed_data

5. 推理与后处理

5.1 执行推理

def inference(session, audio_features): """执行模型推理""" # 准备输入 input_name = session.get_inputs()[0].name inputs = {input_name: audio_features} # 执行推理 outputs = session.run(None, inputs) return outputs[0] # 返回识别结果 def recognize_speech(audio_path): """完整的语音识别流程""" # 预处理音频 features = preprocess_audio(audio_path) # 执行推理 result = inference(session, features) # 后处理 text = postprocess_result(result) return text def postprocess_result(raw_output): """后处理识别结果""" # 这里可以添加文本后处理逻辑 # 如标点恢复、数字规范化等 text = raw_output # 简化处理 return text

6. 性能优化技巧

6.1 批量处理优化

def batch_inference(session, audio_batch): """批量推理优化""" batch_features = [] for audio_path in audio_batch: features = preprocess_audio(audio_path) batch_features.append(features) # 堆叠批次数据 batch_input = np.vstack(batch_features) # 执行批量推理 results = inference(session, batch_input) return results

6.2 内存优化

class EfficientASR: """高效语音识别类""" def __init__(self, model_path): self.session = create_onnx_session(model_path) self.buffer = [] def stream_recognize(self, audio_chunk): """流式识别""" self.buffer.append(audio_chunk) # 当缓冲区达到一定长度时进行识别 if len(self.buffer) >= 10: # 10个chunk combined_audio = np.concatenate(self.buffer) features = preprocess_audio(combined_audio) result = inference(self.session, features) self.buffer = [] # 清空缓冲区 return postprocess_result(result) return None

6.3 多线程处理

from concurrent.futures import ThreadPoolExecutor import threading class ParallelASR: """并行语音识别处理""" def __init__(self, model_path, num_workers=4): self.sessions = [] self.locks = [] # 创建多个会话实例 for _ in range(num_workers): self.sessions.append(create_onnx_session(model_path)) self.locks.append(threading.Lock()) self.executor = ThreadPoolExecutor(max_workers=num_workers) def parallel_recognize(self, audio_paths): """并行处理多个音频文件""" results = [] with self.executor as executor: futures = [] for i, audio_path in enumerate(audio_paths): session_idx = i % len(self.sessions) future = executor.submit( self._recognize_with_session, audio_path, session_idx ) futures.append(future) for future in futures: results.append(future.result()) return results def _recognize_with_session(self, audio_path, session_idx): """使用特定会话进行识别""" with self.locks[session_idx]: features = preprocess_audio(audio_path) result = inference(self.sessions[session_idx], features) return postprocess_result(result)

7. 容器化部署

7.1 Dockerfile配置

FROM python:3.9-slim # 设置工作目录 WORKDIR /app # 安装系统依赖 RUN apt-get update && apt-get install -y \ libsndfile1 \ ffmpeg \ && rm -rf /var/lib/apt/lists/* # 复制依赖文件 COPY requirements.txt . # 安装Python依赖 RUN pip install --no-cache-dir -r requirements.txt # 复制模型文件和代码 COPY sensevoice_small.onnx . COPY app.py . # 暴露端口 EXPOSE 8000 # 启动应用 CMD ["python", "app.py"]

7.2 简单的Web服务

# app.py from flask import Flask, request, jsonify import tempfile import os app = Flask(__name__) # 初始化模型 session = create_onnx_session("sensevoice_small.onnx") @app.route('/recognize', methods=['POST']) def recognize(): """语音识别API端点""" if 'audio' not in request.files: return jsonify({'error': 'No audio file provided'}), 400 audio_file = request.files['audio'] # 保存临时文件 with tempfile.NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file: audio_file.save(tmp_file.name) try: # 执行识别 text = recognize_speech(tmp_file.name) return jsonify({'text': text}) finally: # 清理临时文件 os.unlink(tmp_file.name) if __name__ == '__main__': app.run(host='0.0.0.0', port=8000)

8. 实际应用示例

8.1 实时语音转录

import pyaudio import numpy as np class RealTimeTranscriber: """实时语音转录器""" def __init__(self, model_path): self.session = create_onnx_session(model_path) self.audio = pyaudio.PyAudio() self.stream = None self.is_recording = False def start_recording(self): """开始录音""" self.is_recording = True self.stream = self.audio.open( format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=1024, stream_callback=self._audio_callback ) self.stream.start_stream() def stop_recording(self): """停止录音""" if self.stream: self.stream.stop_stream() self.stream.close() self.is_recording = False def _audio_callback(self, in_data, frame_count, time_info, status): """音频回调函数""" if self.is_recording: audio_data = np.frombuffer(in_data, dtype=np.int16) features = preprocess_audio(audio_data) result = inference(self.session, features) text = postprocess_result(result) print(f"识别结果: {text}") return (in_data, pyaudio.paContinue) # 使用示例 transcriber = RealTimeTranscriber("sensevoice_small.onnx") transcriber.start_recording() # 录音一段时间后停止 import time time.sleep(10) transcriber.stop_recording()