当前位置：首页 > news >正文

5分钟快速上手：免费开源的跨平台语音AI框架sherpa-onnx终极指南

news 2026/6/25 23:56:37

5分钟快速上手：免费开源的跨平台语音AI框架sherpa-onnx终极指南

【免费下载链接】sherpa-onnxSpeech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi with onnxruntime without Internet connection. Support embedded systems, Android, iOS, HarmonyOS, Raspberry Pi, RISC-V, RK NPU, Axera NPU, Ascend NPU, x86_64 servers, websocket server/client, support 12 programming languages项目地址: https://gitcode.com/GitHub_Trending/sh/sherpa-onnx

sherpa-onnx是一个基于ONNX Runtime的高性能语音AI框架，让你在嵌入式设备、手机、桌面端实现语音识别和文本转语音功能，无需网络连接。支持12种编程语言和多种硬件平台，是开发离线语音应用的理想选择。

🌟 为什么选择sherpa-onnx？

想象一下，你正在开发一个智能家居设备，需要语音控制功能，但设备无法连接互联网。或者你正在创建一个医疗应用，需要实时语音转文字，但必须保证数据隐私。这正是sherpa-onnx大显身手的场景！

核心优势一览

特性	描述	应用场景
离线运行	完全本地化处理，无需网络连接	隐私敏感应用、无网络环境
跨平台支持	Android、iOS、Windows、macOS、Linux、HarmonyOS	多设备统一解决方案
多语言编程	C++、Python、Java、C#、Go、Dart等12种语言	团队协作无障碍
硬件加速	支持RK NPU、Qualcomm NPU、Ascend NPU	嵌入式设备性能优化
丰富模型	语音识别、文本转语音、说话人分离等	一站式语音AI解决方案

🚀 快速入门：5分钟搭建你的第一个语音识别应用

环境准备与安装

首先，让我们获取项目源码：

git clone https://gitcode.com/GitHub_Trending/sh/sherpa-onnx cd sherpa-onnx

对于Python用户，安装非常简单：

pip install sherpa-onnx

如果你需要C++版本，可以使用CMake编译：

mkdir build && cd build cmake .. make -j$(nproc)

下载预训练模型

sherpa-onnx提供了丰富的预训练模型。让我们下载一个中英双语流式识别模型：

# 创建模型目录 mkdir -p models/streaming-zipformer-bilingual cd models/streaming-zipformer-bilingual # 下载模型文件 wget https://huggingface.co/csukuangfj/sherpa-onnx-zipformer-bilingual-zh-en-2023-02-20/resolve/main/encoder.onnx wget https://huggingface.co/csukuangfj/sherpa-onnx-zipformer-bilingual-zh-en-2023-02-20/resolve/main/decoder.onnx wget https://huggingface.co/csukuangfj/sherpa-onnx-zipformer-bilingual-zh-en-2023-02-20/resolve/main/joiner.onnx wget https://huggingface.co/csukuangfj/sherpa-onnx-zipformer-bilingual-zh-en-2023-02-20/resolve/main/tokens.txt

编写你的第一个Python语音识别程序

创建一个简单的Python脚本simple_asr.py：

import sherpa_onnx import wave # 创建识别器配置 config = sherpa_onnx.OnlineRecognizerConfig( tokens="models/streaming-zipformer-bilingual/tokens.txt", encoder="models/streaming-zipformer-bilingual/encoder.onnx", decoder="models/streaming-zipformer-bilingual/decoder.onnx", joiner="models/streaming-zipformer-bilingual/joiner.onnx", num_threads=1, sample_rate=16000, feature_dim=80, ) # 创建识别器 recognizer = sherpa_onnx.OnlineRecognizer(config) # 读取音频文件 with wave.open("test.wav", "rb") as f: sample_rate = f.getframerate() samples = f.readframes(f.getnframes()) # 创建音频流 stream = recognizer.create_stream() stream.accept_waveform(sample_rate, samples) # 识别语音 while not recognizer.is_ready(stream): recognizer.decode(stream) result = recognizer.get_result(stream) print(f"识别结果: {result.text}")

运行这个脚本，你就能看到语音识别结果了！

📱 跨平台应用开发实战

sherpa-onnx的强大之处在于它的跨平台能力。让我们看看在不同平台上如何应用。

Android平台集成

在Android应用中集成语音识别功能非常简单。项目提供了完整的Android示例应用，你可以在android/SherpaOnnx目录找到相关代码。

Android平台文本转语音应用界面，支持实时生成和播放语音

iOS平台开发

对于iOS开发者，sherpa-onnx提供了Swift和SwiftUI两种集成方式。ios-swiftui/SherpaOnnx目录包含了完整的SwiftUI示例应用。

iOS平台文本转语音应用，界面简洁美观

Web应用开发

想要在浏览器中实现语音识别？sherpa-onnx支持WebAssembly！python-api-examples/web目录包含了一个完整的Web应用示例。

Web端语音识别界面，支持文件上传和实时录音

桌面应用开发

对于桌面应用，sherpa-onnx提供了多种选择。使用Flutter可以构建跨平台的桌面应用：

Ubuntu桌面平台文本转语音应用，支持中文输入

🔧 核心功能深度解析

语音识别（ASR）技术

sherpa-onnx支持两种语音识别模式：

流式识别（实时处理）

适合实时对话场景
低延迟，内存占用小
支持中英双语等多种语言模型

非流式识别（批量处理）

适合音频文件处理
准确率更高
支持更多模型类型

文本转语音（TTS）技术

sherpa-onnx的TTS功能支持多种语音模型：

模型类型	语言支持	特点
Kitten TTS	英语	轻量级，适合嵌入式设备
Kokoro TTS	中英双语	高质量语音合成
Matcha TTS	英语、中文	基于扩散模型的先进技术
Piper TTS	多种语言	开源社区维护

说话人相关功能

说话人识别（Speaker Identification）

识别说话人身份
可用于会议记录、安防监控

说话人分离（Speaker Diarization）

区分不同说话人的语音段
适合会议转录、访谈记录

语音活动检测（VAD）

检测语音开始和结束
减少无效音频处理

⚡ 性能优化与最佳实践

模型选择策略

选择合适的模型对性能至关重要。以下是针对不同场景的推荐：

嵌入式设备（RK3566等）

使用流式zipformer模型
启用INT8量化减少内存占用
固定批处理大小为1以优化性能

移动设备（Android/iOS）

选择轻量级模型（如14M参数版本）
利用硬件加速（NPU/GPU）
动态调整计算资源

服务器环境

使用更大更准确的模型
支持批量处理提高吞吐量
利用多线程并行计算

内存优化技巧

通过阅读scripts/mobile-asr-models/README.md文档，我们发现模型优化可以显著减少内存占用：

模型配置	原始大小	INT8量化后	内存减少
动态批处理	315 MB	174 MB	45%
固定批处理=1	242 MB	100 MB	59%

实时性能调优

对于实时应用，延迟是关键指标。以下是一些优化建议：

调整chunk大小：较小的chunk减少延迟，但增加计算频率
合理设置线程数：根据CPU核心数调整
使用硬件加速：启用NPU支持大幅提升性能
预热模型：首次推理前进行几次预热推理

🎯 实战案例：构建智能语音助手

让我们通过一个实际案例，展示如何用sherpa-onnx构建一个完整的智能语音助手。

项目结构设计

smart-assistant/ ├── models/ # 模型文件 ├── src/ │ ├── asr.py # 语音识别模块 │ ├── tts.py # 文本转语音模块 │ ├── vad.py # 语音活动检测 │ └── main.py # 主程序 ├── config/ │ └── config.yaml # 配置文件 └── requirements.txt # 依赖列表

核心代码实现

语音识别模块（asr.py）

class SpeechRecognizer: def __init__(self, model_path): self.config = self._load_config(model_path) self.recognizer = sherpa_onnx.OnlineRecognizer(self.config) def transcribe_realtime(self, audio_stream): """实时转录语音流""" stream = self.recognizer.create_stream() results = [] for chunk in audio_stream: stream.accept_waveform(16000, chunk) if self.recognizer.is_ready(stream): self.recognizer.decode(stream) result = self.recognizer.get_result(stream) results.append(result.text) return " ".join(results)

文本转语音模块（tts.py）

class TextToSpeech: def __init__(self, model_path): self.tts = sherpa_onnx.OfflineTts( model=model_path, sample_rate=24000 ) def speak(self, text, speaker_id=0): """将文本转换为语音""" audio = self.tts.generate(text, speaker_id=speaker_id) return audio