当前位置：首页 > news >正文

⚡ SenseVoice-Small ONNX快速上手：Mac M1/M2芯片本地部署教程

news 2026/7/4 9:15:55

SenseVoice-Small ONNX快速上手：Mac M1/M2芯片本地部署教程

1. 工具简介

SenseVoice-Small ONNX是一款基于FunASR开源框架开发的本地语音识别工具，专为Mac M1/M2芯片优化。它通过Int8量化技术大幅降低硬件资源占用，让普通配置的Mac电脑也能流畅运行语音识别功能。

这个工具解决了传统语音识别方案的几个痛点：

不需要高性能GPU，CPU就能运行
完全本地处理，保护隐私安全
自动添加标点符号，识别结果更易读
支持多种常见音频格式，无需额外转换

2. 环境准备

2.1 系统要求

Mac电脑配备M1或M2芯片
macOS 12.0 (Monterey) 或更高版本
Python 3.8 或 3.9
至少4GB可用内存（推荐8GB以上）

2.2 安装依赖

打开终端(Terminal)，执行以下命令安装必要组件：

# 创建虚拟环境（可选但推荐） python3 -m venv sv_env source sv_env/bin/activate # 安装核心依赖 pip install onnxruntime-silicon streamlit funasr

安装过程大约需要2-3分钟，视网络情况而定。

3. 快速部署

3.1 下载模型文件

工具需要两个核心模型文件：

主识别模型（SenseVoice-Small Int8量化版）
标点恢复模型（CT-Transformer）

通过以下命令一键下载：

# 创建模型目录 mkdir -p ~/sensevoice/models # 下载主模型（约85MB） wget -P ~/sensevoice/models https://example.com/sensevoice-small-int8.onnx # 首次运行时会自动下载标点模型

3.2 启动应用

创建一个名为app.py的文件，内容如下：

import streamlit as st from funasr import AutoModel # 模型初始化 model = AutoModel( model="~/sensevoice/models/sensevoice-small-int8.onnx", model_revision="v1.0.0", quantize=True, device="cpu" ) # 简单界面 st.title("SenseVoice 语音识别") audio_file = st.file_uploader("上传音频文件", type=["wav","mp3","m4a"]) if audio_file: st.audio(audio_file) if st.button("开始识别"): text = model.generate(audio_file.name) st.text_area("识别结果", text)

然后运行：

streamlit run app.py

4. 使用指南

4.1 基本操作流程

打开浏览器访问http://localhost:8501
点击"上传音频文件"按钮选择文件
点击"开始识别"按钮
等待处理完成（进度条显示）
查看并复制识别结果

4.2 支持的功能

自动语种识别：能自动判断中文、英文或混合语音
智能标点：自动添加逗号、句号等标点符号
数字转换：把"一百二十"转为"120"等标准格式
多格式支持：WAV/MP3/M4A等常见格式都能直接识别

4.3 性能优化建议

对于长音频（超过10分钟），建议先分割成小段
关闭其他占用CPU的应用程序
如果内存不足，可以尝试减小batch_size参数

5. 常见问题解答

5.1 模型加载失败

如果遇到模型加载错误，请检查：

模型文件路径是否正确
文件权限是否可读
磁盘空间是否充足

5.2 识别速度慢

可以尝试以下方法加速：

# 在初始化时设置线程数 model = AutoModel(..., num_threads=4)

5.3 标点模型下载问题

首次使用时会自动下载约300MB的标点模型，如果下载失败：

检查网络连接
尝试手动下载后放到~/.cache/modelscope目录

6. 总结

SenseVoice-Small ONNX为Mac用户提供了一个轻量级但功能完备的本地语音识别方案。通过本教程，你已经学会了如何在自己的M1/M2芯片Mac上快速部署和使用这个工具。

它的主要优势包括：

完全本地运行，保护隐私
资源占用低，普通配置就能用
识别准确率高，支持中文特性处理
操作简单，几分钟就能上手

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

查看全文

http://www.jsqmd.com/news/383719/

无需联网！Z-Image i2L本地化图像生成工具实测分享

隐私安全第一：Z-Image Turbo本地绘图优势

DeepSeek-R1-Distill-Qwen-1.5B性能评测：vllm服务下QPS达120+实测

translategemma-4b-it算力适配：RTX4090/4070实测显存占用与吞吐性能分析

手机开源优秀的系统（LineageOS/PostmarketOS实战）

Qwen2.5-Coder-1.5B实测：自动生成高质量代码的快乐

SenseVoice Small科研协作：跨语言访谈→双语对照纪要自动生成

CLAP零样本分类：智能识别动物叫声、音乐等声音

实时口罩检测-通用效果展示：不同肤色、年龄、眼镜佩戴者检测一致性验证

Qwen3-ForcedAligner-0.6B部署案例：医疗问诊录音术语时间轴自动标注系统

实测有效！QWEN-AUDIO情感语音生成全攻略

Nano-Banana产品拆解引擎：5分钟上手生成专业爆炸图

FireRedASR-AED-L实战教程：对接RAG系统实现语音提问→知识库精准答案返回

DeepSeek-OCR-2零基础教程：3步实现PDF文字识别

Nano-Banana Studio入门指南：Streamlit缓存键设计避免重复计算开销

快速入门：用Ollama运行QwQ-32B的详细教程

视频剪辑新姿势：SOONet自然语言定位，告别手动拖进度条

Nano-Banana Studio效果实测：多部件重叠（围巾+毛衣+项链）分离精度

MiniCPM-V-2_6创业支持：商业计划书图识别+投资人关注点提炼

小白必看！Z-Image i2L图像生成工具入门到精通

Chandra应用案例：教育领域的智能问答助手开发实践

SeqGPT-560M应用场景解析：金融舆情分类、新闻实体抽取企业落地案例

零基础入门：手把手教你使用Lingyuxiu MXJ生成唯美真人肖像

KDE 定制指南：以下是 11 种改变你基于 KDE 的 Linux 桌面外观和体验的方法

影墨·今颜效果展示：同一人物在不同城市背景（上海/苏州/重庆）迁移

AI系统性能异常检测与调优：架构师构建自动调优闭环系统指南

MiniCPM-V-2_6实战：用Ollama轻松实现图片问答与视频理解

Qwen3-Reranker-0.6B实战技巧：构建高效文档聚类系统

《全面揭秘：AI 应用架构师如何用 AI 驱动生产计划》