当前位置：首页 > news >正文

【语音转文字技术全景】2026 年开源与闭源项目深度解析与选型指南

news 2026/7/25 8:59:29

文章目录

语音转文字技术全景：2026 年开源与闭源项目深度解析与选型指南
- 前言
- 一、核心技术概念速览
- 二、开源项目深度解析
- - 2.1 OpenAI Whisper 系列
  - - 基本信息
    - 模型谱系
    - 核心能力
    - 局限性
  - 2.2 Faster-Whisper（CTranslate2 加速版）
  - 2.3 Whisper.cpp（CPU/Metal 加速）
  - 2.4 NVIDIA Parakeet TDT 0.6B V2
  - - 核心指标
    - 技术特点
  - 2.5 NVIDIA NeMo Canary Qwen 2.5B（OpenASR 榜首）
  - 2.6 FunASR（阿里达摩院）
  - 2.7 Paraformer-zh（中文最佳基线）
  - 2.8 SenseVoice-Small（多功能中文模型）
  - 2.9 FireRedASR（中文 CER 最低）
  - 2.10 Qwen3-ASR（方言支持最广）
  - 2.11 sherpa-onnx（跨平台部署框架）
  - 2.12 开源项目横向对比总览
- 三、闭源 API 服务深度解析
- - 3.1 Deepgram Nova-3 & Flux
  - 3.2 AssemblyAI Universal-2 & Slam-1
  - 3.3 ElevenLabs Scribe v2 Realtime
  - 3.4 OpenAI GPT-4o Transcribe
  - 3.5 Google Cloud Speech-to-Text（Chirp 3）
  - 3.6 Amazon Transcribe
  - 3.7 Microsoft Azure Custom Speech
  - 3.8 Speechmatics Enhanced
  - 3.9 闭源 API 横向对比总览
- 四、应用层产品（会议记录场景）
- - 4.1 Otter.ai
  - 4.2 Fireflies.ai
  - 4.3 CraftNote（中文友好）
- 五、选型指南：9 个场景的推荐方案
- - 场景决策树
  - 各场景推荐汇总
- 六、成本对比（月处理 5000 小时音频）
- 七、总结

语音转文字技术全景：2026 年开源与闭源项目深度解析与选型指南

亲爱的朋友们，创作不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：jasonai.fn@gmail.com

前言

语音识别（ASR，Automatic Speech Recognition）经历了从 HMM-GMM 统计模型到端到端深度神经网络的范式跃迁，如今正被大语言模型进一步重塑。2022 年 OpenAI 开源 Whisper，2024 年阿里开源 SenseVoice，2025 年 NVIDIA 推出 Parakeet V2 并登顶 OpenASR 榜单——开源生态的快速演进，使得私有化部署高精度 ASR 变得触手可及。

与此同时，Deepgram、AssemblyAI、ElevenLabs 等闭源 API 服务在实时性、工程稳定性和垂直场景深度上持续突破，形成了与开源项目截然不同的竞争维度。

本文面向开发者，从技术原理、性能数据、部署方案和选型逻辑四个维度，对当前主流的开源和闭源语音转文字项目进行全景梳理。

一、核心技术概念速览

在进入具体项目之前，先明确几个关键指标的含义：

指标	含义	好值参考
WER（词错误率）	识别错误词数 / 总词数，越低越好	英文 < 10%，中文 CER < 5%
CER（字错误率）	中文专用，字级别错误率	< 3% 为优秀
RTF（实时因子）	处理1秒音频所需时间，< 1 表示可实时	< 0.1 为高效
TTFT/首帧延迟	流式识别时收到第一个文字结果的时间	< 300ms 适合实时交互
流式 vs 批量	流式逐帧输出，批量等全部录完再处理	实时场景用流式

二、开源项目深度解析

2.1 OpenAI Whisper 系列

基本信息

开源时间：2022 年 9 月
许可证：MIT
架构：Encoder-Decoder Transformer（基于 log-mel spectrogram 输入）
GitHub：openai/whisper

模型谱系

模型	参数量	速度（相对 tiny）	VRAM	适用场景
tiny	39M	32x	~1 GB	极速预览
base	74M	16x	~1 GB	开发测试
small	244M	6x	~2 GB	轻量生产
medium	769M	2x	~5 GB	平衡选择
large-v3	1.5B	1x	~10 GB	精度最优
large-v3-turbo	809M	~8x	~6 GB	速度+精度均衡

large-v3-turbo是 2024 年末发布的优化版本，用约一半参数量实现了接近 large-v3 的精度，是生产部署的推荐选择。

核心能力

支持99 种语言的识别与翻译（直接翻译为英文）
端到端联合训练：无需独立的 VAD（语音活动检测）模块
时间戳精度：词级别对齐（通过--word_timestamps开启）
特点：在噪音环境、口音、专业术语上表现出色，主要因为 68 万小时多语言弱监督训练数据

局限性

实时性差：原版 large 模型 RTF 约为 0.3-0.5（需要配合加速方案）
长音频幻觉：30 秒分块处理存在跨块幻觉问题（large-v3 有所改善）
不含标点：需要后处理添加标点

# 基础使用importwhisper model=whisper.load_model("large-v3-turbo")result=model.transcribe("audio.mp3",language="zh")print(result["text"])

2.2 Faster-Whisper（CTranslate2 加速版）

开源时间：2023 年
许可证：MIT
GitHub：SYSTRAN/faster-whisper

Faster-Whisper 将 Whisper 模型转换为 CTranslate2 格式，通过 INT8 量化和 CUDA 优化，在不损失精度的前提下大幅提速：

模式	相对原版 Whisper 的速度	VRAM 节省
float32	约 2-4x	无
float16	约 4-6x	约 40%
int8	约 8-12x	约 40%

fromfaster_whisperimportWhisperModel# 使用 int8 量化，RTX 4070 上 large-v3 约 12x 实时model=WhisperModel("large-v3",device="cuda",compute_type="int8")segments,info=model.transcribe("audio.mp3",beam_size=5)forsegmentinsegments:print(f"[{segment.start:.2f}s →{segment.end:.2f}s]{segment.text}")

推荐生产方案：faster-whisper + large-v3-turbo + int8 量化，在消费级 GPU（RTX 3080/4070）上可实现准实时转录（RTF < 0.1）。

2.3 Whisper.cpp（CPU/Metal 加速）

开源时间：2022 年
许可证：MIT
GitHub：ggerganov/whisper.cpp

Whisper.cpp 是 Whisper 的 C++ 纯 CPU 实现，支持 Apple Silicon Metal 加速和 x86 AVX 指令集，无需 CUDA 环境：

平台	large-v3 速度
Apple M3 Pro (Metal)	~8x 实时
Intel i9-13900K (CPU only)	~3x 实时
RTX 4070 (CUDA)	~12x 实时

适用场景：无 GPU 的服务器、Apple Silicon Mac、嵌入式系统（树莓派等）。

2.4 NVIDIA Parakeet TDT 0.6B V2

开源时间：2025 年 5 月
许可证：NVIDIA Open Model License（商用需申请）
架构：FastConformer Encoder + TDT Decoder
HuggingFace：nvidia/parakeet-tdt-0.6b-v2

核心指标

数据集	WER
LibriSpeech test-clean	1.51%
LibriSpeech test-other	3.20%
Common Voice 17	7.41%
综合平均 WER	6.05%

技术特点

参数量：6 亿（0.6B），远小于 Whisper large-v3（1.5B），但英文精度超越后者
推理速度：配合 NVIDIA Triton + TensorRT-LLM，可实现2000x 实时的批量处理速度
内置标点、大小写、精确时间戳（不需要后处理）
仅支持英文——这是最大限制

importnemo.collections.asrasnemo_asr model=nemo_asr.models.ASRModel.from_pretrained("nvidia/parakeet-tdt-0.6b-v2")transcription=model.transcribe(["audio.wav"])print(transcription[0].text)

2.5 NVIDIA NeMo Canary Qwen 2.5B（OpenASR 榜首）

许可证：Apache 2.0 / NVIDIA Open Model License
HuggingFace：nvidia/canary-qwen-2.5b
OpenASR Leaderboard WER：5.63%（2025-2026 榜首）

NeMo Canary 系列融合了 NVIDIA 的 FastConformer 声学模型和 Qwen 语言模型，是目前在 Hugging Face Open ASR Leaderboard 上表现最好的开源模型：

能力	详情
语言支持	英文为主，部分多语言
推理速度	~2000x 实时（GPU 批量）
特色	语音理解 + 翻译一体化
部署	NeMo 框架，支持 Triton 服务

适用场景：英文批量转录、对精度要求极高的学术/医疗场景。

2.6 FunASR（阿里达摩院）

开源时间：2023 年
许可证：MIT
GitHub：modelscope/FunASR

FunASR 不只是一个模型，而是一个完整的 ASR 框架，内置 VAD（语音活动检测）、标点恢复、时间戳对齐等模块，支持多种后端模型：

FunASR 框架能力图 ├── 语音活动检测（VAD） → FSMN-VAD ├── 识别核心模型 │ ├── Paraformer-zh（中文） │ ├── SenseVoice-Small（多功能） │ └── 自定义模型支持 ├── 标点恢复 → CT-Transformer ├── 说话人分离（Diarization） → CAM++ └── 时间戳生成 → FSMN-Timestamp

一键部署（Docker 方式）：

dockerpull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:latestdockerrun-p10095:10095\-eMODELSCOPE_CACHE=/models\registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:latest\--modeliic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch\--vad_modeliic/speech_fsmn_vad_zh-cn-16k-common-pytorch

FunASR 的最大价值是生产级完整流水线——它解决了原版 Whisper 不含标点、VAD 需要自行处理等痛点。

2.7 Paraformer-zh（中文最佳基线）

来源：阿里达摩院 / FunASR 生态
参数量：220M
训练数据：6 万小时人工标注普通话数据
AISHELL-1 CER：1.95%

Paraformer 是**非自回归（Non-Autoregressive）**端到端 ASR 模型，相比 Whisper 的自回归解码，推理速度快约 10 倍，同等硬件下更适合实时场景。

对比维度	Paraformer-zh	Whisper large-v3
中文 CER（AISHELL-1）	1.95%	~4.5%
英文 WER	较弱	强
推理速度	快（非自回归）	较慢（自回归）
部署复杂度	低（FunASR 封装）	中
实时流式	支持（Paraformer-streaming）	需要 faster-whisper

2.8 SenseVoice-Small（多功能中文模型）

开源时间：2024 年 7 月
许可证：Apache 2.0
参数量：234M
HuggingFace：FunAudioLLM/SenseVoiceSmall

SenseVoice-Small 的核心差异化在于不只是 ASR：

功能	说明
语音识别	中文、英文、粤语、日语、韩语
情感识别	开心、悲伤、愤怒、中性
音频事件检测	笑声、掌声、音乐、哭泣
语言识别	自动判断输入语言

性能特点：

推理速度极快——相比 Whisper large-v3 快约15 倍
中文、粤语识别精度超越 Whisper large-v3
AISHELL-1 CER 约 3%，略差于 Paraformer-zh 但功能更丰富

fromfunasrimportAutoModelfromfunasr.utils.postprocess_utilsimportrich_transcription_postprocess model=AutoModel(model="iic/SenseVoiceSmall",vad_model="fsmn-vad",vad_kwargs={"max_single_segment_time":30000},device="cuda:0",)res=model.generate(input="audio.wav",cache={},language="auto",# 自动语言识别use_itn=True,# 反向文本归一化（数字→阿拉伯数字等）batch_size_s=60,merge_vad=True,)text=rich_transcription_postprocess(res[0]["text"])print(text)

2.9 FireRedASR（中文 CER 最低）

开源时间：2025 年
参数量：FireRedASR-AED 约 1.1B，FireRedASR-LLM（大模型增强版）
AISHELL-1 CER：0.57%（当前中文最低记录）

模型	特点	适用
FireRedASR-AED	编解码结构，精度最高	高精度批量转录
FireRedASR-LLM	融合 LLM，理解能力更强	语义理解场景

局限：参数量较大，对硬件要求高；暂无轻量化版本。

2.10 Qwen3-ASR（方言支持最广）

来源：阿里云通义团队
参数量：约 1.7B
AISHELL-1 CER：1.48%
特色：支持22 种中国方言（闽南话、粤语、客家话等）

对于需要覆盖中国多方言场景的产品，Qwen3-ASR 目前是最佳选择。

2.11 sherpa-onnx（跨平台部署框架）

开源时间：2023 年
许可证：Apache 2.0
GitHub：k2-fsa/sherpa-onnx

sherpa-onnx 是一个部署框架而非模型本身，专为移动端和嵌入式设备设计：

特性	详情
支持平台	iOS、Android、Raspberry Pi、Windows、Linux、macOS
支持编程语言	12 种（Python、C/C++、Java、Kotlin、Swift、Go 等）
模型格式	ONNX / TFLite
网络依赖	完全离线
可部署模型	Paraformer、SenseVoice-Small、Zipformer 等

Android 集成示例：

valconfig=OnlineRecognizerConfig.Builder().encoder("assets/encoder.onnx").decoder("assets/decoder.onnx").joiner("assets/joiner.onnx").build()valrecognizer=OnlineRecognizer(config)recognizer.createStream().use{stream->stream.acceptWaveform(audioData,sampleRate=16000)valresult=recognizer.getResult(stream)println(result.text)}

2.12 开源项目横向对比总览

项目	中文 CER	英文 WER	速度	参数量	特色	最适场景
FireRedASR-AED	0.57%	中等	慢	1.1B	中文精度最高	高精度中文批量
Qwen3-ASR	1.48%	中等	中	1.7B	22种方言	中国方言场景
Paraformer-zh	1.95%	弱	快	220M	非自回归快速	中文实时流式
SenseVoice-Small	~3%	中等	极快	234M	情感/事件检测	多功能中文
Whisper large-v3	~4.5%	~3%	慢	1.5B	99语言	多语言批量
faster-whisper	同上	同上	快8-12x	同上	Whisper加速	Whisper生产化
Parakeet TDT V2	不支持	6.05%	极快	600M	英文登顶	英文高精度
NeMo Canary	弱	5.63%	极快	2.5B	OpenASR榜首	英文学术/企业

三、闭源 API 服务深度解析

3.1 Deepgram Nova-3 & Flux

官网：deepgram.com
定位：实时语音 Agent 首选

指标	数据
批量 WER	5.26%（实测数据集）
流式 WER	6.84%
首帧延迟	< 300ms
支持语言	36+
批量定价	$0.0043 / 分钟
流式定价	$0.0077 / 分钟

Deepgram Flux（2026 年 5 月发布）专为语音 Agent 优化，提供全行业最低的语音结束检测延迟（End-of-Speech Detection），是实时对话 AI 的首选。

fromdeepgramimportDeepgramClient,PrerecordedOptions deepgram=DeepgramClient("YOUR_API_KEY")withopen("audio.mp3","rb")asf:buffer_data=f.read()options=PrerecordedOptions(model="nova-3",language="zh",punctuate=True,diarize=True,# 说话人分离smart_format=True,)response=deepgram.listen.rest.v("1").transcribe_file({"buffer":buffer_data},options)print(response["results"]["channels"][0]["alternatives"][0]["transcript"])

3.2 AssemblyAI Universal-2 & Slam-1

官网：assemblyai.com
定位：语音智能分析（不只是转录）

指标	数据
支持语言	99+
定价	~$0.37 / 小时
特色功能	情感分析、主题检测、实体识别、摘要生成

Slam-1（2025 年 10 月发布）是 AssemblyAI 自研的 Speech-Language Model，将 ASR 与下游 NLP 任务联合训练，在"语音理解"而非单纯"语音转录"上形成差异化。

AssemblyAI 适合的场景：销售电话分析、客服质检、会议情报提取——不只需要文字，还需要情感、意图和摘要。

importassemblyaiasaai aai.settings.api_key="YOUR_API_KEY"transcriber=aai.Transcriber()transcript=transcriber.transcribe("https://example.com/audio.mp3",config=aai.TranscriptionConfig(sentiment_analysis=True,entity_detection=True,speaker_labels=True,auto_chapters=True,# 自动章节分割+摘要))forsentimentintranscript.sentiment_analysis:print(f"{sentiment.text}:{sentiment.sentiment}")

3.3 ElevenLabs Scribe v2 Realtime

官网：elevenlabs.io
定位：多语言实时转录

指标	数据
英文 WER	~3.3%（内部测试）
FLEURS 多语言准确率	93.5%（30 种语言优化）
首帧延迟	~150ms
支持语言	90+
定价	$0.22–$0.48 / 小时

Scribe v2 的最大优势是低延迟 + 多语言的组合，特别适合已在使用 ElevenLabs TTS 的产品（语音合成 + 语音识别一体化）。

3.4 OpenAI GPT-4o Transcribe

官网：platform.openai.com

指标	数据
WER（独立基准 Artificial Analysis）	~8.9%
定价	$6.00 / 1000 分钟（较贵）
特色	GPT-4o 级别理解能力

相比 Whisper 的纯转录，GPT-4o Transcribe 在语境理解（专业术语补全、口误纠正、方言转普通话写法）上更强，但价格高出 Deepgram 约 14 倍。适合对质量极其敏感、对成本不敏感的场景。

3.5 Google Cloud Speech-to-Text（Chirp 3）

指标	数据
支持语言	125+（最广覆盖）
WER（混合数据集）	~11.6%
定价	$16.00 / 1000 分钟（标准）
特色	GCP 生态深度集成

Google 最大优势是语言覆盖广度，在小语种（斯瓦希里语、乌尔都语等）上无竞争对手。价格偏高，适合 GCP 架构下的多语言全球产品。

3.6 Amazon Transcribe

指标	数据
支持语言	100+
定价	$0.024 / 分钟
特色	医疗转录（HIPAA 合规）、呼叫中心分析

Amazon Transcribe Medical 是目前市场上极少数通过 HIPAA 合规认证的语音转录服务之一，在医疗场景（问诊记录、手术备注）有独特价值。

3.7 Microsoft Azure Custom Speech

指标	数据
支持语言	100+
定价	$1.00 / 小时
特色	自定义词汇表（专业术语微调），企业级 SLA

Azure Custom Speech 允许上传行业词汇、品牌名称、产品代号，让模型在专业术语上显著提升精度——这是其他 API 很难做到的能力。适合金融、法律、制造业等术语密集领域。

3.8 Speechmatics Enhanced

指标	数据
支持语言	55+
定价	按需报价
特色	支持完全本地部署，通过监管合规审查

Speechmatics 是目前少数同时提供 SaaS 和本地部署（On-Premises）模式的商业 ASR 服务，在金融监管、政府、医疗等数据不能出境的场景有明确优势。

3.9 闭源 API 横向对比总览

服务	WER（英文）	首帧延迟	语言数	定价（/小时）	最适场景
Deepgram Nova-3	5.26%	<300ms	36+	~$0.26	语音 Agent、实时对话
ElevenLabs Scribe v2	~3.3%	~150ms	90+	$0.22-0.48	多语言实时
AssemblyAI Slam-1	~14.5%	中等	99+	$0.37	语音情报分析
OpenAI GPT-4o	~8.9%	中等	57+	$6.00	高质量批量
Google Chirp 3	~11.6%	中等	125+	$9.60	小语种多语言
Azure Custom	中等	中等	100+	$1.00	企业自定义词汇
AWS Transcribe	中等	中等	100+	$1.44	AWS 生态/医疗
Speechmatics	中等	中等	55+	询价	监管/本地部署

四、应用层产品（会议记录场景）

4.1 Otter.ai

官网：otter.ai
定位：英文会议实时转录 + 摘要

功能	详情
实时转录精度	~95%（英文）
集成平台	Zoom、Google Meet、Microsoft Teams
说话人识别	支持（按声纹区分）
摘要生成	自动 AI 摘要
中文支持	较弱（不推荐中文为主的会议）
定价	免费版（300分钟/月）/ Pro $16.99/月

4.2 Fireflies.ai

官网：fireflies.ai
定位：多语言会议记录 + 搜索

功能	详情
语言支持	69 种语言
特色	会议内容全文搜索
集成	CRM（Salesforce、HubSpot）、Slack、Notion
中文支持	中等
定价	免费版（有限存储）/ Pro $18/月

4.3 CraftNote（中文友好）

定位：中文/中英混合会议的最佳 AI 助手
特色：专为中文会议场景优化，转录质量明显优于 Otter 和 Fireflies 的中文处理

根据 2026 年 3 月实测：中文或中英混合会议推荐CraftNote，纯英文会议推荐Otter或Fireflies。

五、选型指南：9 个场景的推荐方案

场景决策树

你的主要需求是什么？ │ ├─ 纯英文，精度优先，可商用GPU部署 │ → NVIDIA Parakeet TDT V2 + NeMo Triton │ ├─ 中文，精度最高优先 │ → FireRedASR-AED（需GPU） │ ├─ 中文，速度优先，实时/流式 │ → Paraformer-zh（通过FunASR部署） │ ├─ 中文多功能（情感/方言/快速） │ → SenseVoice-Small（通过FunASR或sherpa-onnx） │ ├─ 移动端/嵌入式，完全离线 │ → sherpa-onnx + SenseVoice-Small 或 Paraformer │ ├─ 多语言批量转录，不想自己部署 │ → OpenAI GPT-4o Transcribe（高精度） │ 或 Deepgram Nova-3（低成本） │ ├─ 实时语音对话 Agent（<300ms延迟） │ → Deepgram Flux + Nova-3 │ ├─ 语音情报分析（情感/意图/摘要） │ → AssemblyAI Universal-2 / Slam-1 │ └─ 企业合规，数据不出境 → Speechmatics 本地部署 或 FunASR + Paraformer 自托管

各场景推荐汇总

场景	推荐方案	理由
中文高精度离线部署	FireRedASR-AED	CER 0.57%，行业最低
中文实时流式（低延迟）	Paraformer-zh（FunASR）	非自回归，速度快10倍
中文方言识别	Qwen3-ASR	22种中国方言
多功能中文（情感/事件）	SenseVoice-Small	极快 + 多标签输出
英文高精度 API	Deepgram Nova-3	5.26% WER，最低成本
英文实时语音 Agent	Deepgram Flux	Sub-300ms，最低 EOS 延迟
多语言（99 种以上）	Google Chirp 3 / AssemblyAI	最广覆盖
移动端离线	sherpa-onnx + SenseVoice	跨平台，完全离线
会议记录（中文为主）	CraftNote	中文实测最佳
医疗合规转录	AWS Transcribe Medical	HIPAA 认证

六、成本对比（月处理 5000 小时音频）

方案	月费用估算	备注
Deepgram Nova-3（批量）	~$1,290	最低成本 API
faster-whisper（RTX 4090 自托管）	~$500-800	电费+云主机
AssemblyAI	~$1,110	$0.37/h
Azure Speech	~$3,000	$1/h
AWS Transcribe	~$7,200	$0.024/min
Google Standard	~$4,800	$0.016/min
OpenAI GPT-4o Transcribe	~$18,000	$6/1000min，精度最高但最贵

对于 5000 小时/月的工作量，自托管 faster-whisper 是综合成本最低的方案；如果不想运维 GPU 基础设施，Deepgram 是 API 方案中的价格最优解。

七、总结

维度	2025-2026 核心趋势
精度提升	开源模型 WER 已逼近 5%（NVIDIA Canary 5.63%），追平甚至超越部分闭源服务
中文生态	阿里（FunASR/SenseVoice/Qwen3-ASR）主导中文开源 ASR，方言和情感识别独具优势
实时 Agent	Deepgram Flux 的 Sub-300ms EOS 检测成为语音 Agent 的基础设施标配
端侧部署	sherpa-onnx + 轻量模型已可在 Raspberry Pi 和手机上实现高质量离线 ASR
智能化	从"转录"到"理解"的演进：AssemblyAI Slam-1 将情感、意图、摘要与 ASR 联合训练
成本优化	INT8 量化 + faster-whisper 使自托管大模型成本降至 API 方案的 1/4 以下