当前位置：首页 > news >正文

faster-whisper：语音转文字，快 4 倍

news 2026/7/5 6:35:09

文章目录

faster-whisper：语音转文字，快 4 倍
- 为什么要用它
- 支持哪些功能
- 安装使用
- 适合哪些人用

faster-whisper：语音转文字，快 4 倍

faster-whisper 在 GitHub 上已经拿到 23.8K Star 了。

SYSTRAN 开源了这个工具，用 CTranslate2 重新实现了 OpenAI 的 Whisper 模型。做一件事——把音频转成文字。速度比原版快 4 倍，内存占用更少，还支持 8 位量化。

为什么要用它

做过语音识别的人都知道，Whisper 效果好，但速度慢。处理一段 13 分钟的音频，原版 Whisper 在 GPU 上要 2 分 23 秒。faster-whisper 只要 1 分 03 秒。

开了批处理模式，16 段音频一起跑，17 秒搞定。用 INT8 量化，VRAM 从 4708MB 降到 2926MB，速度还能再快一点。

CPU 上也快。Small 模型，原版要 6 分 58 秒，faster-whisper 批处理模式 51 秒。

支持哪些功能

多语言识别，自动检测语言
词级时间戳，精确到每个词的起止时间
VAD 过滤，自动跳过静音片段
批处理模式，多段音频同时处理
支持 Distil-Whisper 蒸馏模型，速度更快
自定义模型转换， fine-tuned 模型也能用

安装使用

安装：

pipinstallfaster-whisper

GPU 需要额外装 NVIDIA 的库。CUDA 12 和 cuDNN 9。Linux 可以用 pip 装，Windows 和 Linux 也能从 Purfview 的仓库下载。

基本用法：

fromfaster_whisperimportWhisperModel model=WhisperModel("large-v3",device="cuda",compute_type="float16")segments,info=model.transcribe("audio.mp3",beam_size=5)forsegmentinsegments:print("[%.2fs -> %.2fs] %s"%(segment.start,segment.end,segment.text))

批处理：

fromfaster_whisperimportWhisperModel,BatchedInferencePipeline model=WhisperModel("turbo",device="cuda",compute_type="float16")batched_model=BatchedInferencePipeline(model=model)segments,info=batched_model.transcribe("audio.mp3",batch_size=16)

不需要装 FFmpeg，用 PyAV 解码音频。

适合哪些人用

需要把大量音频转成文字的人
在做实时语音识别的开发者
想在本地跑语音识别、不想调 API 的人
需要处理多语言音频的场景

社区已经有不少项目基于 faster-whisper 构建：WhisperX 做了说话人分离，WhisperLive 做了实时转录，aTrain 做了图形界面。

faster-whisper 构建：WhisperX 做了说话人分离，WhisperLive 做了实时转录，aTrain 做了图形界面。

http://www.jsqmd.com/news/1126532/

相关文章：

Windows屏幕标注终极指南：用ppInk让远程协作像在白板上写字一样简单

真人克隆口播小程序开发全攻略：AI数字人系统源码架构解析

基于Dify工作流与MCP协议构建企业级AI智能副驾实战指南

3分钟掌握抖音下载神器：免费工具助你批量保存视频与直播回放

QKeyMapper：Windows平台终极按键映射神器，让手柄玩转所有PC游戏

从团购内卷到 AI 搜索：生成式引擎优化 (GEO) 底层技术拆解与本地实体落地选型指南

sklearn KMeans 聚类评估实战：3大指标对比与Seeds数据集可视化

OpenCore Legacy Patcher完整教程：4步让老Mac重获新生

WorkshopDL终极指南：一站式跨平台Steam创意工坊下载解决方案

酒店综合管理系统源码 Java+SpringBoot+Vue 前后分离

Dirty Pipe漏洞原理剖析与容器逃逸攻防实践

ZenlessZoneZero-OneDragon：为绝区零玩家解放每天3小时的重度操作革命

浙江嵊州玉兰苗采购实地调研：三大苗木基地选购参考指南

阿里：显式稀疏打破推荐规模化天花板

鸣潮自动化终极指南：5分钟上手后台自动战斗系统

RDP远程管理实现过程

KeyboardChatterBlocker：3分钟彻底解决机械键盘连击问题的智能方案

AI编程操作系统：子代理编排与验证闭环的工程实践

保姆级实战教程！虚拟机Windows Server2019搭建DHCP服务器

中小民企管理升级难？专业企业咨询助力企业规范化发展

Locale-Emulator：为Windows程序开启全球化的魔法钥匙

3分钟掌握ppInk：Windows上最强大的免费屏幕标注工具终极指南

老款Mac升级终极指南：五步让2007-2017年设备免费运行最新macOS

企业AI安全实战：三层防御体系构建与数据防泄露治理

第16章｜海纳百川：MCP 协议与外部工具连接

《双 Agent 工作台 + 全栈 GIS 项目搭建：前端地图/空间数据库/后端/云部署指南》

5个简单步骤：在浏览器中实现文本转语音的完整指南

Windows热键冲突终极解决方案：3分钟快速找出“偷走“你快捷键的程序

从零部署Dify：构建企业级AI应用与知识库问答实战指南

WaveTools鸣潮工具箱：3分钟解锁120帧的终极完整指南