当前位置: 首页 > news >正文

faster-whisper:语音转文字,快 4 倍

文章目录

  • faster-whisper:语音转文字,快 4 倍
    • 为什么要用它
    • 支持哪些功能
    • 安装使用
    • 适合哪些人用

faster-whisper:语音转文字,快 4 倍

faster-whisper 在 GitHub 上已经拿到 23.8K Star 了。

SYSTRAN 开源了这个工具,用 CTranslate2 重新实现了 OpenAI 的 Whisper 模型。做一件事——把音频转成文字。速度比原版快 4 倍,内存占用更少,还支持 8 位量化。

为什么要用它

做过语音识别的人都知道,Whisper 效果好,但速度慢。处理一段 13 分钟的音频,原版 Whisper 在 GPU 上要 2 分 23 秒。faster-whisper 只要 1 分 03 秒。

开了批处理模式,16 段音频一起跑,17 秒搞定。用 INT8 量化,VRAM 从 4708MB 降到 2926MB,速度还能再快一点。

CPU 上也快。Small 模型,原版要 6 分 58 秒,faster-whisper 批处理模式 51 秒。

支持哪些功能

  • 多语言识别,自动检测语言
  • 词级时间戳,精确到每个词的起止时间
  • VAD 过滤,自动跳过静音片段
  • 批处理模式,多段音频同时处理
  • 支持 Distil-Whisper 蒸馏模型,速度更快
  • 自定义模型转换, fine-tuned 模型也能用

安装使用

安装:

pipinstallfaster-whisper

GPU 需要额外装 NVIDIA 的库。CUDA 12 和 cuDNN 9。Linux 可以用 pip 装,Windows 和 Linux 也能从 Purfview 的仓库下载。

基本用法:

fromfaster_whisperimportWhisperModel model=WhisperModel("large-v3",device="cuda",compute_type="float16")segments,info=model.transcribe("audio.mp3",beam_size=5)forsegmentinsegments:print("[%.2fs -> %.2fs] %s"%(segment.start,segment.end,segment.text))

批处理:

fromfaster_whisperimportWhisperModel,BatchedInferencePipeline model=WhisperModel("turbo",device="cuda",compute_type="float16")batched_model=BatchedInferencePipeline(model=model)segments,info=batched_model.transcribe("audio.mp3",batch_size=16)

不需要装 FFmpeg,用 PyAV 解码音频。

适合哪些人用

  • 需要把大量音频转成文字的人
  • 在做实时语音识别的开发者
  • 想在本地跑语音识别、不想调 API 的人
  • 需要处理多语言音频的场景

社区已经有不少项目基于 faster-whisper 构建:WhisperX 做了说话人分离,WhisperLive 做了实时转录,aTrain 做了图形界面。

faster-whisper 构建:WhisperX 做了说话人分离,WhisperLive 做了实时转录,aTrain 做了图形界面。

http://www.jsqmd.com/news/1126532/

相关文章:

  • Windows屏幕标注终极指南:用ppInk让远程协作像在白板上写字一样简单
  • 真人克隆口播小程序开发全攻略:AI数字人系统源码架构解析
  • 基于Dify工作流与MCP协议构建企业级AI智能副驾实战指南
  • 3分钟掌握抖音下载神器:免费工具助你批量保存视频与直播回放
  • QKeyMapper:Windows平台终极按键映射神器,让手柄玩转所有PC游戏
  • 从团购内卷到 AI 搜索:生成式引擎优化 (GEO) 底层技术拆解与本地实体落地选型指南
  • sklearn KMeans 聚类评估实战:3大指标对比与Seeds数据集可视化
  • OpenCore Legacy Patcher完整教程:4步让老Mac重获新生
  • WorkshopDL终极指南:一站式跨平台Steam创意工坊下载解决方案
  • 酒店综合管理系统源码 Java+SpringBoot+Vue 前后分离
  • Dirty Pipe漏洞原理剖析与容器逃逸攻防实践
  • ZenlessZoneZero-OneDragon:为绝区零玩家解放每天3小时的重度操作革命
  • 浙江嵊州玉兰苗采购实地调研:三大苗木基地选购参考指南
  • 阿里:显式稀疏打破推荐规模化天花板
  • 鸣潮自动化终极指南:5分钟上手后台自动战斗系统
  • RDP远程管理实现过程
  • KeyboardChatterBlocker:3分钟彻底解决机械键盘连击问题的智能方案
  • AI编程操作系统:子代理编排与验证闭环的工程实践
  • 保姆级实战教程!虚拟机Windows Server2019搭建DHCP服务器
  • 中小民企管理升级难?专业企业咨询助力企业规范化发展
  • Locale-Emulator:为Windows程序开启全球化的魔法钥匙
  • 3分钟掌握ppInk:Windows上最强大的免费屏幕标注工具终极指南
  • 老款Mac升级终极指南:五步让2007-2017年设备免费运行最新macOS
  • 企业AI安全实战:三层防御体系构建与数据防泄露治理
  • 第16章|海纳百川:MCP 协议与外部工具连接
  • 《双 Agent 工作台 + 全栈 GIS 项目搭建:前端地图/空间数据库/后端/云部署指南》
  • 5个简单步骤:在浏览器中实现文本转语音的完整指南
  • Windows热键冲突终极解决方案:3分钟快速找出“偷走“你快捷键的程序
  • 从零部署Dify:构建企业级AI应用与知识库问答实战指南
  • WaveTools鸣潮工具箱:3分钟解锁120帧的终极完整指南