当前位置：首页 > news >正文

OpenAI Whisper内网无网络环境运行 | 开源Whisper本地化部署运行 | 语音识别ASR本地化

news 2026/6/24 8:53:28

1. Whisper介绍

Whisper是一个由OpenAI公司开源的ASR项目，在github中有超多的star，国内也有很多公司在使用这个Whisper。我们使用Python或者C++或者Java都可以轻松使用这个Whisper作为语音转写服务。这里使用Python开发，并且使用pyinstaller封装为Windows可执行程序，直接下载下面的压缩包后，直接双击app.exe或者app就可以运行，极大方便了小白用户的使用，不需要懂代码，不用输入命令，直接通过鼠标操作。该软件只适配Windows 7， Windows 10和Windows 11，对于想要在MacOS或者Linux中运行的用户来说，需要源码安装。如果想要在Linux服务器中运行，并且封装为一个类似阿里云智能语音交互中的ASR录音文件识别接口，可以联系博主lukeewin01。
Whisper支持在CPU或GPU中运行，GPU只支持英伟达GPU，也就是使用英伟达的CUDA进行推理。并且支持多种模型，多种语言，包括但不限于普通话，粤语，英语，葡萄牙语，西班牙语，俄语，意大利语，法语，德语，日语，韩语，印度尼西亚语，缅甸语，老挝语，越南语，阿拉伯语等一共100种语言。其中国内只支持粤语和普通话，对于其它的方言，需要使用一定量的方言数据训练才能支持。
下载地址：：

通过网盘分享的文件：第二版Whisper可执行程序 链接: https://pan.baidu.com/s/1yXk5lYt248Mao972X17etA 提取码: bmgd

2. 模型介绍

Whisper开源了多个模型，有tiny, tiny.en, base, base.en, small, small.en , medium, medium.en, large-v1, large-v2, large-v3, large-v3-turbo等模型，这些模型参数依次增大，准确率也依次提升，但是对电脑的要求也逐渐提升。我这里推荐大家使用large-v3-turbo模型，这个是基于large-v3这个模型优化过的，转写的速度更快了，占用的资源更低了，但是准确率级别和large-v3一样。跑这个模型如果使用CUDA来推理，至少需要8GB显存的显卡，如果跑large-v3则至少需要12GB的显存。如果你没有英伟达显卡，或者说显存小于8GB显存，那么就推荐你使用small模型，如果是英语的音视频，那么就推荐使用small.en模型。
这说明一下，有.en结尾的模型就是专门给英语用的模型，其它语言的音视频就不要选择.en结尾的模型。当然英语也可以选择非.en结尾的模型，比如英语也可以选择使用large-v3模型。
如果你选择了small模型，那么至少需要4GB的显存的显卡。如果你使用CPU，那么可以把后面的CPU线程数拉到最大。

3. Whisper优缺点

Whisper不是完美的，每个项目每个模型都有自己的优缺点，我们应该要扬长避短。Whisper的优势是多语种的支持，一个模型就可以支持上百种语言，这是目前其它开源模型中难以做到的。Whisper也是最近几年来的ASR新鼻祖了，开创了全新的ASR实现思路，并且也是目前来说训练数据量最大的模型了，使用了68万小时的数据集训练的。Whisper还有一个优势就是一个模型就可以搞定语音转写和标点符号添加，以及语种识别，还可以做翻译，直接翻译为英文输出。这是其它开源项目做不到的，当然，Whisper开源之后，有很多模仿者，二次开发的项目，比如WhisperX，faster whisper, whisper.cpp, whisper-jar等，这些项目我都在本地或者服务器运行过，每个项目都有其特点，比如faster whisper主要是速度快，whisper.cpp主要是依赖简单，直接可以集成到C++的项目中，不依赖于torch，而WhisperX就集成了Pyannote实现了区分说话人，和时间戳对齐。如果你想要部署这些项目，也可以访问我下面的博客首页来联系我。

https://blog.lukeewin.top

更多内容记得关注我。
如需看视频效果演示效果，可以访问下面的视频链接。

https://www.bilibili.com/video/BV1jcjL61EPF/

查看全文

http://www.jsqmd.com/news/1071704/

Meltwater报告揭示的趋势：合规公关正在全球兴起

ssl证书用完了怎么办？推荐看看这个

单细胞NMF非负矩阵分解降维及亚群分析应用

SAM7X以太网MAC高级功能：哈希过滤与VLAN标签处理实战

“无主权路由”的奇袭：Sakana AI 如何在地缘政治夹缝中完成技术突围？

基于ATAK51003-V1的汽车无钥匙进入系统开发实战指南

AT24MAC芯片实战：硬件唯一ID在嵌入式设备身份认证与量产中的应用

社区直播选软件，老板别只会看“花架子”，这三点才是真正的“铁门槛”

Atmel ATA820x UHF接收器：ASK/FSK双模、低功耗与高灵敏度设计实战

MPLAB Harmony加密库实战：从ECC/RSA到3DES/SHA的嵌入式安全开发指南

Article A (EN)

你的agent简历上缺的不是技术栈，缺的是Know-how

齐纳二极管芯片CD52xx系列选型与应用实战指南

2026年首脑培训学校口碑怎么样

2026年同城外卖优惠新趋势：供应商如何脱颖而出

AT42QT2160电容触摸芯片I2C配置实战：从通信基础到抗干扰调优

KeePassXC：本地优先的开源密码管理器

嵌入式系统硬件安全实践：TPM开发套件I2C/SPI集成与TSS软件栈应用

工业级电容触摸设计：AT42QT2640 FMEA自检与抗干扰实战

一场秋衣上新，AI三天出图抵过拍摄团队一个月

ATmega M1高级功能实战：DIDR抗干扰、DAC输出与Bootloader设计

AVR异步定时器中断丢失：BOD禁用下的低功耗陷阱与解决方案

为什么说大多数私域都是伪命题？聊聊CRMEB系统下的“信任阶梯”模型

ATmega164P/324P/644P ADC配置与低功耗设计实战指南

分布式数据库原理及技术

ATtiny1634 ADC精度优化与热敏电阻温度测量实战

CoreABC APB总线控制器：嵌入式系统中的轻量级硬件状态机实战

nlp自然语言处理（2）

ATmega645功耗优化与电气特性设计实战指南

易元智创APP：账号数据智能复盘，海南易元现实科技有限公司精准优化流量短板

1. Whisper介绍

2. 模型介绍

3. Whisper优缺点

相关文章：