开源免费!这款 AI 语音工作室让 ElevenLabs 都感到压力
想象一下,如果你能克隆任何人的声音,只需几秒钟的音频样本,就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上,完全免费,数据永远不会离开你的机器。
这不是科幻小说,而是今天我要分享的开源项目Voicebox能做到的事情。
🎯 为什么要关注 Voicebox?
如果你用过 ElevenLabs 的语音合成,或者体验过 WisprFlow 的语音输入,你会发现它们各有短板:一个擅长语音输出,一个专注语音输入,但都需要付费,而且数据都要上传到云端。
Voicebox 把这两项功能合二为一,加上本地运行的隐私优势,直接成为了 ElevenLabs 的开源平替版本。
🔥 末尾可获取该项目的下载地址,继续往下看!
核心功能一览
1️⃣ 零样本语音克隆
上传 3-5 秒的音频样本,Voicebox 就能捕捉到声音特征,然后用这个"克隆声音"朗读你提供的任何文本。支持 23 种语言,从英语、中文到阿拉伯语、日语、印地语,覆盖全球主要语种。
2️⃣ 七大 TTS 引擎任你选
Voicebox 内置了 7 个不同的语音合成引擎,每个都有自己的专长:
- Qwen3-TTS
:高质量多语言克隆,支持"说慢点"、"耳语"等语气指令
- Qwen CustomVoice
:9 个精选预设声音,无需参考音频就能用
- LuxTTS
:超轻量级,仅占 1GB 显存,CPU 上也能跑 150 倍实时速度
- Chatterbox Multilingual
:支持语言最广,23 种语言全覆盖
- Chatterbox Turbo
:支持 [笑]、[叹气]、[喘息] 等情感标签
- HumeAI TADA
:能生成 700 秒以上的连贯音频
- Kokoro
:82M 超小模型,提供 50 个精选预设声音
3️⃣ 全局语音输入
设置一个快捷键,在任何应用中都能按住说话,松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证,体验非常流畅。
如果你是开发者,这个功能特别实用——在 VS Code 里写代码时,直接按快捷键说出需求,文字自动出现,继续编辑就行。
4️⃣ AI 语音助手集成
Voicebox 内置了 MCP 服务器,任何支持 MCP 协议的 AI 客户端(Claude Code、Cursor、Cline 等)都能直接调用它的语音功能。
想象一下这个场景:你让 AI 帮你写代码,AI 不是用文字回复,而是用你克隆的声音直接"说"给你听。
5️⃣ 个性化语音角色
为每个语音配置绑定一个"性格"描述,然后用绑定的本地 LLM 进行文本重写。开启"角色扮演"模式后,AI 会用符合这个角色的语气和风格改写你的输入,再用对应的声音读出来。
创作对话、游戏配音、播客制作时,这个功能太强大了。
技术架构亮点
Voicebox 不是用 Electron 做的,而是用Tauri (Rust)构建原生应用,这意味着更小的内存占用和更好的性能。
后端采用 FastAPI (Python),前端用 React + TypeScript,状态管理用 Zustand 和 React Query。整个技术栈非常现代,开源社区友好。
平台支持
- macOS (Apple Silicon)
:使用 MLX 框架,通过 Neural Engine 加速,速度提升 4-5 倍
- Windows / Linux (NVIDIA)
:PyTorch + CUDA,应用内自动下载 CUDA 运行时
- Linux (AMD)
:PyTorch + ROCm,自动配置 HSA_OVERRIDE_GFX_VERSION
- Windows (任意 GPU)
:DirectML,通用支持
- Intel Arc
:IPEX/XPU 加速
- 纯 CPU 模式
:任何设备都能运行,就是慢点
实际应用场景
内容创作者
录制播客、有声书、视频配音,用克隆的声音保持一致性,配合 8 种音频后处理效果(音调偏移、混响、延迟、合唱等),专业度直接拉满。
开发者
给 AI Agent 加上语音输出,用户提问后,AI 用自然语音回答,不再是冷冰冰的文字。Voicebox 提供了完整的 REST API,集成到自己的应用非常方便。
辅助功能
对于有语言障碍的用户,Voicebox 可以帮助他们用自己的声音重新"说话"。预先录制好自己的声音样本,就能用文字输入生成语音输出。
开源协议
MIT License,完全免费,商业使用也没问题。项目在 GitHub 上已有 1.6k+ Stars,社区活跃,更新频繁。
竞争对手对比
功能 | Voicebox | ElevenLabs | WisprFlow |
|---|---|---|---|
价格 | 完全免费 | 按使用量付费 | 订阅制 |
数据隐私 | 本地运行 | 云端处理 | 云端处理 |
语音输入 | ✅ 支持 | ❌ 不支持 | ✅ 支持 |
语音输出 | ✅ 支持 | ✅ 支持 | ❌ 不支持 |
开源 | ✅ MIT | ❌ 闭源 | ❌ 闭源 |
离线使用 | ✅ 支持 | ❌ 不支持 | ❌ 不支持 |
未来规划
根据项目的 Roadmap,这些功能正在开发中:
Windows / Linux 自动粘贴功能(追平 macOS 体验)
更多语音识别引擎(Parakeet v3、Qwen3-ASR),支持 50+ 语言
流式实时转录(WebSocket 接口)
端到端语音 LLM(Moshi、GLM-4-Voice、Qwen2.5 Omni)
文字描述生成声音(Voice Design)
双流录制器(麦克风 + 系统音频)
插件架构(支持自定义模型和转换器)
安装使用
macOS 用户
# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包Windows 用户
# 下载 MSI 安装包 双击运行即可Docker 部署
docker compose up开发者本地构建
git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境,安装依赖 just dev # 启动后端 + 桌面应用小结
Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能(语音克隆、多语言支持、情感标签),更重要的是坚持本地优先的隐私理念,所有数据都在你的机器上处理。
如果你在寻找 ElevenLabs 的免费替代品,或者想给 AI 项目加上语音功能,Voicebox 值得一试。
