当前位置：首页 > news >正文

开源免费！这款 AI 语音工作室让 ElevenLabs 都感到压力

news 2026/5/26 21:53:04

想象一下，如果你能克隆任何人的声音，只需几秒钟的音频样本，就能让 AI 用这个声音说出任何语言的内容——而这一切都运行在你自己的电脑上，完全免费，数据永远不会离开你的机器。

这不是科幻小说，而是今天我要分享的开源项目Voicebox能做到的事情。

🎯 为什么要关注 Voicebox？

如果你用过 ElevenLabs 的语音合成，或者体验过 WisprFlow 的语音输入，你会发现它们各有短板：一个擅长语音输出，一个专注语音输入，但都需要付费，而且数据都要上传到云端。

Voicebox 把这两项功能合二为一，加上本地运行的隐私优势，直接成为了 ElevenLabs 的开源平替版本。

🔥 末尾可获取该项目的下载地址，继续往下看！

核心功能一览

1️⃣ 零样本语音克隆

上传 3-5 秒的音频样本，Voicebox 就能捕捉到声音特征，然后用这个"克隆声音"朗读你提供的任何文本。支持 23 种语言，从英语、中文到阿拉伯语、日语、印地语，覆盖全球主要语种。

2️⃣ 七大 TTS 引擎任你选

Voicebox 内置了 7 个不同的语音合成引擎，每个都有自己的专长：

Qwen3-TTS
：高质量多语言克隆，支持"说慢点"、"耳语"等语气指令
Qwen CustomVoice
：9 个精选预设声音，无需参考音频就能用
LuxTTS
：超轻量级，仅占 1GB 显存，CPU 上也能跑 150 倍实时速度
Chatterbox Multilingual
：支持语言最广，23 种语言全覆盖
Chatterbox Turbo
：支持 [笑]、[叹气]、[喘息] 等情感标签
HumeAI TADA
：能生成 700 秒以上的连贯音频
Kokoro
：82M 超小模型，提供 50 个精选预设声音

3️⃣ 全局语音输入

设置一个快捷键，在任何应用中都能按住说话，松开后自动转录成文字粘贴到当前输入框。Mac 上通过了无障碍认证，体验非常流畅。

如果你是开发者，这个功能特别实用——在 VS Code 里写代码时，直接按快捷键说出需求，文字自动出现，继续编辑就行。

4️⃣ AI 语音助手集成

Voicebox 内置了 MCP 服务器，任何支持 MCP 协议的 AI 客户端（Claude Code、Cursor、Cline 等）都能直接调用它的语音功能。

想象一下这个场景：你让 AI 帮你写代码，AI 不是用文字回复，而是用你克隆的声音直接"说"给你听。

5️⃣ 个性化语音角色

为每个语音配置绑定一个"性格"描述，然后用绑定的本地 LLM 进行文本重写。开启"角色扮演"模式后，AI 会用符合这个角色的语气和风格改写你的输入，再用对应的声音读出来。

创作对话、游戏配音、播客制作时，这个功能太强大了。

技术架构亮点

Voicebox 不是用 Electron 做的，而是用Tauri (Rust)构建原生应用，这意味着更小的内存占用和更好的性能。

后端采用 FastAPI (Python)，前端用 React + TypeScript，状态管理用 Zustand 和 React Query。整个技术栈非常现代，开源社区友好。

平台支持

macOS (Apple Silicon)
：使用 MLX 框架，通过 Neural Engine 加速，速度提升 4-5 倍
Windows / Linux (NVIDIA)
：PyTorch + CUDA，应用内自动下载 CUDA 运行时
Linux (AMD)
：PyTorch + ROCm，自动配置 HSA_OVERRIDE_GFX_VERSION
Windows (任意 GPU)
：DirectML，通用支持
Intel Arc
：IPEX/XPU 加速
纯 CPU 模式
：任何设备都能运行，就是慢点

实际应用场景

内容创作者

录制播客、有声书、视频配音，用克隆的声音保持一致性，配合 8 种音频后处理效果（音调偏移、混响、延迟、合唱等），专业度直接拉满。

开发者

给 AI Agent 加上语音输出，用户提问后，AI 用自然语音回答，不再是冷冰冰的文字。Voicebox 提供了完整的 REST API，集成到自己的应用非常方便。

辅助功能

对于有语言障碍的用户，Voicebox 可以帮助他们用自己的声音重新"说话"。预先录制好自己的声音样本，就能用文字输入生成语音输出。

开源协议

MIT License，完全免费，商业使用也没问题。项目在 GitHub 上已有 1.6k+ Stars，社区活跃，更新频繁。

竞争对手对比

功能	Voicebox	ElevenLabs	WisprFlow
价格	完全免费	按使用量付费	订阅制
数据隐私	本地运行	云端处理	云端处理
语音输入	✅ 支持	❌ 不支持	✅ 支持
语音输出	✅ 支持	✅ 支持	❌ 不支持
开源	✅ MIT	❌ 闭源	❌ 闭源
离线使用	✅ 支持	❌ 不支持	❌ 不支持

未来规划

根据项目的 Roadmap，这些功能正在开发中：

Windows / Linux 自动粘贴功能（追平 macOS 体验）
更多语音识别引擎（Parakeet v3、Qwen3-ASR），支持 50+ 语言
流式实时转录（WebSocket 接口）
端到端语音 LLM（Moshi、GLM-4-Voice、Qwen2.5 Omni）
文字描述生成声音（Voice Design）
双流录制器（麦克风 + 系统音频）
插件架构（支持自定义模型和转换器）

安装使用

macOS 用户

# Apple Silicon 下载 DMG 文件直接安装 # Intel Mac 也有对应的 DMG 安装包

Windows 用户

# 下载 MSI 安装包 双击运行即可

Docker 部署

docker compose up

开发者本地构建

git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # 创建 Python 虚拟环境，安装依赖 just dev # 启动后端 + 桌面应用

小结

Voicebox 是目前最完整的开源 AI 语音解决方案之一。它不仅提供了商业级的功能（语音克隆、多语言支持、情感标签），更重要的是坚持本地优先的隐私理念，所有数据都在你的机器上处理。

如果你在寻找 ElevenLabs 的免费替代品，或者想给 AI 项目加上语音功能，Voicebox 值得一试。

查看全文

http://www.jsqmd.com/news/892656/

美容SaaS平台冷启动难题破解（Lovable真实压测数据曝光：QPS 12,800下0.98%超时率）

2026广州发明专利申请哪家靠谱？实质审查答辩、预审加急、授权兜底、年费运维服务商测评清单 - 资讯快报

Lovable能源看板响应延迟超800ms？，性能调优工程师现场抓包定位Redis缓存穿透根因

如何让AI生成的文案更有“人味儿”？我试过的5个方法

答辩 PPT 熬到凌晨三点？PaperXie 一键生成 + 万套模板，帮你把时间抢回来

Switch-Toolbox：5个高效技巧掌握任天堂游戏文件编辑神器

Taotoken的Token Plan套餐为个人开发者带来的成本体感变化

2026 年 Ai 呼叫系统哪家靠谱：云蝠智能大众信赖 - 17329971652

Lovable翻译平台API网关设计：QPS从1.2万飙升至8.6万的关键11行代码优化实录

ArchR实战避坑指南：从scATAC-seq原始数据到细胞轨迹分析，我的完整复盘与参数调优心得

Unity生存游戏底层逻辑：代谢引擎与环境交互约束系统

2026 年外呼机器人哪家强：云蝠智能冠绝业内 - 13425704091

频率覆盖至8GHz：鼎讯信通 OM系列台式频谱分析仪重新定义台式频谱仪标准

解锁音乐自由：qmc-decoder如何重塑你的数字音乐体验

【Lovable社区合规与增长双引擎】：工信部备案+版号协同方案，2024最新过审路径曝光

2026 中国智慧文旅解决方案行业深度研究：湖南途记互联综合实力排名第一 - 资讯快报

企业级多租户认证系统：RBAC策略引擎与OAuth联邦实践

安徽百沃生物医药怎么样？中药材大型合作种植基地技术赋能农户增收 - 资讯快报

复盘】2026年5月26日（周二）

AR物体识别抖动原理与四层实战优化方案

机器学习赋能太阳能氢燃料电池小车：数据驱动的性能评估与工程实践

破解铁盒厂家采购痛点：DACP透明降本定制方法论如何降本30%？ - 资讯快报

2026 全国智慧景区建设服务商综合评测：湖南途记互联稳居行业排名第一 - 资讯快报

2026免费一键去水印工具怎么选？一键去水印工具实测推荐

物理信息机器学习超参数选择难题：PILE分数如何提供统计最优解？

AIC8800DC在Kali无法启用monitor mode的根源与修复

行业特色鲜明、以后不用愁就业的大学？基于多维能力的高校对比 - 资讯快报

2026合肥废旧家电回收排行榜，这些家电最值钱！ - 资讯快报

2026年杭州电商新星：哪家公司更值得信赖？

盘点2026无线鼠标哪个品牌质量好：迈从产品凭借优异表现获市场认可 - 资讯快报