当前位置：首页 > news >正文

免费开源！3 秒克隆声音、100%本地运行，AI 配音进入原生桌面时代

news 2026/6/25 10:29:16

GitHub 已突破23,000+ Star，这个项目正在悄悄改变AI语音赛道的格局。

先说结论

如果你还在为ElevenLabs 的订阅费发愁，或者担心声音数据被上传到云端——Voicebox来了。

完全免费、完全开源、完全本地运行。声音克隆、语音输入、AI配音，一个应用全包了。

先认识一下ElevenLabs

ElevenLabs 是目前全球最火的AI 语音平台，成立于 2022 年，总部在美国，估值已超过 30 亿美元。

它能做什么？简单说：上传几秒钟的音频，AI 就能克隆这个人的声音，然后用这个声音朗读任意文字。音质效果在业内属于顶尖水准，支持 30 多种语言，大量播客主、有声书作者、短视频创作者都在用它做配音。

但它有几个明显的问题：

•贵：免费版每月只有约1 万字符的额度，超出就要付费，专业版每月订阅费$22 起

•隐私存疑：声音数据全部上传到云端服务器处理，数据归属和安全性一直是用户担忧的问题

•依赖网络：断网或服务器故障，直接停工

正是这些痛点，给了Voicebox 机会。

它到底是什么？

Voicebox是一款开源的本地AI 语音工作室，由开发者 jamiepine 构建，项目地址在GitHub（jamiepine/voicebox）。

官方定位非常直白：ElevenLabs + WisprFlow 的免费开源替代品，合二为一，跑在你自己的机器上。

•ElevenLabs 做语音输出（TTS/声音克隆）

•WisprFlow 做语音输入（语音转文字/听写）

•Voicebox 全都要，还加了本地大模型，数据一个字节都不出你的电脑

核心亮点拆解

3秒克隆任意声音

只需要几秒钟的参考音频，Voicebox 就能克隆该声音并用它来生成任意内容。底层支持7 种 TTS 引擎，可以按需切换：

引擎	特点
Qwen3-TTS	阿里开源，高质量多语言克隆，支持"慢速朗读""低声说话"等指令控制
Chatterbox Multilingual	支持 23 种语言，覆盖阿拉伯语、日语、印地语、斯瓦希里语等
Chatterbox Turbo	快速轻量，支持 [laugh]、[sigh]、[gasp] 等情感标签
Kokoro	仅 82M 参数，CPU 即可飞速推理，内置 50 个预设音色
TADA（HumeAI）	可生成 700 秒以上连贯音频

不想克隆自己的声音？直接用内置的 50+ 预设音色也完全没问题。

100% 本地运行，隐私零泄露

这是Voicebox 最核心的竞争力。

所有模型、所有声音数据、所有录音捕获，全部留在你的本地机器上，永远不会上传到任何服务器。

对于内容创作者、播客主播、企业用户来说，这一点尤为重要。

跨平台支持，配置友好

平台	加速后端
macOS 苹果芯片	MLX / Metal，速度提升 4-5 倍
Windows（NVIDIA）	CUDA
Linux（AMD）	ROCm
任意设备	CPU（慢一点，但能跑）

直接到官网voicebox.sh 下载安装包，macOS / Windows 均有一键安装版本。

全局听写热键，说话替代打字

按住快捷键，开口说话，松开——文字自动粘贴到你当前聚焦的任何输入框。

macOS 上已经做到了无障碍级别的精准注入，不会误操作剪贴板。这个功能对效率党和有打字障碍的用户来说，几乎是刚需级别的体验。

让AI Agent 开口说话

这个功能相当超前。

Voicebox 内置了MCP 服务器，任何支持MCP 协议的AI 编程助手（比如Claude Code、Cursor）都可以调用voicebox.speak 工具，让AI 用你克隆的声音说话：

// AI 任务完成后，用克隆的"Morgan"声音播报结果

await voicebox.speak({

text: "部署完成。",

profile: "Morgan",

});

调试代码时，AI 完成任务会主动开口告诉你——这个体验，目前市面上几乎找不到第二家。

故事编辑器 + 音频后处理

内置多音轨时间线编辑器，可以混合多个声音角色，制作对话、播客、叙事内容。

后处理效果支持：混响、延迟、合唱、变调、压缩、高/低通滤波……还附带"机器人声"、"广播声"、"回声房间"等预设方案。

技术栈一览（给开发者）

•桌面框架：Tauri（Rust），性能远超Electron

•前端：React + TypeScript + Tailwind CSS

•后端：Python FastAPI

•推理：MLX（苹果芯片）/ PyTorch（其他平台）

•数据库：SQLite

•完全开源，MIT 许可证

怎么上手？

普通用户：直接去voicebox.sh 下载对应平台的安装包，一键安装。

开发者：bash

git clone https://github.com/jamiepine/voicebox.git

cd voicebox

just setup # 初始化Python 环境，安装依赖

just dev # 启动后端 + 桌面应用

写在最后

AI 语音领域过去一直是云服务的天下——贵、慢、隐私存疑。

Voicebox 用一个开源项目，把这三个问题一次性解决掉了。

23,000+ GitHub Star 不会说谎。这款工具值得每一个关注AI 效率工具的人亲手试一试。

更多transformer，VIT，swin tranformer 参考头条号：人工智能研究所 v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

查看全文

http://www.jsqmd.com/news/778190/

3-2大逆转！蓉城踢疯了，中超冠军真能直接颁奖？

Cursor AI编辑器历史版本自动归档工具：Node.js实现多平台下载链接管理

PostgreSQL AI向量扩展pgai实战：从原理到RAG应用部署

有没有一种可能，现在的大语言模型已经发展得接近极限了？

2026 石家庄工业自动化培训择校指南纯实操导向机构全解析 - 资讯焦点

从零开始：Gemini 3.1 Pro解决多文档合并与逻辑校验问题

2026西药执业药师考前密押卷，哪家机构的答案解析最详细？ - 医考机构品牌测评专家

为Claude Code构建本地记忆引擎：基于MCP与向量数据库的持久化上下文解决方案

面试八股真题统计与面经

Florr.io新版下水道与蚂蚁地狱实战解析：史诗卡获取与高危区域生存手册

开源AI智能体平台Clawless：从核心架构到自动化工作流实战

15.【Verilog】Verilog 时钟简介

98%准确率！这个双分支AI模型，精准识别木薯叶病害（附代码）

Lovart 上线 GPT Image 2 模型，会员首月不限量使用

别再乱改Apollo了！Spring Boot配置加载顺序深度解析：从local到namespace的优先级实战

靠谱服务商甄选！2026动画制作服务机构推荐排行全案定制/极速交付/长效售后 - 极欧测评

SnoutGuard实战：Go语言轻量级日志分析与主动防御工具部署指南

开源云成本追踪工具mango-costs：架构解析与实战部署指南

2026年5月家用电梯十大品牌技术解析与选购指南 - 速递信息

基于OpenClaw的WordPress自动化内容发布机器人实战指南

【Java】解决跨域问题的 8 种方案

2026年四川发光字招牌制作灯箱制作TOP采购榜单：综合实力与用户口碑双维度测评 - 深度智识库

开源电商系统架构解析：从技术选型到核心模块实战

kafka 集群部署

语言模型在沟通障碍场景下的性能优化实践

clawplay：基于Python的剧本化Web自动化与数据抓取框架实战

中层管理者眼中的“A小姐”与“C先生”：绩效考核之外考验管理者的逆向领导力

SPG：扩散语言模型的稳定强化学习策略梯度方法

祛痘泥膜哪个牌子好12天深度排浊净肌，告别脸蛋脏闷感 - 全网最美

什么去黑头泥膜好用 7 天搞定顽固性黑头，亲测巨有效 - 全网最美

相关文章：