当前位置：首页 > news >正文

微软开源最前沿语音 AI！三合一家族：60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话

news 2026/6/30 6:42:57

微软开源最前沿语音 AI！三合一家族：60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话

一句话介绍：VibeVoice 是微软开源的前沿语音 AI 模型家族，包含 ASR（语音识别）、TTS（语音合成）、Realtime（实时流式TTS）三大模型，全部基于 7.5Hz 超低帧率连续分词器和 Next-token Diffusion 框架打造，已被 ICLR 2026 录用为 Oral 论文。

1. 先看效果
2. 三大模型一览
3. 核心技术：7.5Hz + Next-token Diffusion
4. VibeVoice-ASR：60分钟长音频一次性转写
5. VibeVoice-TTS：90分钟多角色合成（已下架说明）
6. VibeVoice-Realtime：0.5B 参数实时流式TTS
7. 社区应用：Vibing 语音输入法
8. 总结与注意事项

1. 先看效果

VibeVoice 不是单一模型，而是一个语音 AI 模型家族，覆盖从语音识别（ASR）到语音合成（TTS）的完整链路。

三个模型，各司其职：

模型	方向	核心能力	体验链接
VibeVoice-ASR-7B	语音→文字	60分钟音频一次性转写，结构化输出	Playground
VibeVoice-TTS-1.5B	文字→语音	90分钟长音频，4人对话合成	~~已下架~~
VibeVoice-Realtime-0.5B	文字→语音	实时流式，300ms 低延迟，0.5B 轻量	Colab

🔗 GitHub：https://github.com/microsoft/VibeVoice
🤗 HuggingFace：Collection

2. 三大模型一览

VibeVoice-ASR-7B — 语音识别

一句话：输入60分钟音频，输出谁在什么时间说了什么，支持50+语言和自定义热词。

🕒 60分钟单次处理（不同于传统切片式模型）
📝 Who（说话人）+ When（时间戳）+ What（内容）结构化输出
👤 支持自定义热词（人名、技术术语、行业专有名词）
🌐50+语言原生支持
⚡vLLM 推理加速已支持

VibeVoice-TTS-1.5B — 语音合成

⚠️重要说明：2025年9月，微软已将 TTS 代码从仓库中下架，原因见后文「注意事项」。

一句话：输入文字，输出最长90分钟的说话音频，支持4个角色自然对话。

⏱️90分钟长音频单次生成（业界领先）
👥 支持4个角色同时对话
🎭 情感丰富，自然流畅
🌐 中英双语支持
已被ICLR 2026 录用为 Oral 论文🔥

VibeVoice-Realtime-0.5B — 实时流式合成

一句话：0.5B 参数轻量模型，300ms 首字延迟，流式输入，适合实时场景。

⚡0.5B 参数（部署友好，轻量级）
🚀300ms 首字延迟（实时交互门槛）
📥流式文本输入（边输入边播放）
⏱️约10分钟长文本稳定生成
🌍9种语言实验性支持（德/法/意/日/韩/荷/波/葡/西）+ 11种英语风格

3. 核心技术：7.5Hz + Next-token Diffusion

VibeVoice 系列的核心创新在于其连续语音分词器（Continuous Speech Tokenizer），工作帧率仅为7.5 Hz——也就是说，每秒钟只处理 7.5 个音频帧。

为什么 7.5Hz 这么重要？

传统语音模型通常以 50Hz 或更高的帧率处理音频序列。这意味着：

一段 60 分钟的音频 → 18 万个时间步
Transformer 对长序列的处理成本是 O(n²)

而 VibeVoice 用 7.5Hz 处理后：

60 分钟音频 → 2.7 万个 token（压缩 6.7 倍）
大幅降低计算成本，同时保留音频的关键信息

两大分词器

分词器	作用
Acoustic Tokenizer（声学分词器）	保留高保真音频细节
Semantic Tokenizer（语义分词器）	捕捉语言语义信息

两者结合，既不丢失音质，又大幅提升效率。

Next-token Diffusion 框架

文本输入 │ ▼ ┌──────────────────────────┐ │ LLM（基于 Qwen2.5-1.5B） │ │ 理解文本上下文和对话流程 │ └──────────┬───────────────┘ │ 语义向量 ▼ ┌──────────────────────────┐ │ Diffusion Head │ │ 逐步去噪，生成声学 token │ │ （类似图像生成的 DDPM 过程） │ └──────────┬───────────────┘ │ 声学 token（7.5Hz） ▼ ┌──────────────────────────┐ │ 声码器（Vocoder） │ │ 将 token 转换为波形音频 │ └──────────────────────────┘ │ ▼ 输出：高质量语音

核心思路：LLM 负责「说什么」（语义），Diffusion Head 负责「怎么说得好」（声学细节），各司其职。

4. VibeVoice-ASR：60分钟长音频一次性转写

这是目前 VibeVoice 家族中最活跃、功能最完整的模型。

相比传统 ASR 的优势

传统 ASR（如 Whisper）的做法是将长音频切成小段（30秒~30分钟），逐段识别，然后拼接。

问题是：每段独立识别，缺乏全局上下文——

说话人切换时容易混淆
长词组在段边界处被切断
专业术语识别率低

VibeVoice-ASR 的做法：

一次性接收64K token 的音频（约60分钟）
在完整的上下文语境下进行识别
说话人辨认（Speaker Diarization）+ 时间戳（Timestamps）+ 内容转写（ASR）三合一联合建模

自定义热词（Customized Hotwords）

# 示例：输入热词 ["多模态", "AGI", "Sam Altman", "H100", "Transformer"] # 结果：热词密集的段落识别准确率显著提升

热词可以是人名、技术术语、品牌名，行业黑话……对播客、课程、会议记录等场景特别有用。

性能对比

在官方 benchmark 上，VibeVoice-ASR 在以下指标上表现优异：

指标	说明	结论
DER（Diarization Error Rate）	说话人分离错误率	SOTA
cpWER（Character-level Pitch Word Error Rate）	字级错误率	领先
tcpWER（Timestamp-corrected Pitch Word Error Rate）	时间戳修正错误率	领先

使用方式

# 方式1：HuggingFace Transformers（v5.3.0+）fromtransformersimportAutoModelForSpeechSeq2Seq,AutoProcessor model_id="microsoft/VibeVoice-ASR"model=AutoModelForSpeechSeq2Seq.from_pretrained(model_id)processor=AutoProcessor.from_pretrained(model_id)# 方式2：Playground 在线体验# https://aka.ms/vibevoice-asr

⚡ vLLM 推理加速也支持，详见 vllm-asr 文档

5. VibeVoice-TTS：90分钟多角色合成（已下架说明）

能力回顾

VibeVoice-TTS-1.5B 支持：

90分钟长文本一次性合成（无需分段）
4个角色自然对话，角色一致性保持
中英双语 + 跨语言合成
情感表达自然

Demo 视频包括：英文合成、中文合成、跨语言合成（英→中）、即兴唱歌（Spontaneous Singing）、4人45分钟长对话等。

⚠️ 为什么会下架？

2025年9月5日，微软官方发布说明：

VibeVoice is an open-source research framework… After release, we discovered instances where the tool was used in ways inconsistent with the stated intent. Since responsible use of AI is one of Microsoft’s guiding principles, we have removed the VibeVoice-TTS code from this repository.

翻译：发布后发现了不当使用案例，违背了研究初衷，因此主动下架。这是微软负责任 AI 原则的体现。

注意：TTS 模型权重仍可在 HuggingFace 下载（microsoft/VibeVoice-1.5B），但代码已不可用，仅限学术研究。

6. VibeVoice-Realtime：0.5B 参数实时流式TTS

这是目前最适合实时交互场景的模型。

关键参数

指标	数值
参数量	0.5B（仅 5 亿参数，部署友好）
首字延迟	~300ms（业界领先）
输入方式	流式文本输入（边输边播）
长文本支持	约10分钟
实验性多语言	德/法/意/日/韩/荷/波/葡/西 + 11种英语风格

Colab 快速体验

# 直接打开 Colab 运行# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb

7. 社区应用：Vibing 语音输入法

社区基于 VibeVoice-ASR 构建了一款智能语音输入法——Vibing，已上架 Windows 和 macOS。

🎉 Vibing 现已基于 VibeVoice-ASR 提供语音识别能力。

平台	下载链接
macOS	DMG 下载
Windows Installer	Microsoft Store（推荐）
Windows Portable	ZIP 下载

8. 总结与注意事项

三大模型适用场景

模型	最佳场景
ASR-7B	播客转写、会议记录、多语言长音频整理、热词优化
TTS-1.5B	研究用途（代码已下架，权重仍可下载）
Realtime-0.5B	实时语音助手、语音交互、无障碍朗读

重要风险提示

VibeVoice 官方在 README 中明确指出以下风险：

⚠️深度伪造风险：高质量合成语音可能被滥用于冒充、欺诈或传播虚假信息。
⚠️TTS 代码已下架：微软出于负责任 AI 考虑，已撤下 TTS 代码，ASR 和 Realtime 继续开源。
⚠️研究用途声明：不建议将模型用于商业或实际应用，仅供研究和开发使用。

使用时请务必：

确保转写内容可靠，不传播虚假信息
遵守当地法律法规
在分享 AI 生成内容时主动披露

🔗 GitHub：https://github.com/microsoft/VibeVoice
🤗 模型下载：

VibeVoice-ASR-7B
VibeVoice-1.5B
VibeVoice-Realtime-0.5B
🎮 ASR Playground：https://aka.ms/vibevoice-asr
🚀 Realtime Colab：点击体验
📄 论文：
TTS：arXiv 2508.19205（ICLR 2026 Oral）
ASR：arXiv 2601.18184

标签： #语音AI #VibeVoice #ASR #TTS #ICLR #长音频 #流式语音

查看全文

http://www.jsqmd.com/news/635046/