当前位置：首页 > news >正文

微软开源 VibeVoice：60 分钟音频一次搞定，语音 AI 的格局变了

news 2026/6/7 16:33:58

传统 ASR 模型处理一小时音频要切成几十段，还得额外跑说话人分离。VibeVoice 一次搞定：60 分钟音频一次性输入，Who、When、What 一起输出。

这个项目解决什么问题？

语音识别存在一个老问题：短音频很好做，长音频就崩。

传统的 ASR 模型只能处理 30-60 秒的音频片段，长录音得靠切片→分别识别→拼接→再做说话人分离（diarization）。流程拆成三四步，每次切断语境，错误累积。

VibeVoice ASR 的思路是：把上下文窗口拉到 60 分钟。单个模型、一次推理、输出带说话人和时间戳的结构化转录。

核心亮点

1. 60 分钟单次处理——输入长达 64K token，覆盖一小时音频，不做切割。会议、讲座、播客一次性搞定。

2. 三合一输出——Who（说话人）、When（时间戳）、What（内容），一次推理全出。不需要额外跑 diarization。

3. 自定义热词——可以把专业术语、人名、产品名注册为热词，大幅提高领域识别准确率。

4. 实时 TTS——VibeVoice Realtime 0.5B 支持流式输入，延迟低到可以做语音助手。

快速上手

ASR 推理用 Hugging Face Transformers 直接跑：

fromtransformersimportpipelineimporttorch pipe=pipeline("automatic-speech-recognition",model="microsoft/VibeVoice-ASR-HF",chunk_length_s=60,return_timestamps="word",)result=pipe("meeting_recording.wav")print(result["text"])# 自动包含说话人标注 + 时间戳

技术要点

VibeVoice 的核心技术是7.5Hz 连续语音编码器：

传统做法是把语音切成离散的 token（类似文本的 BPE），但会丢失语调和韵律信息。VibeVoice 用连续向量表示语音——帧率低至 7.5 Hz，但保留了完整的音频保真度。

然后在这个连续编码上做下一 token 扩散（next-token diffusion）：用 LLM 理解语义上下文，用扩散头生成高保真音频细节。这套框架同时适用于 ASR 和 TTS。

我的评价

VibeVoice 的定位很聪明——它不是又造一个语音模型，而是重新定义了声学编码的方式。7.5 Hz 连续 tokenizer + next-token diffusion 的组合，让一个架构同时搞定理解和生成。

对比竞品：

维度	VibeVoice	Whisper	其他开源 ASR
最长音频	60 分钟	30 秒	30-60 秒
说话人分离	内置	无	需额外模型
热词支持	✅	❌	❌
TTS + ASR 统一架构	✅	❌	❌

不足：7B 参数 ASR 模型较吃显存；TTS 模块暂时只开放了 Realtime 0.5B；中英文混说的场景还有优化空间。

参考资料

[1] microsoft/VibeVoice - GitHub: https://github.com/microsoft/VibeVoice
[2] VibeVoice-ASR 技术报告: https://arxiv.org/pdf/2601.18184
[3] Hugging Face Model: https://huggingface.co/microsoft/VibeVoice-ASR-HF

查看全文

http://www.jsqmd.com/news/969146/