当前位置: 首页 > news >正文

微软开源最前沿语音 AI!三合一家族:60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话

微软开源最前沿语音 AI!三合一家族:60分钟语音转文字 / 90分钟多角色合成 / 实时流式说话

一句话介绍:VibeVoice 是微软开源的前沿语音 AI 模型家族,包含 ASR(语音识别)、TTS(语音合成)、Realtime(实时流式TTS)三大模型,全部基于 7.5Hz 超低帧率连续分词器和 Next-token Diffusion 框架打造,已被 ICLR 2026 录用为 Oral 论文。

目录

  • 1. 先看效果
  • 2. 三大模型一览
  • 3. 核心技术:7.5Hz + Next-token Diffusion
  • 4. VibeVoice-ASR:60分钟长音频一次性转写
  • 5. VibeVoice-TTS:90分钟多角色合成(已下架说明)
  • 6. VibeVoice-Realtime:0.5B 参数实时流式TTS
  • 7. 社区应用:Vibing 语音输入法
  • 8. 总结与注意事项

1. 先看效果

VibeVoice 不是单一模型,而是一个语音 AI 模型家族,覆盖从语音识别(ASR)到语音合成(TTS)的完整链路。

三个模型,各司其职:

模型方向核心能力体验链接
VibeVoice-ASR-7B语音→文字60分钟音频一次性转写,结构化输出Playground
VibeVoice-TTS-1.5B文字→语音90分钟长音频,4人对话合成已下架
VibeVoice-Realtime-0.5B文字→语音实时流式,300ms 低延迟,0.5B 轻量Colab

🔗 GitHub:https://github.com/microsoft/VibeVoice
🤗 HuggingFace:Collection


2. 三大模型一览

VibeVoice-ASR-7B — 语音识别

一句话:输入60分钟音频,输出谁在什么时间说了什么,支持50+语言和自定义热词。

  • 🕒 60分钟单次处理(不同于传统切片式模型)
  • 📝 Who(说话人)+ When(时间戳)+ What(内容)结构化输出
  • 👤 支持自定义热词(人名、技术术语、行业专有名词)
  • 🌐50+语言原生支持
  • vLLM 推理加速已支持

VibeVoice-TTS-1.5B — 语音合成

⚠️重要说明:2025年9月,微软已将 TTS 代码从仓库中下架,原因见后文「注意事项」。

一句话:输入文字,输出最长90分钟的说话音频,支持4个角色自然对话。

  • ⏱️90分钟长音频单次生成(业界领先)
  • 👥 支持4个角色同时对话
  • 🎭 情感丰富,自然流畅
  • 🌐 中英双语支持
  • 已被ICLR 2026 录用为 Oral 论文🔥

VibeVoice-Realtime-0.5B — 实时流式合成

一句话:0.5B 参数轻量模型,300ms 首字延迟,流式输入,适合实时场景。

  • 0.5B 参数(部署友好,轻量级)
  • 🚀300ms 首字延迟(实时交互门槛)
  • 📥流式文本输入(边输入边播放)
  • ⏱️约10分钟长文本稳定生成
  • 🌍9种语言实验性支持(德/法/意/日/韩/荷/波/葡/西)+ 11种英语风格

3. 核心技术:7.5Hz + Next-token Diffusion

VibeVoice 系列的核心创新在于其连续语音分词器(Continuous Speech Tokenizer),工作帧率仅为7.5 Hz——也就是说,每秒钟只处理 7.5 个音频帧。

为什么 7.5Hz 这么重要?

传统语音模型通常以 50Hz 或更高的帧率处理音频序列。这意味着:

  • 一段 60 分钟的音频 → 18 万个时间步
  • Transformer 对长序列的处理成本是 O(n²)

而 VibeVoice 用 7.5Hz 处理后:

  • 60 分钟音频 → 2.7 万个 token(压缩 6.7 倍)
  • 大幅降低计算成本,同时保留音频的关键信息

两大分词器

分词器作用
Acoustic Tokenizer(声学分词器)保留高保真音频细节
Semantic Tokenizer(语义分词器)捕捉语言语义信息

两者结合,既不丢失音质,又大幅提升效率。

Next-token Diffusion 框架

文本输入 │ ▼ ┌──────────────────────────┐ │ LLM(基于 Qwen2.5-1.5B) │ │ 理解文本上下文和对话流程 │ └──────────┬───────────────┘ │ 语义向量 ▼ ┌──────────────────────────┐ │ Diffusion Head │ │ 逐步去噪,生成声学 token │ │ (类似图像生成的 DDPM 过程) │ └──────────┬───────────────┘ │ 声学 token(7.5Hz) ▼ ┌──────────────────────────┐ │ 声码器(Vocoder) │ │ 将 token 转换为波形音频 │ └──────────────────────────┘ │ ▼ 输出:高质量语音

核心思路:LLM 负责「说什么」(语义),Diffusion Head 负责「怎么说得好」(声学细节),各司其职。


4. VibeVoice-ASR:60分钟长音频一次性转写

这是目前 VibeVoice 家族中最活跃、功能最完整的模型。

相比传统 ASR 的优势

传统 ASR(如 Whisper)的做法是将长音频切成小段(30秒~30分钟),逐段识别,然后拼接。

问题是:每段独立识别,缺乏全局上下文——

  • 说话人切换时容易混淆
  • 长词组在段边界处被切断
  • 专业术语识别率低

VibeVoice-ASR 的做法:

  • 一次性接收64K token 的音频(约60分钟)
  • 在完整的上下文语境下进行识别
  • 说话人辨认(Speaker Diarization)+ 时间戳(Timestamps)+ 内容转写(ASR)三合一联合建模

自定义热词(Customized Hotwords)

# 示例:输入热词 ["多模态", "AGI", "Sam Altman", "H100", "Transformer"] # 结果:热词密集的段落识别准确率显著提升

热词可以是人名、技术术语、品牌名,行业黑话……对播客、课程、会议记录等场景特别有用。

性能对比

在官方 benchmark 上,VibeVoice-ASR 在以下指标上表现优异:

指标说明结论
DER(Diarization Error Rate)说话人分离错误率SOTA
cpWER(Character-level Pitch Word Error Rate)字级错误率领先
tcpWER(Timestamp-corrected Pitch Word Error Rate)时间戳修正错误率领先

使用方式

# 方式1:HuggingFace Transformers(v5.3.0+)fromtransformersimportAutoModelForSpeechSeq2Seq,AutoProcessor model_id="microsoft/VibeVoice-ASR"model=AutoModelForSpeechSeq2Seq.from_pretrained(model_id)processor=AutoProcessor.from_pretrained(model_id)# 方式2:Playground 在线体验# https://aka.ms/vibevoice-asr

⚡ vLLM 推理加速也支持,详见 vllm-asr 文档


5. VibeVoice-TTS:90分钟多角色合成(已下架说明)

能力回顾

VibeVoice-TTS-1.5B 支持:

  • 90分钟长文本一次性合成(无需分段)
  • 4个角色自然对话,角色一致性保持
  • 中英双语 + 跨语言合成
  • 情感表达自然

Demo 视频包括:英文合成、中文合成、跨语言合成(英→中)、即兴唱歌(Spontaneous Singing)、4人45分钟长对话等。

⚠️ 为什么会下架?

2025年9月5日,微软官方发布说明:

VibeVoice is an open-source research framework… After release, we discovered instances where the tool was used in ways inconsistent with the stated intent. Since responsible use of AI is one of Microsoft’s guiding principles, we have removed the VibeVoice-TTS code from this repository.

翻译:发布后发现了不当使用案例,违背了研究初衷,因此主动下架。这是微软负责任 AI 原则的体现。

注意:TTS 模型权重仍可在 HuggingFace 下载(microsoft/VibeVoice-1.5B),但代码已不可用,仅限学术研究。


6. VibeVoice-Realtime:0.5B 参数实时流式TTS

这是目前最适合实时交互场景的模型。

关键参数

指标数值
参数量0.5B(仅 5 亿参数,部署友好)
首字延迟~300ms(业界领先)
输入方式流式文本输入(边输边播)
长文本支持10分钟
实验性多语言德/法/意/日/韩/荷/波/葡/西 + 11种英语风格

Colab 快速体验

# 直接打开 Colab 运行# https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb

7. 社区应用:Vibing 语音输入法

社区基于 VibeVoice-ASR 构建了一款智能语音输入法——Vibing,已上架 Windows 和 macOS。

🎉 Vibing 现已基于 VibeVoice-ASR 提供语音识别能力。

平台下载链接
macOSDMG 下载
Windows InstallerMicrosoft Store(推荐)
Windows PortableZIP 下载

8. 总结与注意事项

三大模型适用场景

模型最佳场景
ASR-7B播客转写、会议记录、多语言长音频整理、热词优化
TTS-1.5B研究用途(代码已下架,权重仍可下载)
Realtime-0.5B实时语音助手、语音交互、无障碍朗读

重要风险提示

VibeVoice 官方在 README 中明确指出以下风险:

⚠️深度伪造风险:高质量合成语音可能被滥用于冒充、欺诈或传播虚假信息。

⚠️TTS 代码已下架:微软出于负责任 AI 考虑,已撤下 TTS 代码,ASR 和 Realtime 继续开源。

⚠️研究用途声明:不建议将模型用于商业或实际应用,仅供研究和开发使用。

使用时请务必:

  • 确保转写内容可靠,不传播虚假信息
  • 遵守当地法律法规
  • 在分享 AI 生成内容时主动披露

🔗 GitHub:https://github.com/microsoft/VibeVoice
🤗 模型下载:

  • VibeVoice-ASR-7B
  • VibeVoice-1.5B
  • VibeVoice-Realtime-0.5B
    🎮 ASR Playground:https://aka.ms/vibevoice-asr
    🚀 Realtime Colab:点击体验
    📄 论文:
  • TTS:arXiv 2508.19205(ICLR 2026 Oral)
  • ASR:arXiv 2601.18184

标签: #语音AI #VibeVoice #ASR #TTS #ICLR #长音频 #流式语音

http://www.jsqmd.com/news/635046/

相关文章:

  • 2026年贵州智慧停车与智能安防一站式解决方案深度指南|鼎鸿盛官方联系方式 - 精选优质企业推荐榜
  • Springboot 实现多数据源(PostgreSQL 和 SQL Server)连接匚
  • OpenCV 疲劳检测实战:用 dlib 计算眼睛纵横比 (EAR)
  • Gemini 3.1 国内使用教程(2026 最新实测)|无需复杂环境,稳定可用方案
  • IOFILE结构体的介绍与House of orange瓤
  • Python游戏音效实战:用Pygame混音器实现背景音乐循环播放(附常见问题解决)
  • 解决Ceres安装后absei缺失问题的完整指南
  • STC15单片机定时器/计数器:16位自动重装载模式实战解析
  • Python电子书处理终极指南:如何高效使用EbookLib库进行EPUB编程
  • 宝塔面板开机自启踩坑记:从手动重启到Systemd自动化,我总结了这几点经验
  • 精选五大优质 18 导心电图机厂家推荐,适配多场景医疗需求 - 品牌2026
  • 【实战篇】【设计指南】从波特图到带宽优化:放大电路频率响应的工程实践
  • Campus-Imaotai:基于Spring Boot的茅台自动化预约系统架构深度解析与实战部署指南
  • 如何免费解锁AI编程助手:三步终极指南
  • 【限时解密】SITS2026官方未公布的隐藏维度:框架对Ollama本地模型热切换支持度、多租户Agent隔离强度、以及国产信创环境适配成熟度(麒麟V10/统信UOS实测排名)
  • EcomGPT电商大模型效果展示:AI将‘V领收腰显瘦’转化为英文SEO友好描述
  • VMagicMirror:零门槛的虚拟形象驱动软件,用键盘鼠标就能让VRM模型动起来
  • Qt 定时器(QTimer)实战指南:从基础应用到高级技巧
  • 从零到实战:在Vivado里用国产BR3109芯片搭建JESD204B收发链路(FPGA篇)
  • 浏览器自动化测试结合AI:Nanbeige 4.1-3B生成智能测试脚本
  • 写段代码教会你什么是HOOK技术?HOOK技术能干什么?棺
  • 排序——代码演示
  • Docker 容器中运行 AI CLI 工具:用户隔离与持久化卷实战指南斜
  • 【深度解析】Python异步编程:为何‘async with’必须安居于async函数之内?
  • BEAST 2:3个关键步骤掌握贝叶斯系统发育分析
  • CasRel模型部署实战:GPU算力优化下的高效SPO抽取案例
  • Qwen3-ASR-0.6B企业级运维:Prometheus+Grafana监控GPU/内存/请求QPS
  • ETM vs. Abstract Model: Key Differences and Practical Applications in Hierarchical Design
  • 精细化网站导航:巧用CSS和JavaScript
  • 从Anthropic到阿里云:手把手教你配置主流MCP平台(Smithery/百炼/PulseMCP)