当前位置: 首页 > news >正文

微软开源 VibeVoice:60 分钟音频一次搞定,语音 AI 的格局变了

传统 ASR 模型处理一小时音频要切成几十段,还得额外跑说话人分离。VibeVoice 一次搞定:60 分钟音频一次性输入,Who、When、What 一起输出。


这个项目解决什么问题?

语音识别存在一个老问题:短音频很好做,长音频就崩

传统的 ASR 模型只能处理 30-60 秒的音频片段,长录音得靠切片→分别识别→拼接→再做说话人分离(diarization)。流程拆成三四步,每次切断语境,错误累积。

VibeVoice ASR 的思路是:把上下文窗口拉到 60 分钟。单个模型、一次推理、输出带说话人和时间戳的结构化转录。


核心亮点

1. 60 分钟单次处理——输入长达 64K token,覆盖一小时音频,不做切割。会议、讲座、播客一次性搞定。

2. 三合一输出——Who(说话人)、When(时间戳)、What(内容),一次推理全出。不需要额外跑 diarization。

3. 自定义热词——可以把专业术语、人名、产品名注册为热词,大幅提高领域识别准确率。

4. 实时 TTS——VibeVoice Realtime 0.5B 支持流式输入,延迟低到可以做语音助手。


快速上手

ASR 推理用 Hugging Face Transformers 直接跑:

fromtransformersimportpipelineimporttorch pipe=pipeline("automatic-speech-recognition",model="microsoft/VibeVoice-ASR-HF",chunk_length_s=60,return_timestamps="word",)result=pipe("meeting_recording.wav")print(result["text"])# 自动包含说话人标注 + 时间戳

技术要点

VibeVoice 的核心技术是7.5Hz 连续语音编码器

传统做法是把语音切成离散的 token(类似文本的 BPE),但会丢失语调和韵律信息。VibeVoice 用连续向量表示语音——帧率低至 7.5 Hz,但保留了完整的音频保真度。

然后在这个连续编码上做下一 token 扩散(next-token diffusion):用 LLM 理解语义上下文,用扩散头生成高保真音频细节。这套框架同时适用于 ASR 和 TTS。


我的评价

VibeVoice 的定位很聪明——它不是又造一个语音模型,而是重新定义了声学编码的方式。7.5 Hz 连续 tokenizer + next-token diffusion 的组合,让一个架构同时搞定理解和生成。

对比竞品:

维度VibeVoiceWhisper其他开源 ASR
最长音频60 分钟30 秒30-60 秒
说话人分离内置需额外模型
热词支持
TTS + ASR 统一架构

不足:7B 参数 ASR 模型较吃显存;TTS 模块暂时只开放了 Realtime 0.5B;中英文混说的场景还有优化空间。


参考资料

[1] microsoft/VibeVoice - GitHub: https://github.com/microsoft/VibeVoice
[2] VibeVoice-ASR 技术报告: https://arxiv.org/pdf/2601.18184
[3] Hugging Face Model: https://huggingface.co/microsoft/VibeVoice-ASR-HF

http://www.jsqmd.com/news/969146/

相关文章:

  • Adobe Illustrator脚本神器:如何用智能工具集提升10倍设计效率
  • 如何实现Windows硬件指纹伪装:EASY-HWID-SPOOFER技术深度解析
  • 从900MHz无绳电话拆解,掌握无线通信系统硬件与固件设计精髓
  • 2026 云浮漏水维修全攻略|苏易修缮:厨卫 / 阳台 / 外墙 / 屋顶 / 地下室|靠谱防水门店 - 苏易修缮
  • CSDN AI单次发文可行性白皮书(2024.06权威版):基于217次HTTP状态码抓包分析,仅剩2种合法路径
  • FPGA资源友好型Verilog指数计算模块(CORDIC定点实现)
  • OFDM符号定时同步三算法MATLAB对比仿真(SC/Minn/Park含度量曲线与BER分析)
  • LabVIEW读取带汉字的Excel表格,别再手动转.txt了!用报表工具一步到位
  • 弹幕格式转换架构解析与技术实现:DanmakuFactory企业级应用深度指南
  • GDA安卓逆向工具深度解析:从静态分析到动态调试的全链路安全解决方案
  • 别人都在拼Token单价,华为云为什么选了“第三条路“?
  • 从ROM到Flash:非易失存储器的核心原理与工程选型指南
  • 高效CAN数据库转换工具canmatrix:5分钟掌握多格式互转的完整指南
  • 1.初识Redis
  • 如何高效使用LOIC网络压力测试工具:从入门到实战的完整指南
  • 2026年最新亲测15款AI智能降重工具红黑榜!
  • Cursor Pro破解工具:如何突破AI编程助手试用限制的终极指南
  • Rust 的 RAII 与 Drop trait:从资源管理到确定性清理的底层实现
  • 停用CSDN AI数字营销后文章权重回落真相(百度站长平台+Search Console双源数据验证)
  • MATLAB调用ANSYS做机械臂轨迹跟踪闭环仿真,含MPC控制器与参数化结构建模
  • Citra 3DS模拟器:如何在PC上完美运行任天堂3DS游戏的终极指南
  • 2026 揭阳漏水维修全攻略|苏易修缮:厨卫 / 阳台 / 外墙 / 屋顶 / 地下室|靠谱防水门店 - 苏易修缮
  • USBCopyer:3分钟配置,实现U盘文件智能同步的Windows神器
  • 2026 东莞漏水维修全攻略|苏易修缮:厨卫 / 阳台 / 外墙 / 屋顶 / 地下室|靠谱防水门店 - 苏易修缮
  • 如何快速掌握存储设备管理:sg3_utils完整使用指南
  • AI提示词极限赛:从入门到精通的技术全景与实战指南
  • Android多架构Speex回音消除so库编译工程(含ARM/ARM64/x86全平台支持)
  • 【大白话说Java面试题 第101题】【并发篇】第1题:说一下 volatile 关键字的作用??
  • 【稀缺实操资料】CSDN AI企业账号多开备案模板(含加盖公章的《多账号运营声明书》范本+市场监管局咨询话术),仅限前200位技术负责人领取
  • Windows安卓应用安装器:3分钟搞定电脑运行安卓应用终极方案