当前位置: 首页 > news >正文

granite-4.0-1b-speech

我已经介绍过几款ASR模型,包括Parakeet、VibeVoice-ASR和Voxtral Mini 4B Realtime。最近,IBM发布了新的granite-4.0-1b-speech模型,该模型不仅支持多语言自动语音识别,还支持双向自动语音翻译。这个模型在ASR场景中表现良好,参数相对较少。

英语ASR词错误率Granite-4.0-1b-speech特性:

  • 新增配置关键词列表的功能,以增强名称和首字母缩写词的识别。
  • 支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的语言。
  • 与granite-speech-3.3-2b和granite-speech-3.3-8b模型相比,编码器和解码器经过优化,实现了更准确的转录质量和更快的推理速度。

1、本地部署

官方granite-4.0-1b-speech文档已经描述了如何使用transformersvLLM部署granite-4.0-1b-speech。本文将介绍如何使用mlx-audio在本地部署granite-4.0-1b-speech。

1.1 配置虚拟环境

uv venv .venv source .venv/bin/activate

1.2 安装mlx-audio

uv pip install "git+https://github.com/Blaizzy/mlx-audio.git" --prerelease=allow

1.3 下载模型

你可以根据计算机配置和实际需要下载相应的量化模型。

mlx granite-4.0-1b-speech

hf download mlx-community/granite-4.0-1b-speech-8bit --local-dir ./models/granite-4.0-1b-speech-8bit # 或者 hf download mlx-community/granite-4.0-1b-speech-bf16 --local-dir ./models/granite-4.0-1b-speech-bf16

1.4 运行Granite-4.0-1b-speech模型

ASR(转录)

为了测试Granite-4.0-1b-speech模型的ASR能力,我使用Vidpai内置的Kokoro引擎生成了对话音频。

s0: Hello, how are you today? s1: I'm doing great, thanks for asking! How about you? s0: I'm fine too. What are your plans for today? s1: I'm planning to work on some exciting projects.

生成音频后,将其重命名为audio.wav。当然,你也可以选择任何包含支持语言的音频文件。

from mlx_audio.stt import load model = load("models/granite-4.0-1b-speech-8bit") result = model.generate("audio.wav") print(result.text)

成功运行上述代码后,控制台将输出以下结果:

hello how are you today i'm doing great thanks for asking how about you i'm fine too what are your plans for today i'm planning to work on some exciting projects

与原始文本相比,ASR识别结果正确。对于长音频识别场景,我们可以设置stream参数来启用流式推理:

from mlx_audio.stt import load model = load("models/granite-4.0-1b-speech-8bit") for text in model.generate("audio.wav", stream=True): print(text, end="", flush=True)

值得注意的是,该模型不支持同时包含多种语言的混合音频,否则会在推理过程中抛出解码异常错误消息。

2、AST(语音翻译)

language参数启用语音翻译。可用值为:英语、法语、德语、西班牙语、葡萄牙语和日语。还支持每种语言的语言编码。

LANGUAGE_CODES = { "en": "English", "fr": "French", "de": "German", "es": "Spanish", "pt": "Portuguese", "ja": "Japanese", }

以下代码将英语音频文件(audio.wav)直接翻译成法语:

from mlx_audio.stt import load model = load("models/granite-4.0-1b-speech-8bit") # Translate speech to French (using language code) result = model.generate("audio.wav", language="fr") print(result.text)

运行上述代码后,将输出以下结果:

bonjour, comment allez-vous aujourd'hui ? je vais bien, merci pour m'en demander. et vous ? je vais bien, aussi. que pensez-vous de vos projets ?

将上述法语翻译成英语显示内容不完整:

Hello, how are you today? I'm fine, thank you for asking. And you? I'm fine too. What do you think of your plans?

由于我们的产品目前没有这个要求,我没有继续测试。如果你感兴趣,可以尝试granite-4.0-1b-speech-bf16模型或测试更多新的音频样本。

3、结束语

granite-4.0-1b-speech模型的创新之处在于其语音翻译功能,这比先进行转录然后再翻译要方便得多。然而,翻译的准确性仍然需要改进。如果你有多语言语音识别需求,建议你比较Nvidia Parakeet和OpenAI Whisper模型。


原文链接:granite-4.0-1b-speech - 汇智网

http://www.jsqmd.com/news/491945/

相关文章:

  • DNS 验证验证SSL证书
  • app开发转framework系统工程师窗口显示方向面试真题
  • 操作Excel库文件比较
  • 国内高质量电压击穿试验机厂家推荐,谁的技术实力更强? - 品牌推荐大师
  • 国产机床整机vs国际品牌:技术差距还有多大?2026年采购决策的核心考量 - 品牌推荐大师1
  • 基于布谷鸟优化算法优化最小二乘支持向量机(CSO-LSSVM)的数据分类预测 CSO-LSSV...
  • 供应链OpenClaw
  • 周报——20260309-20260315
  • 德希科技水质监测仪厂家
  • Mac+PC双系统如何共享双屏?KVM切换器选购的5个关键指标|TESmart用户真实体验复盘
  • 好写作AI:硕士论文实验结果讨论的三大策略,审稿人看了直点头!
  • AI玩具芯片源头厂家哪家专业
  • 【Iced】core库几何数学结构体Point(point.rs)
  • 英语_阅读_Chinese architecture_待读
  • 期货程序化交易断线重连与订单状态同步
  • 【教程】OpenClaw(Clawdbot)京东云1分钟保姆级搭建流程
  • AI 时代全栈开发的“破局之道”:TypeScript 生态实战,让 AI 真正为你所用
  • 独居老人居家看护避坑指南:带你读懂“银发宝”的隐形守护逻辑
  • 2026 年 Java 后端面试题,吃透 20 套专题技术栈
  • 【C++ STL】适配器简单介绍
  • Obsidian 笔记软件使用教程
  • 关闭windows安全中心
  • 拆解Socks5代理:从定义到原理,小白也能看懂
  • 大模型指令微调数据筛选:从“粗粮”到“精粮”的炼金术
  • TFT-LCD液晶高精度电路板微米级激光修复
  • 探索 simpack CRH2 型高铁车辆模型与轨道谱激励
  • 【亲测】OpenClaw(Clawdbot)华为云2分钟喂饭级安装方法
  • 进军高端制造“俱乐部”:智石开PLM在复杂产品研发领域的突破性应用排名
  • AI 抠图 API 接入实战:3 行代码实现图片自动去背景(Python / Java / PHP / JS)
  • 好写作AI:本科生初稿写作避坑指南——这5个雷区,踩中一个都要命!