当前位置: 首页 > news >正文

阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音“秒级转写”

语音 Agent 首字响应慢,很多人以为是 LLM 的锅。其实真正的延时瓶颈常在ASR(自动语音识别):传统的逐 token 串行输出——一段 5 分钟音频,要等几十秒才能拿到完整转写结果,整条链路卡在这一步。

StepAudio 2.5 ASR 引入 MTP 技术,单步并行预测多个 Token,大幅削减串行等待周期,5 分钟音频 1 秒出头即可出完整转写结果


核心亮点

1. 极速推理:速度提升 400%,成本直降 80%

阶跃星辰全球首次将大语言模型领域的Multi-Token Prediction(MTP,多 Token 预测)技术引入语音识别领域,彻底重构 ASR 解码流水线。

传统 ASR 受限于自回归架构,必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后,单步可并行预测多个 Token,通过候选验证机制大幅削减等待周期,让 ASR 快如闪电。

实测数据:

指标数值
算力成本直降 80%,API 定价 0.15 元/小时,刷新行业底价。
RTF(引擎侧)0.0053,即转写1 小时音频仅需约19 秒
吞吐量提升+400%,同等算力下并发路数提升至原先 5 倍
时延降低60%,5 分钟音频 1 秒内出结果
推理速度极限500 tokens/s

什么是RTFRTF(Real-Time Factor,实时率)是语音识别领域的标准速度指标,表示"处理 1 秒音频所需的计算时间"。RTF 越小越快:RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒,转写 1 小时音频约 19 秒即可完成。

测试说明:以下数据均为引擎侧 RTF,测试条件为单并发推理多条30s音频后取RTF均值;除 Doubao ASR 走官方 API 外,其余模型均在本地 H800 卡推理,测试环境存在差异,供参考。

竞品RTF对比:

StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近2 倍,是 VibeVoice、Doubao 等主流方案的10~20 倍


2. SOTA 转写精度

基于4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。


价格与接入

API 定价:0.15 元/小时,仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用

接入:API 调用中替换模型名为stepaudio-2.5-asr即可迁移,接入参考下方API文档


适用场景

Voice Agent、大规模转写服务、实时字幕/直播。


体验入口:

  • 阶跃星辰开放平台(API文档):
  • https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr

  • Step Plan:
  • https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api

  • 在线体验:
  • https://www.stepfun.com/studio/audio?tab=speech-recognition

  • Demo Page:
  • https://stepaudiollm.github.io/step-audio-2.5-asr

  • Model Card:
  • https://stepaudiollm.github.io/step-audio-2.5-asr/model-card

http://www.jsqmd.com/news/699853/

相关文章:

  • 如何让旧iPhone/iPad重获新生?Legacy iOS Kit完全指南
  • 多智能体协作自动化编排与拆解SKILL
  • RP2040与MicroMod开发板的嵌入式快速原型设计实践
  • GoFr框架:加速微服务开发的Go语言利器
  • 最强生图模型GPT-image-2,一手深度测评,附教程
  • git 分支 实战
  • AI记忆系统核心架构解析:从向量检索到MemoryOS实践
  • 变频器为什么要加制动电阻?该怎么选型?
  • 招聘 Agent:JD 解析、简历筛选与面试题生成的可控方案
  • 警惕AI CRM的“监控”陷阱:从技术视角谈隐私保护与数据主权的设计边界
  • 2026年3月做得好的水果礼盒品牌推荐,香妃果礼盒/鸡心果礼盒/水果礼盒/小苹果礼盒/海棠果礼盒,水果礼盒实力厂家选哪家 - 品牌推荐师
  • SNK施努卡新能源电池盒下箱体错漏装CCD在线检测解决方案
  • 嵌入式C语言适配LLM推理引擎的5大反模式(ARM Cortex-M4实测崩溃现场还原+修复前后性能对比Δ=3.8×)
  • 超元力无限方舟:创新全感沉浸,重塑沉浸式娱乐体验
  • kohya _ss训练stable-diffusion-LoRA模型保姆级教程(详细)
  • GitHub 热门项目 | 2026年04月25日
  • 深度学习在计算机视觉中的核心优势与应用实践
  • Hermes Agent 整合 OpenCode CLI 的实战经验
  • Redisson 介绍
  • 朴素分类器概率评估与优化实战
  • D6.3 PriorityClass 常用实验(2个)
  • DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿
  • AutoCAD字体缺失终结者:FontCenter插件完整使用指南
  • Apache Doris 4.1:面向 AI Search 的统一数据存储与检索底座
  • DeepBump:从单张图片智能生成法线贴图的终极指南
  • 基于LLM嵌入的语义搜索引擎构建与实践
  • C++编写超低延迟MCP网关的成本控制实战(腾讯/蚂蚁级网关架构师内部分享·仅限首批200位开发者)
  • 工业Modbus调试神器:5分钟掌握OpenModScan,告别通讯故障烦恼
  • 打破传统娱乐局限,超元力无限方舟重塑沉浸体验新范式
  • 2026深度分析罗兰艺境化工材料GEO技术案例,测评景县密封件制造企业景顺密封优化过程与效果验证 - 罗兰艺境GEO