阶跃 StepAudio 2.5 ASR 上线!500TPS 极速推理,30分钟语音“秒级转写”
语音 Agent 首字响应慢,很多人以为是 LLM 的锅。其实真正的延时瓶颈常在ASR(自动语音识别):传统的逐 token 串行输出——一段 5 分钟音频,要等几十秒才能拿到完整转写结果,整条链路卡在这一步。
StepAudio 2.5 ASR 引入 MTP 技术,单步并行预测多个 Token,大幅削减串行等待周期,5 分钟音频 1 秒出头即可出完整转写结果。
核心亮点
1. 极速推理:速度提升 400%,成本直降 80%
阶跃星辰全球首次将大语言模型领域的Multi-Token Prediction(MTP,多 Token 预测)技术引入语音识别领域,彻底重构 ASR 解码流水线。
传统 ASR 受限于自回归架构,必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后,单步可并行预测多个 Token,通过候选验证机制大幅削减等待周期,让 ASR 快如闪电。
实测数据:
| 指标 | 数值 |
| 算力成本 | 直降 80%,API 定价 0.15 元/小时,刷新行业底价。 |
| RTF(引擎侧) | 0.0053,即转写1 小时音频仅需约19 秒 |
| 吞吐量提升 | +400%,同等算力下并发路数提升至原先 5 倍 |
| 时延降低 | 60%,5 分钟音频 1 秒内出结果 |
| 推理速度 | 极限500 tokens/s |
什么是RTF?RTF(Real-Time Factor,实时率)是语音识别领域的标准速度指标,表示"处理 1 秒音频所需的计算时间"。RTF 越小越快:RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒,转写 1 小时音频约 19 秒即可完成。
测试说明:以下数据均为引擎侧 RTF,测试条件为单并发推理多条30s音频后取RTF均值;除 Doubao ASR 走官方 API 外,其余模型均在本地 H800 卡推理,测试环境存在差异,供参考。
竞品RTF对比:
StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近2 倍,是 VibeVoice、Doubao 等主流方案的10~20 倍。
2. SOTA 转写精度
基于4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。
价格与接入
API 定价:0.15 元/小时,仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用。
接入:API 调用中替换模型名为stepaudio-2.5-asr即可迁移,接入参考下方API文档
适用场景
Voice Agent、大规模转写服务、实时字幕/直播。
体验入口:
- 阶跃星辰开放平台(API文档):
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
- Step Plan:
https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
- 在线体验:
https://www.stepfun.com/studio/audio?tab=speech-recognition
- Demo Page:
https://stepaudiollm.github.io/step-audio-2.5-asr
- Model Card:
https://stepaudiollm.github.io/step-audio-2.5-asr/model-card
