当前位置：首页 > news >正文

阶跃 StepAudio 2.5 ASR 上线！500TPS 极速推理，30分钟语音“秒级转写”

news 2026/6/21 17:42:19

语音 Agent 首字响应慢，很多人以为是 LLM 的锅。其实真正的延时瓶颈常在ASR（自动语音识别）：传统的逐 token 串行输出——一段 5 分钟音频，要等几十秒才能拿到完整转写结果，整条链路卡在这一步。

StepAudio 2.5 ASR 引入 MTP 技术，单步并行预测多个 Token，大幅削减串行等待周期，5 分钟音频 1 秒出头即可出完整转写结果。

核心亮点

1. 极速推理：速度提升 400%，成本直降 80%

阶跃星辰全球首次将大语言模型领域的Multi-Token Prediction（MTP，多 Token 预测）技术引入语音识别领域，彻底重构 ASR 解码流水线。

传统 ASR 受限于自回归架构，必须逐 Token 串行生成——每个字必须等上一个字出来才能开始预测。StepAudio 2.5 ASR 引入 MTP 后，单步可并行预测多个 Token，通过候选验证机制大幅削减等待周期，让 ASR 快如闪电。

实测数据：

指标	数值
算力成本	直降 80%，API 定价 0.15 元/小时，刷新行业底价。
RTF（引擎侧）	0.0053，即转写1 小时音频仅需约19 秒
吞吐量提升	+400%，同等算力下并发路数提升至原先 5 倍
时延降低	60%，5 分钟音频 1 秒内出结果
推理速度	极限500 tokens/s

什么是RTF？RTF（Real-Time Factor，实时率）是语音识别领域的标准速度指标，表示"处理 1 秒音频所需的计算时间"。RTF 越小越快：RTF = 0.0053 意味着处理 1 秒音频只需 0.0053 秒，转写 1 小时音频约 19 秒即可完成。
测试说明：以下数据均为引擎侧 RTF，测试条件为单并发推理多条30s音频后取RTF均值；除 Doubao ASR 走官方 API 外，其余模型均在本地 H800 卡推理，测试环境存在差异，供参考。

竞品RTF对比：

StepAudio 2.5 ASR 推理速度是第二名 Qwen3 ASR 的近2 倍，是 VibeVoice、Doubao 等主流方案的10～20 倍。

2. SOTA 转写精度

基于4B 参数深度优化，在新闻、会议、强噪声等多场景下，中英文错误率全面刷新行业基线。

价格与接入

API 定价：0.15 元/小时，仅为上代Step ASR 2 的 1/10。Step Plan 用户可直接使用。

接入：API 调用中替换模型名为stepaudio-2.5-asr即可迁移，接入参考下方API文档

适用场景

Voice Agent、大规模转写服务、实时字幕/直播。

体验入口：

阶跃星辰开放平台(API文档)：
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr
Step Plan：
https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api
在线体验：
https://www.stepfun.com/studio/audio?tab=speech-recognition
Demo Page：
https://stepaudiollm.github.io/step-audio-2.5-asr
Model Card：
https://stepaudiollm.github.io/step-audio-2.5-asr/model-card

http://www.jsqmd.com/news/699853/

相关文章：

如何让旧iPhone/iPad重获新生？Legacy iOS Kit完全指南

多智能体协作自动化编排与拆解SKILL

RP2040与MicroMod开发板的嵌入式快速原型设计实践

GoFr框架：加速微服务开发的Go语言利器

最强生图模型GPT-image-2，一手深度测评，附教程

git 分支实战

AI记忆系统核心架构解析：从向量检索到MemoryOS实践

变频器为什么要加制动电阻？该怎么选型？

招聘 Agent：JD 解析、简历筛选与面试题生成的可控方案

警惕AI CRM的“监控”陷阱：从技术视角谈隐私保护与数据主权的设计边界

2026年3月做得好的水果礼盒品牌推荐，香妃果礼盒/鸡心果礼盒/水果礼盒/小苹果礼盒/海棠果礼盒，水果礼盒实力厂家选哪家 - 品牌推荐师

SNK施努卡新能源电池盒下箱体错漏装CCD在线检测解决方案

嵌入式C语言适配LLM推理引擎的5大反模式（ARM Cortex-M4实测崩溃现场还原+修复前后性能对比Δ=3.8×）

超元力无限方舟：创新全感沉浸，重塑沉浸式娱乐体验

kohya _ss训练stable-diffusion-LoRA模型保姆级教程（详细）

GitHub 热门项目 | 2026年04月25日

深度学习在计算机视觉中的核心优势与应用实践

Hermes Agent 整合 OpenCode CLI 的实战经验

Redisson 介绍

朴素分类器概率评估与优化实战

D6.3 PriorityClass 常用实验（2个）

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

AutoCAD字体缺失终结者：FontCenter插件完整使用指南

Apache Doris 4.1：面向 AI Search 的统一数据存储与检索底座

DeepBump：从单张图片智能生成法线贴图的终极指南

基于LLM嵌入的语义搜索引擎构建与实践

C++编写超低延迟MCP网关的成本控制实战（腾讯/蚂蚁级网关架构师内部分享·仅限首批200位开发者）

工业Modbus调试神器：5分钟掌握OpenModScan，告别通讯故障烦恼

打破传统娱乐局限，超元力无限方舟重塑沉浸体验新范式

2026深度分析罗兰艺境化工材料GEO技术案例，测评景县密封件制造企业景顺密封优化过程与效果验证 - 罗兰艺境GEO