当前位置：首页 > news >正文

Step-Audio-AQAA：终结ASR/TTS！全新音频交互大模型

news 2026/7/12 20:48:08

Step-Audio-AQAA：终结ASR/TTS！全新音频交互大模型

【免费下载链接】Step-Audio-AQAA项目地址: https://ai.gitcode.com/StepFun/Step-Audio-AQAA

导语

StepFun团队推出的Step-Audio-AQAA大模型，首次实现了从音频输入到音频输出的全链路端到端交互，彻底摒弃传统ASR/TTS模块，重新定义下一代语音交互范式。

行业现状：语音交互的"卡脖子"难题

当前主流语音交互系统依赖"ASR语音转文字→文本大模型处理→TTS文字转语音"的三段式架构，这种分离式设计存在两大核心痛点：一是级联错误累积（如ASR识别误差会直接影响后续理解），二是系统复杂度高（需维护多个独立模块）。据Gartner预测，到2027年，70%的语音交互失败源于这种架构性缺陷。与此同时，用户对语音交互的自然度、情感表达和多模态理解提出了更高要求，传统方案已难以满足智能客服、虚拟人、车载交互等场景的深度需求。

模型亮点：四大突破性能力重构音频交互

Step-Audio-AQAA作为首个专注于"音频查询-音频回答"(AQAA)任务的端到端大模型，展现出四大革命性进展：

1. 端到端架构消除中间环节
不同于传统系统的"语音-文本-语音"转换，该模型直接将原始音频输入映射为音频输出，通过双码本音频 tokenizer 提取语言和语义特征，经1300亿参数的多模态LLM（Step-Omni）处理后，由神经声码器生成自然语音。这种设计使交互延迟降低40%，同时避免了文本转换过程中的信息丢失。

2. 细粒度语音控制实现"千人千声"
模型支持句子级别的情感基调（如喜悦、严肃）、语速（±50%调节）和音色参数调整，用户可通过自然语言指令（如"用亲切的语气慢一点回答"）精确控制输出语音特征。这一能力突破了传统TTS固定音色的局限，特别适用于虚拟主播、心理咨询等需要个性化表达的场景。

3. 多语言与方言全覆盖
目前已支持中文（含四川话、粤语等方言）、英语、日语等多语种交互，其中在中文方言处理上表现尤为突出——在四川话情感对话测试中，情感识别准确率达89.3%，自然度评分超越行业平均水平15.7分（MOS评分4.2/5.0）。

4. 复杂任务处理能力跃升
在角色扮演、逻辑推理等复杂场景中表现亮眼：在"医生问诊"模拟测试中，模型能准确识别患者语音中的焦虑情绪并给予共情回应；在数学逻辑题测试中，语音回答的准确率达92.1%，接近文本大模型水平。

技术解析：双码本+巨量参数构建核心竞争力

模型架构的三大核心模块形成了独特技术壁垒：

双码本音频 tokenizer：通过语言tokenizer（1024码本）提取音素和语言属性，语义tokenizer（4096码本）捕捉声学特征，两者以2:3的时间交错比确保时序一致性；
超大规模多模态LLM：基于Transformer的纯解码器架构，创新性地将5120个音频token融入文本词汇表，实现文本-音频交织输出；
流式匹配神经声码器：基于U-Net和ResNet-1D结构，仅通过音频token即可生成高保真语音波形。

训练方面，模型采用四阶段 pipeline：先在8000亿文本/音频/图像数据上进行多模态预训练，再通过两阶段SFT（监督微调）优化特定能力，最后结合DPO（直接偏好优化）和模型融合提升综合表现。