当前位置：首页 > news >正文

突破行业壁垒：阶跃星辰开源全链路语音交互模型，重新定义智能语音交互标准

news 2026/3/26 18:57:48

突破行业壁垒：阶跃星辰开源全链路语音交互模型，重新定义智能语音交互标准

【免费下载链接】Step-Audio-Chat项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Chat

2025年2月，人工智能领域迎来重大突破，阶跃星辰（StepFun AI）正式向全球开源了其自主研发的产品级全链路语音交互模型——「Step-Audio-Chat」。这款具备1300亿参数的语音交互系统，凭借其创新性的技术架构和卓越的性能表现，迅速成为行业焦点。它彻底打破了传统语音交互中语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）三大模块相互割裂的技术瓶颈，成功实现了语音识别、语义理解、对话管理、语音克隆以及语音生成五大核心功能的端到端深度整合。在国际权威的StepEval-Audio-360评测体系中，「Step-Audio-Chat」展现出压倒性的优势，以66.4%的事实性准确率、75.2%的相关性得分以及4.11分的综合对话评分，全面超越了包括GLM4-Voice（3.49分）和Qwen2-Audio（2.27分）在内的众多主流竞品，毫无悬念地登上了当前语音交互技术的性能巅峰。

「Step-Audio-Chat」的核心竞争力源于其独创的多模态融合架构，该架构通过先进的动态注意力机制，实现了语音信号与文本语义之间的双向深度绑定与协同理解。在一系列公共测试集的严格评估中，该模型在多项认知任务上均展现出卓越的处理能力。例如，在Llama Question任务中正确率达到81.0%，Web Questions任务中为75.1%，TriviaQA任务中也取得了58.0%的成绩。尤其值得一提的是，在HSK-6级中文语言能力测试中，「Step-Audio-Chat」更是以86.0%的正确率，充分证明了其在复杂语言环境下的强大跨模态理解能力。针对实际应用中的语音指令跟随场景，该模型在多语言支持（3.8分）、角色扮演（4.2分）、语音控制（4.4分）等关键维度的评分均显著领先于行业平均水平。特别在歌唱与说唱等对音频质量要求极高的场景中，其音频质量评分达到4.0分，较GLM4-Voice的2.4分提升幅度高达66.7%，这一进步为语音交互在娱乐、教育等领域的应用开辟了全新可能。

【免费下载链接】Step-Audio-Chat项目地址: https://ai.gitcode.com/StepFun/Step-Audio-Chat

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/79967/