当前位置：首页 > news >正文

Step-Audio-TTS-3B：会说唱的SOTA语音合成模型来了！

news 2026/7/10 20:10:33

Step-Audio-TTS-3B：会说唱的SOTA语音合成模型来了！

【免费下载链接】Step-Audio-TTS-3B项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

导语：国内团队推出行业首个支持说唱与哼唱功能的语音合成模型Step-Audio-TTS-3B，采用LLM-Chat范式训练，在多项权威 benchmark 中刷新SOTA性能，为语音合成技术开辟新应用场景。

行业现状：随着AIGC技术的飞速发展，语音合成（TTS）已从单纯的文本转语音工具进化为具备情感表达和风格控制的智能交互系统。当前主流TTS模型如GLM-4-Voice、CosyVoice等虽在自然度和多语言支持上取得突破，但在内容一致性（CER/WER指标）和特殊语音风格生成方面仍有提升空间。特别是在音乐性语音生成领域，如说唱、哼唱等节奏性强、情感起伏大的场景，现有模型普遍表现不足。

产品/模型亮点：Step-Audio-TTS-3B作为行业首个基于LLM-Chat范式训练的TTS模型，核心突破体现在三个方面：

首先是技术架构创新，采用双码本（dual-codebook）训练的大语言模型架构，配合专门优化的声码器，实现了内容准确性与音质的平衡。在SEED TTS Eval基准测试中，该模型中文CER（字符错误率）低至1.17%，英文WER（词错误率）仅2.0%，显著优于GLM-4-Voice（中文CER 2.19%）和MinMo（英文WER 2.90%）等竞品。

其次是功能突破，首次实现说唱（RAP）和哼唱（Humming）生成能力。这一特性突破了传统TTS模型只能生成普通说话语音的局限，使AI语音合成向音乐创作领域延伸。通过专门优化的哼唱声码器，模型能够生成具有旋律感的无词哼唱音频，为内容创作提供新工具。

第三是多维度可控性，支持多语言合成（中英文等）、丰富情感表达（喜悦、悲伤、愤怒等）和多样化语音风格控制。在双码本重合成测试中，Step-Audio-TTS-3B中文CER达到2.192%，英文WER 3.585%，内容一致性显著优于CosyVoice。

行业影响：Step-Audio-TTS-3B的推出将加速语音合成技术在娱乐创作、智能交互、辅助工具等领域的应用落地。在内容创作场景，音乐人可利用其说唱生成功能快速制作demo；在教育领域，情感化语音能提升语言学习体验；在智能设备交互中，多风格语音可实现更自然的人机对话。该模型采用Apache-2.0开源协议，将促进学术界和工业界在TTS领域的技术交流与创新。

结论/前瞻：Step-Audio-TTS-3B通过创新的训练范式和架构设计，不仅在核心性能指标上达到SOTA水平，更通过说唱与哼唱功能拓展了TTS技术的边界。随着模型的开源和进一步优化，未来语音合成有望在音乐创作、影视配音、游戏开发等更多领域释放价值，推动人机交互向更自然、更富表现力的方向发展。

【免费下载链接】Step-Audio-TTS-3B项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/256180/