当前位置: 首页 > news >正文

Step-Audio-TTS-3B:会说唱的SOTA语音合成模型来了!

Step-Audio-TTS-3B:会说唱的SOTA语音合成模型来了!

【免费下载链接】Step-Audio-TTS-3B项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

导语:国内团队推出行业首个支持说唱与哼唱功能的语音合成模型Step-Audio-TTS-3B,采用LLM-Chat范式训练,在多项权威 benchmark 中刷新SOTA性能,为语音合成技术开辟新应用场景。

行业现状:随着AIGC技术的飞速发展,语音合成(TTS)已从单纯的文本转语音工具进化为具备情感表达和风格控制的智能交互系统。当前主流TTS模型如GLM-4-Voice、CosyVoice等虽在自然度和多语言支持上取得突破,但在内容一致性(CER/WER指标)和特殊语音风格生成方面仍有提升空间。特别是在音乐性语音生成领域,如说唱、哼唱等节奏性强、情感起伏大的场景,现有模型普遍表现不足。

产品/模型亮点:Step-Audio-TTS-3B作为行业首个基于LLM-Chat范式训练的TTS模型,核心突破体现在三个方面:

首先是技术架构创新,采用双码本(dual-codebook)训练的大语言模型架构,配合专门优化的声码器,实现了内容准确性与音质的平衡。在SEED TTS Eval基准测试中,该模型中文CER(字符错误率)低至1.17%,英文WER(词错误率)仅2.0%,显著优于GLM-4-Voice(中文CER 2.19%)和MinMo(英文WER 2.90%)等竞品。

其次是功能突破,首次实现说唱(RAP)和哼唱(Humming)生成能力。这一特性突破了传统TTS模型只能生成普通说话语音的局限,使AI语音合成向音乐创作领域延伸。通过专门优化的哼唱声码器,模型能够生成具有旋律感的无词哼唱音频,为内容创作提供新工具。

第三是多维度可控性,支持多语言合成(中英文等)、丰富情感表达(喜悦、悲伤、愤怒等)和多样化语音风格控制。在双码本重合成测试中,Step-Audio-TTS-3B中文CER达到2.192%,英文WER 3.585%,内容一致性显著优于CosyVoice。

行业影响:Step-Audio-TTS-3B的推出将加速语音合成技术在娱乐创作、智能交互、辅助工具等领域的应用落地。在内容创作场景,音乐人可利用其说唱生成功能快速制作demo;在教育领域,情感化语音能提升语言学习体验;在智能设备交互中,多风格语音可实现更自然的人机对话。该模型采用Apache-2.0开源协议,将促进学术界和工业界在TTS领域的技术交流与创新。

结论/前瞻:Step-Audio-TTS-3B通过创新的训练范式和架构设计,不仅在核心性能指标上达到SOTA水平,更通过说唱与哼唱功能拓展了TTS技术的边界。随着模型的开源和进一步优化,未来语音合成有望在音乐创作、影视配音、游戏开发等更多领域释放价值,推动人机交互向更自然、更富表现力的方向发展。

【免费下载链接】Step-Audio-TTS-3B项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/256180/

相关文章:

  • ClearerVoice-Studio:AI语音处理工具包的终极完整指南
  • UI-TARS桌面版深度揭秘:视觉语言模型驱动的桌面自动化革命
  • ERNIE-4.5轻量版震撼发布:0.3B参数玩转文本生成
  • GLM-4.1V-9B-Thinking:10B级视觉推理性能碾压72B?
  • 10分钟快速上手:Realtek 8192FU Linux驱动终极安装指南
  • QwQ-32B-AWQ:4-bit量化推理模型全新登场!
  • JanusFlow:极简架构打造AI图像理解生成新范式
  • Unity PSD导入终极指南:5步告别手动切图时代
  • 腾讯HunyuanVideo-I2V开源:AI静态图转视频新体验!
  • PyTorch-2.x镜像实测:Numpy数据处理速度到底有多快?
  • Downr1n完全攻略:轻松实现iOS系统版本自由
  • m3u8下载神器:小白也能轻松掌握的流媒体保存方案
  • FSMN-VAD检测结果异常?模型缓存路径设置避坑手册
  • Copyfish开源OCR技术架构解析与实现方案
  • Qwen3-0.6B镜像安全设置:API密钥管理最佳实践
  • Relight:AI照片光影重生!新手也能一键调光
  • 快速彻底清除Windows 11广告:OFGB免费工具完整使用指南
  • MoeKoe Music完整指南:如何打造专属二次元音乐空间
  • Sambert批量合成效率低?并行处理部署优化方案
  • Qwen3-0.6B-FP8:0.6B参数体验双模智能推理
  • 中文文献格式终极解决方案:GB/T 7714-2015标准一键配置指南
  • DepthCrafter:如何为视频生成时间一致的深度序列?
  • 3步搞定流媒体下载:这款Python工具让你告别视频保存烦恼
  • WMT25优胜模型升级版|HY-MT1.5-7B镜像助力多语言智能服务
  • jsPlumb可视化:从零构建企业级流程图的全栈指南
  • 2.8B参数Kimi-VL-Thinking:多模态推理新标杆
  • HY-MT1.5-7B大模型部署全解析|支持33语种互译与术语干预
  • m3u8视频下载神器:一键搞定加密流媒体批量下载
  • ESP32教程:Arduino IDE环境搭建手把手指南
  • LogAI日志智能分析终极指南:快速掌握免费开源平台的核心功能