当前位置：首页 > news >正文

腾讯开源SongGeneration：LeVo架构实现高品质AI歌曲生成

news 2026/6/30 4:04:07

腾讯正式开源旗下AI音乐生成项目SongGeneration，该模型基于创新的LeVo架构，通过混合音轨与双轨并行建模技术，实现了人声与伴奏的和谐融合及高质量分离处理，为音乐创作领域带来了突破性的AI解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近年来，AI音乐生成技术经历了从简单旋律生成长句到完整歌曲创作的快速演进。随着AIGC技术的成熟，市场对AI生成音乐的品质要求不断提升，尤其在人声与伴奏的融合度、多语言支持及创作自由度等方面存在显著需求。据相关数据显示，2024年全球AI音乐市场规模已突破12亿美元，预计2025年将保持65%的增长率，技术突破正推动音乐创作、游戏配乐、宣传制作等领域的效率革新。

SongGeneration项目的核心优势在于其独创的LeVo架构，该架构包含LeLM语言模型与音乐编解码器两大组件。LeLM创新性地采用双轨并行建模机制，能够同时处理混合音轨 tokens（整合人声与伴奏）和分离音轨 tokens（独立编码人声与伴奏），既保证了音乐整体的和谐统一，又实现了各声部的高质量生成。模型在百万级歌曲数据集上完成训练，支持中英文双语创作，生成效果已达到业界顶尖水平。

从技术实现来看，该模型提供了多种版本选择以适应不同场景需求。基础版（SongGeneration-base）支持2分30秒时长的中文歌曲生成，仅需10G显存即可运行；进阶版（SongGeneration-base-full）将生成时长提升至4分30秒，并增加英文支持；而大型模型（SongGeneration-large）则在音质与表现力上进一步优化，RFT指标达到1.51，显存需求为22G/28G。值得关注的是，即将推出的v1.5系列还将支持西班牙文、日文等多语言创作，进一步扩展应用边界。

该图片为SongGeneration项目的官方标志，通过卡通化的企鹅（腾讯品牌象征）弹奏吉他的形象，直观传递了AI音乐创作的核心功能。音乐符号与彩色波浪线条的设计元素，巧妙呼应了模型处理多轨音频的技术特性，同时增强了视觉亲和力。

SongGeneration的开源将对音乐产业产生多维度影响。对于独立音乐人而言，该工具可大幅降低创作门槛，通过文本提示快速生成歌曲初稿；在商业应用领域，游戏公司、宣传合作方能够利用AI高效制作定制化配乐；教育场景中，师生可通过模型理解音乐结构，辅助乐理教学。此外，模型的双轨分离技术为音乐后期制作提供了新思路，制作人可单独调整人声或伴奏的细节，提升作品质量。

随着腾讯将SongGeneration模型开源并提供完整的推理脚本与预训练权重，开发者可通过Hugging Face等平台直接获取资源。这一举措不仅推动了AI音乐生成技术的普及进程，也为学术界提供了高质量的研究基底。未来，随着多语言支持的完善和模型效率的优化，我们有理由期待AI在音乐创作领域发挥更大价值，或许在不久的将来，一首完全由AI创作的流行歌曲登上音乐排行榜不再是科幻想象。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/147215/