当前位置：首页 > news >正文

腾讯开源SongGeneration：LeVo架构高品质AI作曲

news 2026/7/10 9:08:45

腾讯正式宣布开源旗下AI音乐生成项目SongGeneration，该项目基于创新的LeVo架构，实现了从文本到完整歌曲的端到端生成能力，为人声与伴奏的和谐融合提供了突破性解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

行业现状：AI音乐生成进入多模态融合新阶段

随着AIGC技术的快速迭代，音乐生成领域正从单一旋律创作向"歌词-旋律-编曲-演唱"全链路自动化演进。据行业研究显示，2024年全球AI音乐市场规模已突破12亿美元，其中文本驱动的完整歌曲生成成为技术竞争焦点。当前主流方案普遍面临人声与伴奏分离度不足、多语言支持有限、长音频连贯性差等问题，亟需架构层面的创新突破。

产品亮点：LeVo架构重构AI作曲技术范式

SongGeneration的核心竞争力源于其独创的LeVo（Learning Voice）架构，该架构通过混合音轨与双轨并行建模技术实现了音质与和谐度的双重突破。模型底层由LeLM语言模型与音乐编解码器构成，前者负责将文本指令转化为混合音轨 tokens（人声+伴奏融合表示）和双轨 tokens（人声/伴奏独立表示），后者则将这些 tokens 重构为48kHz高保真音频。

如上图所示，该架构创新性地采用了并行建模机制：混合音轨 tokens 确保人声与伴奏的整体和谐，双轨 tokens 则提升各自的音质表现。这种设计既解决了传统单轨模型的"混音浑浊"问题，又避免了双轨模型的"情感割裂"缺陷。

在训练数据方面，模型基于百万级歌曲数据集进行预训练，涵盖流行、摇滚、古典等多风格音乐作品。目前已发布的模型版本中，SongGeneration-base-full支持最长4分30秒的中英文歌曲生成，而-large版本通过RFT（相对保真度测试）评分达到1.51，这一指标已接近专业音乐制作人的人工混音水准。

从图中可以看出，项目提供了从base到large的多规格模型选择，其中最新的v1.5系列将支持英、中、西班牙、日语等多语言生成。不同参数规模的模型可适配从个人创作到专业制作的多样化需求，10G起步的显存要求也降低了开发者的使用门槛。