当前位置：首页 > news >正文

LeVo架构驱动的AI歌曲生成技术：跨模态音乐创作的范式革新

news 2026/3/26 18:54:59

LeVo架构驱动的AI歌曲生成技术：跨模态音乐创作的范式革新

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

在数字内容创作领域，音乐生成技术长期面临着文本与音频模态转换的效率瓶颈，以及人声与伴奏融合质量的技术挑战。腾讯开源的SongGeneration项目通过创新的LeVo架构设计，构建了文本到音乐的端到端生成体系，为音乐创作提供了全新的技术路径。该项目整合语言模型与音乐编解码器的协同能力，实现了从文本描述到完整歌曲的高效转化，其技术方案在保持创作自由度的同时，显著提升了音频生成的自然度与专业品质。

技术原理：多模态协同的音乐生成架构

混合音轨双轨并行处理机制

SongGeneration的核心技术突破在于采用混合音轨与双轨并行建模架构，这种设计允许系统同时处理人声与伴奏的联合优化及独立生成。通过LeLM语言模型将文本指令转化为音乐 tokens，再经音乐编解码器实现音频信号的合成，该架构在保持音乐情感统一性的同时，为人声细节优化与伴奏风格调整提供了独立控制空间。

技术实现上，系统采用分层处理策略：

文本理解层：通过预训练语言模型解析歌词与风格描述，生成结构化音乐指令
特征映射层：将文本特征转化为音乐符号系统，建立跨模态语义关联
音频合成层：基于双轨并行模型生成独立的人声与伴奏信号，通过自适应融合算法实现和谐统一

技术参数与性能表现

技术指标	基础版（SongGeneration-base）	专业版（SongGeneration-large）
最小显存需求	10GB	22GB
最长生成时长	4分30秒	4分30秒
语言支持	中英文	多语言（含即将支持的西班牙语、日语）
相对保真度评分	1.51	1.58

该模型在百万级歌曲数据集上完成训练，通过动态音轨分离技术实现了人声与伴奏的精准控制，其生成音频的自然度已达到专业音乐制作的行业标准。

应用实践：跨领域的音乐创作解决方案

内容创作领域的效率提升

在独立音乐制作场景中，SongGeneration将传统需要数天完成的作曲、编曲流程压缩至分钟级。创作者仅需输入歌词文本与风格描述（如"抒情流行风，钢琴前奏，4/4拍"），系统即可自动生成包含前奏、主歌、副歌结构的完整歌曲。某独立音乐工作室的测试数据显示，使用该工具后原创歌曲的生产效率提升了87%，同时版权音乐的使用成本降低了62%。