当前位置：首页 > news >正文

腾讯SongGeneration开源：AI一键创作中英高品质歌曲

news 2026/7/6 21:26:44

腾讯SongGeneration开源：AI一键创作中英高品质歌曲

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

导语：腾讯正式开源基于LeVo架构的SongGeneration项目，通过创新的混合音轨与双轨并行建模技术，实现中英文高品质歌曲的一键生成，为音乐创作领域带来突破性AI解决方案。

行业现状：随着AIGC技术的飞速发展，音乐生成已成为人工智能领域的重要应用场景。据行业报告显示，2024年全球AI音乐市场规模已突破15亿美元，预计2025年将以45%的年复合增长率持续扩张。目前主流音乐生成模型普遍面临人声与伴奏融合度低、多语言支持不足、生成时长受限等问题，制约了AI在专业音乐创作中的应用。

产品/模型亮点：腾讯SongGeneration项目基于创新的LeVo架构，核心优势在于其独特的双轨并行建模技术。该技术通过混合音轨 tokens 实现人声与伴奏的和谐统一，同时利用独立的双轨 tokens 分别处理 vocals 和 accompaniment，兼顾了音乐整体性与音质细节。模型在百万歌曲数据集（Million Song Dataset）上训练，支持中英文双语生成，提供多种型号选择：

从基础版（base）到增强版（large），模型最大生成时长可达4分30秒，满足完整歌曲创作需求。值得注意的是，最新版本SongGeneration-base-new已实现中英文双语支持，而即将推出的v1.5系列更计划扩展至西班牙文、日文等多语言支持，进一步拓宽应用边界。

图片以生动的卡通形象直观展现了SongGeneration的产品定位——通过AI技术赋能音乐创作。企鹅形象呼应腾讯品牌基因，吉他与音乐符号元素则清晰传达了音乐生成的核心功能，帮助读者快速理解产品特性。

模型采用LM-based框架，由LeLM语言模型与音乐编解码器（music codec）组成，在保证生成效率的同时，通过多偏好对齐（Multi-Preference Alignment）技术提升音乐质量。根据官方测试数据，其RFT（相对保真度测试）指标最高达1.51，效果已媲美业界顶尖系统。

行业影响：SongGeneration的开源将显著降低音乐创作的技术门槛。独立音乐人可通过简单文本输入快速生成专业级歌曲 demo，内容创作者能实时为视频匹配原创配乐，教育领域也可利用该工具开展音乐教学。对于企业用户，腾讯提供的推理脚本和预训练模型 checkpoint 支持二次开发，有望催生更多音乐AIGC应用场景。

该项目的开源也将推动行业技术标准的形成。作为国内首个开源的高品质中英文歌曲生成模型，SongGeneration的技术路线可能成为行业参考基准，加速音乐AI领域的技术迭代与生态建设。

结论/前瞻：腾讯SongGeneration的开源标志着AI音乐生成技术从实验阶段走向实用化。随着多语言支持的扩展和模型性能的持续优化，未来可能实现"文本-旋律-编曲-演唱"的全流程AI创作。对于音乐产业而言，这既是创作工具的革新，也将带来版权、创作伦理等新课题。建议创作者关注该模型的应用潜力，同时行业需共同探索AI音乐的合理发展路径，平衡技术创新与艺术价值。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/265379/