当前位置：首页 > news >正文

Qwen3-TTS-12Hz声音克隆教程：WebUI前端多音轨混音与导出设置

news 2026/3/26 20:00:23

想不想用自己的声音，或者任何你喜欢的声音，来朗读一段文字、生成一段旁白，甚至创作一首多声部的歌曲？今天，我们就来手把手教你玩转Qwen3-TTS-12Hz这个强大的声音克隆模型，特别是它的WebUI前端里一个超实用的功能——多音轨混音与导出。

简单来说，这个功能让你能：

无论你是想做有声书、给视频配音、制作多角色对话的广播剧，还是想探索AI语音的创意玩法，这个教程都能帮你快速上手。我们完全从零开始，用最直白的语言，带你走通整个流程。

在开始动手之前，我们先花两分钟了解一下我们要用的工具。

Qwen3-TTS是一个开源的文本转语音模型，最新版本是Qwen3-TTS-12Hz-1.7B-Base。它最厉害的地方有这几个：

我们今天要用的，就是它提供的Web图形界面，所有操作点点鼠标就能完成，对新手特别友好。

假设你已经按照部署指南，成功在CSDN星图镜像广场或其他平台启动了Qwen3-TTS的镜像服务。进入WebUI的步骤非常简单：

界面加载成功后，你会看到几个主要的功能区域，通常包括“文本输入框”、“声音上传区”、“生成按钮”和“音频播放器”。我们先来完成最基础的一步：克隆一个声音。

这是所有操作的基础，我们需要先让模型“认识”我们想要克隆的声音。

准备录音：用手机或电脑录制一段你想要克隆的声音。建议：
- 内容：朗读书籍、新闻或任意一段文字，吐字清晰。
- 时长：30秒到2分钟为宜，太短可能特征不足，太长也没必要。
- 环境：尽量安静，减少背景噪音。
- 格式：常见的MP3、WAV格式都可以。
上传声音：在WebUI界面找到“上传音频”或“选择文件”的按钮，点击后选择你刚刚准备好的录音文件。有些界面也支持直接麦克风录制，你可以现场录一段。
输入文本：在文本输入框里，写下你想让这个声音说的话。比如：“你好，欢迎来到AI语音的世界，这是一个测试音频。”
生成语音：点击“生成”或“合成”按钮。系统会开始处理，这可能需要几秒到十几秒的时间。
试听结果：生成成功后，页面下方通常会出现一个音频播放器。点击播放，听听克隆出来的声音像不像。如果效果满意，我们就有了第一个“声音素材”。

第一次成功的界面，通常会显示生成的音频波形图和一个播放控件，就像下面这样：（此处本应有图片，显示生成成功的音频播放界面）

恭喜你，到这里你已经完成了单次语音生成！但我们的目标是“混音”，所以我们需要多个这样的声音素材。

现在进入最有趣的部分。假设我们要制作一段简单的对话，里面有A和B两个角色。

为角色A生成语音：
- 确保当前加载的是角色A的声音样本（如果切换了样本，需要重新生成）。
- 在文本框输入角色A的台词，例如：“小明，今天的作业完成了吗？”
- 点击生成，并试听保存。我们暂时记下这个片段。
为角色B生成语音：
- 上传或切换到角色B的声音样本文件。
- 在文本框输入角色B的台词，例如：“早就完成啦！妈妈，我可以看会儿动画片吗？”
- 点击生成，并试听保存。

现在，我们有了两段独立的音频，分别对应两个角色。但它们是两个文件，我们需要把它们合成一个文件，并且可能需要在时间线上前后排列。

Qwen3-TTS的WebUI高级功能里，通常隐藏着一个“多音轨编辑器”或“音频合成”面板。你需要找到它（可能是一个标签页或一个展开的侧边栏）。

在这个编辑器里，你可以：

多音轨编辑器的界面可能类似这样：（此处本应有图片，展示一个简单的多轨编辑器界面，包含2-3条音轨，上面有音频块）

所有音轨都调整到位后，最后一步就是导出成品。

在导出面板中，你会看到几个重要选项：

导出格式：
- MP3：最通用的格式，文件小，兼容性好，适合网络传播。如果追求便捷，选它。
- WAV：无损格式，音质最好，文件体积大。如果后续需要专业音频软件再编辑，选它。
音频质量/比特率（针对MP3）：
- 128 kbps：标准质量，文件较小。
- 192 kbps：高质量，平衡了音质和体积，推荐选择。
- 320 kbps：极高音质，文件最大。
采样率（通常自动匹配，也可手动）：
- 22050 Hz或24000 Hz：对于语音足够清晰，也是很多TTS模型的默认输出。
- 44100 Hz：CD标准，音质更好，文件更大。
导出范围：
- 确保选择的是“导出整个工程”或“导出时间线范围”，而不是仅导出某一条音轨。