当前位置: 首页 > news >正文

第021章:ComfyUI文生音频Qwen3-TTS模型数字人音色设计(二)

在上一章我把Qwen3-TTS音色设计工作流所需要的插件和模型都已经准备好了,这一章我们将从零开始去搭建一个音色设计的工作流。

打开你的ComfyUI,一键启动,新建一个空白的工作流:

1、在空白处 双击鼠标左键,搜索“tts model”,选择下图框起来的插件,先加载模型。

2、选择里面的“1.7B-VoiceDesign”,剩下的保持默认。

3、搜索“tts 声音”选择下面的插件。

4、参数保持默认就行

以下几个需要注意:

1)两个输入框,上面的框是我们输入文字转音频的文字内容的,下面的框是我们用来输入控制音色的指令的。

2)自动卸载模型:【是】生成完成后立刻从显存释放 Qwen3-TTS 模型,节省显存,适合显存小、偶尔用一次 TTS 的场景;【否】模型常驻显存,连续多次生成不用重复加载,速度更快,适合批量配音。

3)max_mew_tokens(最大令牌数)可以理解为字节,1个汉字大概2个tokens,你如果输入的文字太多的话就把这个改大大点(不过音色设计的话要求是3-15s我们一般生成一个10s左右的音频就OK了。就算是后面声音克隆,我也不建议弄得太长,一是生成太长的语音稳定性容易出问题,再一个万一需要修改,等待的时间也太长)。

4)seed(种子)我个人习惯fixed(固定),你也可以不不改,这是我的个人习惯。

5)语速1.0:标准正常语速;小于1.0:慢速,0.7 适合旁白、温柔配音;大于1.0快速,1.2~1.5 适合短视频快节奏解说。

6)批量模式:【True】单词输入一段文本,生成一条音频;【False】支持批量文本数组输入,一次生成多条音频。

---------下面的平时保持默认就行,几乎不用变-----------

7)Top_P(0.8):数置越高【0.9-0.95】朗读停顿、语气变化更多、更自然,但容易出现奇怪断句。数字越低【0.6-0.7】朗读更规整稳定,适合旁白、新闻配音。

8)Top_K(50)限制单词可选词汇数量,默认不用改,数字越小发音越规整,数字越大语气越丰富。

9)Temperature(0.8)创意随机度,数值越低【0.4-0.6】,语气越死板、断句统一,几乎无情绪波动;数值越高【0.8-1.0】语气轻重变化越明显,真人感更强;

10)Repetition_penalty(1.1)重复惩罚系数,解决长文本重复读同一个词、卡顿复读,默认值1.1一般不需要变动【1.05-1.15】是最优区间,1代表不做限制,长句容易重复读词。

11)启用高级采样配置【关闭】,普通配音用不到,只有一些高级专业调音时会需要。

5、接下来,我们继续鼠标左键双击,工作流的空白处,搜索”Save audio”。

参数默认V0就OK,意思类似智能无损音质,比下面的128K音质好,同音质比320K文件小。

6、至此音色设计所需要的组件都添加完成了,把他们练级起来就OK了。

简单吧,音色设计就是这么的简单,可以自己玩一玩。

7、还有最后一个问题,就是音色控制的提示词怎么写?大家可以从图片中看到我就写了个“成熟的御姐嗓音、声音充满诱惑”。我i们再看看Qwen3_TTS的官方的示例是怎么写的,如下图:

我写的这个和人家这个一比,那瞬间高下立判,那类似这样的提示词应该如何写呢?

我给大家分享一个提示词的SKill,(如下图)这个大家不用去记,等这篇文章发表后我会和工作流文件一起分享到群里。

用法和前面Z-Image里面的人物生成的SKill一样丢给DeepSeek或豆包都行,让AI帮我们写。

这里有个小技巧大家了解一下,其实输入音色设计的提示词时,英文的准确性更高,翻译成中文只是方便我们自己修改,大家平时再使用的时候尽量都用英文。

------------------------------

至此我们的音色设计的工作流就完成了,大家可以自己随便的试试,玩一玩。

今天文章发表以后,我会在群里分享两个文件:

1、西安老张AIGC音色SKill;

2、音色设计与克隆的工作流:【010西安老张AIGC(Qwen3-TTS-音色设计与克隆)】;在这个工作流我把音色克隆的工作流也一块搭好了,这两个工作流都比较简单,就放在一起了。

http://www.jsqmd.com/news/1126415/

相关文章:

  • 如何在3分钟内安装DeepL翻译插件:免费开源的专业翻译解决方案
  • 微信好友关系检测终极指南:三步找出单向好友的完整教程
  • 视场角 (FOV) 计算与校准:5 步完成工业相机镜头选型,误差 < 5%
  • WindowsCleaner:你的Windows系统清理专家,告别C盘爆红的烦恼
  • SchoolCMS开源教务管理系统:5步打造高效智能的学校管理平台
  • 终极macOS窗口置顶指南:Topit让你的多任务效率翻倍
  • 如何用WechatRealFriends三步识别微信单向好友:告别隐形社交困扰
  • 运维转大模型:换个角度,从岗位要求反推能力栈
  • LangChain AI Agent 架构实战:从链到图的五大核心概念与落地路径
  • 2026最新4款学生党平替AI编程工具vibe coding权威实测合集
  • 基于Agentic AI与提示工程的教育AI自动化批改系统设计与实践
  • VMD 变分模态分解 Python 实战:3 个关键参数 (alpha, K, tau) 调优与信号重构误差分析
  • Solr+Spark构建高维AB测试数据中枢
  • DeepL Chrome扩展终极指南:浏览器中的专业翻译助手
  • TPFanCtrl2:ThinkPad双风扇控制终极指南,让你的笔记本电脑更安静高效
  • D3KeyHelper:免费开源的暗黑3终极自动化助手,5分钟告别重复操作
  • 告别限速!LinkSwift浏览器脚本让你轻松获取九大网盘直链下载地址
  • KMS_VL_ALL_AIO:Windows系统激活的终极免费解决方案
  • 提“质”利器!鸿栢电极帽修磨检测AI自迭代+1秒检测,11种缺陷一“眼”看穿
  • 从静态桌面到动态伙伴:如何用DyberPet重构你的数字工作空间体验
  • 如何快速搭建高效开源教务系统:5分钟部署专业级学校管理平台
  • 安卓修改大师实战:从反编译到定制的完整APK修改指南
  • Mac Mouse Fix:10分钟让你的普通鼠标在macOS上超越苹果触控板体验
  • Windows和Office智能激活终极指南:KMS_VL_ALL_AIO完全解决方案
  • S-34C04AB与TM4C129ENCZAD在工业数据存储中的实战应用
  • Adobe-GenP 3.0:设计师的创意工具箱解锁指南
  • LinkSwift:九大网盘直链下载终极方案,文件下载速度翻倍体验
  • 免费NTFS读写工具:在Mac上完美管理Windows硬盘的终极方案
  • 开题报告被导师打回3次?2026年AI生成开题报告全流程攻略
  • GEO系统实战指南:提升网站流量与AI引荐率的3大关键技术