当前位置: 首页 > news >正文

so-vits-svc的使用声音克隆

前言
通过学习模型对声音进行克隆,共经历两大步,一步是训练,一步是推理(即声音模拟)

1. 启动工程

找到工程的路径,找到启动的bat文件,这里以 d:/so-vits-svc为例。

2. 启动过程

启动后会出现cmp的一个弹框,初始启动相对较慢,请耐心等待一会儿,启动完成后,会出现一个页面,如下图,注意:如cmp弹框运行10分钟后还没有弹出浏览器页面,则需要重启服务器。

3.操作步骤

3.1 在d:/so-vits-svc/dataset_raw/ 目录下创建一个新文件夹(该文件夹的命名就是后续使用的数据集名称), 再把音频文件放到此新建文件夹的下。
注意:删除 d:/so-vits-svc/dataset_raw/ 目录下其他的文件夹,同时也有删除 d:/so-vits-svc/dataset/ 目录下的所有文件夹
如需备份上一次训练的结果,需要备份的目录有三个,分别是dataset_raw、dataset、configs


3.2 点击 识别数据集 按钮,出现数据集的名称。

3.3 再点击 数据预处理按钮

数据预处理完:

同时在目录 d:/so-vits-svc/dataset/44k/新文件夹 下出现对应的4个文件(一个音频对应4个文件),如下图:

3.4 配置文件,如果配置没有问题的话,点击 写入配置文件 按钮。

3.5 最好点击 从头开始训练 按钮就可以了,这时候会出现cmp弹框,如果不小心把这个cmp弹框给关闭的话,可以再点击页面的 继续上一次的训练进度 按钮就能恢复。
训练过程如下:

训练的时长取决于总的音频时长,1小时的音频时长,大约需要23小时。
cmp窗口执行完成后,再d:/so-vits-svc/logs/44k/目录下,出现两个文件D_19200.pth和G_19200.pth ,这个名字就是后面 推理 中模型选择的名字。

3.6 训练完成以后,再点击 训练聚类模型

这时候,会在新的终端窗口开始训练,训练聚类模型不会输出日志,检查任务管理器中python进程有在占用CPU就是正在训练,训练一般需要5-10分钟左右
训练完成后,会在d:/so-vits-svc/logs/44k/目录下生成 kmeans_10000.pt 文件(对应推理中“选择聚类模型”)
到这里训练步骤就完成了。

4. 推理(即声音模拟)

4.1 模型选择、配置文件、选择聚类模型
模型选择:选择最后一个就行
配置文件:选择config_json 注:就一个
选择聚类模型:选择 kmeans_10000.pt 注:就一个

4.2 上传克隆的声音

4.3 声调的选择 常规选择-2,可根据克隆声音的效果进行调整,一般调整范围是-2 到 -4

4.4 点上

4.5 点击 加载模型

4.6 最后 再 点击最下面的 转换 按钮

参考资料如下:
视频地址:https://www.bilibili.com/video/BV15V4y1Z7YB/?spm_id_from=pageDriver&vd_source=b0970c1f6df729f0d191a610486b9dff

声明:该技术纯用于技术交流

http://www.jsqmd.com/news/605646/

相关文章:

  • OpenClaw配置优化指南:提升Qwen2.5-VL-7B图文任务执行效率30%
  • 如何为LSTM时间序列预测项目编写单元测试:终极完整指南
  • 如何快速启用Go-RESTful的Gzip和Deflate压缩:终极配置指南
  • Harmony-Music设置优化:动态主题、均衡器和睡眠定时器配置
  • 别再傻傻分不清了!IM和RTC到底差在哪?从微信聊天到视频会议的技术选择
  • BC7215红外编解码芯片:协议无关的物理层信号处理方案
  • 2023终极指南:OctoSQL vs DataFusion vs q三大SQL查询引擎性能深度对比与选择攻略
  • Windows自动化安装终极指南:UnattendedWinstall与其他工具全面对比
  • OpenClaw成本优化:Kimi-VL-A3B-Thinking自部署与API调用对比
  • Markdown转PDF常见坑点排查:VSCode+Prince字体乱码/缩进异常解决指南
  • pix2pix-tensorflow超参数调优终极指南:学习率与损失权重优化技巧
  • OpenClaw多模型切换:Qwen3-32B与本地小模型的任务分配策略
  • 抗辐照MCU芯片在激光雷达领域的适配性分析
  • 10分钟快速部署ThreatMapper:云原生安全监控的终极指南
  • Kubernetes 集群优化实战:面向 30+ 集群、万级 Pod 与高并发场景的生产级架构升级指南
  • OpenClaw环境隔离:千问3.5-9B沙盒部署的安全实践
  • 《用 AI 赋能医药研究实战》目录(持续更新)
  • 图解Linux DRM框架:手把手带你理解plane结构体与API(以4.14内核为例)
  • 单片机开发:C语言与汇编的实战选择指南
  • 从BOM到MES:制造业核心系统全解析,新手也能看懂
  • 从零到一:手把手教你用ADCIRC+SWAN模拟风暴潮与海浪耦合(附完整输入文件配置)
  • Cerberus邮件可访问性终极指南:如何使用role属性优化屏幕阅读器体验
  • 如何快速掌握Postgres Language Server的PL/pgSQL支持:存储过程开发的终极指南
  • OpenClaw会议纪要助手:Qwen3-14b_int4_awq实时转录与要点总结
  • 2026金华市区固定矫正全解析:适配人群与技术管理要点 - 优质品牌商家
  • 如何用OHHTTPStubs彻底改变iOS网络测试:从入门到精通的完整指南
  • Polr数据可视化终极指南:用图表洞察短链接点击趋势的完整教程
  • CGM远程监控故障排除终极指南:10个常见问题与解决方案
  • OpenClaw+千问3.5-9B内容处理:自动整理混乱的Markdown文档
  • mdp与GitHub Flavored Markdown兼容性深度解析:终极完整指南