当前位置：首页 > news >正文

Windows 10/11下用Anaconda搞定so-vits-svc 4.0环境：告别CUDA版本冲突和pip安装报错

news 2026/7/21 19:00:43

Windows系统下用Anaconda搭建so-vits-svc 4.0语音合成环境的完整指南

对于刚接触AI语音合成的新手来说，环境配置往往是第一个拦路虎。CUDA版本冲突、pip安装失败、依赖库不兼容等问题让很多人还没开始训练模型就已经放弃。本文将带你用Anaconda在Windows系统上搭建一个干净、可复现的so-vits-svc 4.0开发环境，彻底解决这些烦人的配置问题。

1. 环境准备：Anaconda与CUDA的完美搭配

Anaconda是Python环境管理的利器，它能创建独立的虚拟环境，避免不同项目间的依赖冲突。对于so-vits-svc这样的复杂项目，使用conda环境是明智之选。

1.1 安装Anaconda与基础配置

首先从Anaconda官网下载最新版安装包。安装时务必勾选"Add Anaconda to my PATH environment variable"选项，这样可以直接在命令行使用conda命令。

安装完成后，打开Anaconda Prompt（不要用普通cmd），执行以下命令测试是否安装成功：

conda --version

接下来配置conda的镜像源以加速下载：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes

1.2 CUDA版本选择与安装

CUDA版本是导致大多数问题的根源。通过以下命令查看你的显卡支持的CUDA版本：

nvidia-smi

在输出中找"CUDA Version"这一行。需要注意的是，这里显示的是驱动支持的最高CUDA版本，实际安装时可以选低版本。

目前PyTorch稳定支持的最高CUDA版本是11.7，即使你的驱动支持12.x，也建议安装11.7。从NVIDIA官网下载CUDA 11.7的安装包。

安装时选择"自定义安装"，取消勾选"Visual Studio Integration"（除非你需要VS开发）。安装完成后验证：

nvcc -V

如果显示版本为11.7，说明安装成功。即使nvidia-smi仍显示更高版本也不用担心，这是正常现象。

2. 创建conda虚拟环境

隔离的环境能避免各种依赖冲突。我们创建一个专用于so-vits-svc的Python 3.9环境（so-vits-svc目前不支持Python 3.10+）：

conda create -n sovits python=3.9 conda activate sovits

接下来安装PyTorch。不要直接从PyTorch官网复制pip安装命令，而是使用conda安装：

conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch

验证PyTorch是否能正确识别CUDA：

import torch print(torch.__version__) print(torch.cuda.is_available()) # 应该输出True

3. 安装so-vits-svc依赖项

创建一个requirements.txt文件，内容如下：

Flask==2.1.2 Flask_Cors==3.0.10 gradio==3.4.1 numpy==1.23.5 playsound==1.3.0 PyAudio==0.2.12 pydub==0.25.1 pyworld==0.3.2 requests==2.28.1 scipy==1.10.0 sounddevice==0.4.5 SoundFile==0.10.3.post1 starlette==0.19.1 tqdm==4.63.0 scikit-maad praat-parselmouth tensorboard librosa fairseq

然后安装这些依赖：

pip install -r requirements.txt

有些库可能需要额外处理。例如PyAudio在Windows上可能安装失败，可以尝试：

conda install -c conda-forge pyaudio

4. 安装FFmpeg与项目配置

FFmpeg是处理音频文件必不可少的工具。从FFmpeg官网下载Windows版本，解压后将bin目录添加到系统PATH环境变量中。

验证安装：

ffmpeg -version

现在可以克隆so-vits-svc的代码仓库了：

git clone https://github.com/svc-develop-team/so-vits-svc.git cd so-vits-svc

下载所需的预训练模型：

contentvec模型：checkpoint_best_legacy_500.pt，放在hubert目录下
底模文件：G_0.pth和D_0.pth，放在logs/44k目录下

5. 数据准备与预处理

高质量的训练数据是获得好模型的关键。建议准备至少100条干净的人声样本（最好是1000+），每条4-8秒，格式为wav。目录结构如下：

dataset_raw/ ├───speaker0 │ ├───sample1.wav │ └───sample2.wav └───speaker1 ├───sample1.wav └───sample2.wav

在dataset_raw目录下创建config.json，内容类似：

{ "n_speakers": 2, "spk": { "speaker0": 0, "speaker1": 1 } }

开始预处理数据：

python resample.py python preprocess_flist_config.py python preprocess_hubert_f0.py

预处理完成后，dataset目录会包含处理好的数据，可以删除dataset_raw目录了。

6. 训练配置与启动

编辑configs/config.json，根据你的GPU显存调整batch_size：

6GB显存：2-3
8GB显存：4-6
更高显存：可以适当增加

开始训练：

python train.py -c configs/config.json -m 44k

训练过程中常见问题及解决方案：

问题现象	可能原因	解决方案
CUDA out of memory	batch_size太大	减小batch_size
训练速度慢	CPU瓶颈或GPU未充分利用	关闭其他程序，检查任务管理器
损失不下降	学习率不合适	调整config.json中的learning_rate

训练日志保存在logs/44k/train.log，可以通过它监控训练进度。

7. 模型推理与应用

训练完成后，模型会保存在logs/44k目录下。要进行推理，首先准备干声音频放在raw目录下，然后编辑inference_main.py中的参数：

parser.add_argument('-m', '--model_path', type=str, default="logs/44k/G_latest.pth", help='模型路径') parser.add_argument('-c', '--config_path', type=str, default="configs/config.json", help='配置文件路径') parser.add_argument('-n', '--clean_names', type=str, nargs='+', default=["my_audio.wav"], help='wav文件名列表') parser.add_argument('-t', '--trans', type=int, nargs='+', default=[0], help='音高调整') parser.add_argument('-s', '--spk_list', type=str, nargs='+', default=['speaker0'], help='目标说话人')

运行推理：