当前位置：首页 > news >正文

Windows 10/11 下用 Anaconda 搞定 GPT-SoVITS 本地部署（附解决 funasr 版本冲突的详细步骤）

news 2026/6/24 20:22:22

Windows 10/11 下用 Anaconda 搞定 GPT-SoVITS 本地部署（附解决 funasr 版本冲突的详细步骤）

最近在语音合成领域，GPT-SoVITS 凭借其出色的表现吸引了不少开发者的目光。作为一个能够在本地运行的文本转语音模型，它让普通用户也能体验到接近真人发音的效果。不过，对于 Windows 用户来说，从零开始搭建这个环境可能会遇到不少坑，特别是当涉及到 Python 环境管理和依赖包版本冲突时。

本文将手把手带你用 Anaconda 在 Windows 系统上搭建 GPT-SoVITS 的运行环境，重点解决 funasr 和 modelscope 的版本冲突问题。即使你之前没有太多 Python 环境配置经验，只要跟着步骤走，也能顺利完成部署。

1. 环境准备与基础配置

1.1 安装 Anaconda 并创建专用环境

Anaconda 是管理 Python 环境的利器，特别适合处理这种需要特定版本依赖的项目。如果你还没安装，可以从官网下载最新版的 Anaconda 安装包：

# 下载地址（建议选择Python 3.9版本的Anaconda）： https://www.anaconda.com/download

安装完成后，我们创建一个专用于 GPT-SoVITS 的 Python 3.10 环境：

conda create -n gpt-sovits python=3.10 conda activate gpt-sovits

为什么选择 Python 3.10？这是目前 GPT-SoVITS 官方推荐且测试最充分的版本，能最大限度避免兼容性问题。

1.2 安装 PyTorch 及相关依赖

PyTorch 是 GPT-SoVITS 的核心依赖之一。对于 Windows 用户，建议使用 CUDA 11.7 版本（如果你有 NVIDIA 显卡）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

如果没有独立显卡，可以安装 CPU 版本：

pip install torch torchvision torchaudio

验证 PyTorch 是否安装成功：

import torch print(torch.__version__) # 应该显示2.0.0或更高版本 print(torch.cuda.is_available()) # 如果有GPU应该返回True

2. 获取 GPT-SoVITS 项目代码

2.1 下载并解压项目

从 GitHub 获取 GPT-SoVITS 的最新代码：

# 官方仓库地址： https://github.com/RVC-Boss/GPT-SoVITS

下载 ZIP 文件后，解压到一个全英文路径的目录中。Windows 用户特别要注意路径中不要包含中文或特殊字符，这是很多奇怪问题的根源。

2.2 使用 VSCode 打开项目

虽然任何编辑器都可以，但 VSCode 对 Python 项目的支持最好：

打开 VSCode
选择"File" > "Open Folder"，定位到解压后的项目目录
在 VSCode 左下角选择我们之前创建的gpt-sovitsConda 环境

3. 安装项目依赖与解决版本冲突

3.1 基础依赖安装

在项目根目录下执行：

pip install -r requirements.txt

这个过程可能会花费一些时间，因为要下载多个机器学习相关的包。

3.2 解决 funasr 和 modelscope 版本冲突

这是大多数 Windows 用户会遇到的主要问题。根据社区反馈，目前最稳定的版本组合是：

pip install funasr==0.8.7 pip install modelscope==1.10.0

为什么需要指定版本？新版本的这些库可能引入了不兼容的 API 变更，导致 GPT-SoVITS 无法正常工作。

3.3 关键文件修改

找到项目中的tools/damo_asr/cmd-asr.py文件，我们需要修改其中的模型加载方式：

原始代码：

inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='tools/damo_asr/models/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', vad_model='tools/damo_asr/models/speech_fsmn_vad_zh-cn-16k-common-pytorch', punc_model='tools/damo_asr/models/punc_ct-transformer_zh-cn-common-vocab272727-pytorch', )

修改为：

inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', vad_model='damo/speech_fsmn_vad_zh-cn-16k-common-pytorch', punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch', )

这个修改的原因是模型现在会从 ModelScope 的模型中心自动下载，而不是使用本地路径。

4. 运行与测试

4.1 启动 Web 界面

在项目根目录下执行：

python webui.py

如果一切顺利，你应该能看到类似下面的输出：

Running on local URL: http://127.0.0.1:7860

在浏览器中打开这个地址，就能看到 GPT-SoVITS 的交互界面了。

4.2 常见问题排查

如果启动过程中遇到问题，可以尝试以下排查步骤：

CUDA 内存不足：
- 降低 batch size
- 关闭其他占用 GPU 的程序

模型下载失败：

# 手动设置ModelScope镜像源（国内用户推荐） pip install modelscope==1.10.0 -i https://mirror.sjtu.edu.cn/pypi/web/simple

依赖冲突：

# 创建一个全新的conda环境重新开始 conda create -n gpt-sovits-new python=3.10 conda activate gpt-sovits-new

5. 高级配置与优化

5.1 性能调优

根据你的硬件配置，可以调整以下参数：

参数名	推荐值（GPU）	推荐值（CPU）	说明
batch_size	4-8	1-2	同时处理的样本数
num_workers	4	2	数据加载线程数
fp16	True	False	半精度浮点运算

这些参数可以在config.yml文件中修改。

5.2 自定义语音模型

GPT-SoVITS 支持使用自己的语音数据进行微调：

准备至少 30 分钟的干净语音数据（最好是专业录音）
将音频文件放在data/custom目录下

运行预处理脚本：

python preprocess.py --data_dir data/custom

在 Web 界面中选择"训练"标签页开始微调

5.3 定期更新策略

由于这个项目还在活跃开发中，建议定期关注 GitHub 上的更新：

# 进入项目目录 git pull origin main # 重新安装可能变更的依赖 pip install -r requirements.txt

不过要注意，更新后可能需要重新进行一些配置调整，特别是 funasr 和 modelscope 的版本可能需要重新指定。

查看全文

http://www.jsqmd.com/news/742802/

2026年行业内诚信的沸石转轮批发厂家推荐分析，旋风除尘器/滤筒除尘器/沸石转轮+CO，沸石转轮企业推荐 - 品牌推荐师

DeepSleep-beta：为开发者设计的智能睡眠辅助工具技术解析

跨数据中心大模型训练：挑战与NeMo框架突破

MCP Router：统一管理AI助手工具链，告别配置碎片化

2026年4月市场优质的抖音广告代运营企业推荐，抖音短视频矩阵、AI广告/微信朋友圈广告，抖音广告代运营公司推荐 - 品牌推荐师

构建AI技能注册中心：实现微服务化智能体架构的核心组件

2026年4月优质的浮箱挖机推荐，浮箱材质抗腐蚀的耐用挖机 - 品牌推荐师

告别手动解析！用Python的cantools库5分钟搞定DBC文件，汽车工程师必备

AI开发环境容器化实践：基于Docker的一站式解决方案

为个人博客添加自定义动画光标：从CSS集成到性能优化

B站视频转文字：告别手动记录，让AI帮你整理视频内容

浏览器扩展Images Under Cursor：精准提取网页隐藏图片与视频资源

GetQzonehistory完整指南：5分钟永久备份QQ空间所有历史说说

从YOLOv3到PP-YOLOE-R：手把手带你拆解百度PaddlePaddle目标检测家族的‘进化树’

EDA工具链自动化：Edalize如何统一管理Verilator、Vivado等设计流程

Frama-C + WP插件 + Coq验证闭环（工业现场实测：单模块平均验证耗时＜8.3分钟，误报率＜0.7%）

别再瞎猜了！VASP/Quantum ESPRESSO计算中k点网格到底怎么设？一个案例讲透收敛性测试

DOM 改变节点

轻松下载Steam创意工坊模组：WorkshopDL终极免费指南 [特殊字符]

PMT模型：基于提示机制的图像视频分割技术解析

WorkshopDL完整指南：3步免费下载Steam创意工坊模组，跨平台游戏必备

避坑指南：PyTorch Unet预训练模型预测效果差？可能是你的测试图没选对！

Orient Anything V2：3D物体旋转估计的突破与应用

微信小程序校园寻物失物招领

3步搞定Zwift离线版：虚拟骑行训练终极实战指南

汽车电磁阀PWM控制与电流检测技术解析

罗技鼠标宏终极指南：如何为绝地求生游戏配置智能压枪脚本

设计自动化编排器：连接Figma与CI/CD的设计工作流引擎

5个关键技巧：如何用BBDown高效下载B站视频内容

如何轻松解锁鸣潮120FPS：WaveTools游戏优化完整指南