当前位置：首页 > news >正文

Fish Speech 1.5部署教程：从镜像选择到WebUI访问全流程

news 2026/3/26 21:30:03

Fish Speech 1.5部署教程：从镜像选择到WebUI访问全流程

1. 引言

Fish Speech 1.5是由Fish Audio开源的新一代文本转语音（TTS）模型，基于LLaMA架构与VQGAN声码器，支持零样本语音合成。用户仅需提供10-30秒的参考音频，即可克隆任意音色并生成中、英、日、韩等13种语言的高质量语音，无需针对特定说话人微调。本教程将手把手带你完成Fish Speech 1.5的完整部署流程，从镜像选择到WebUI访问，让你快速体验高质量的语音合成能力。

学习目标：通过本教程，你将学会如何部署Fish Speech 1.5镜像，并通过Web界面生成高质量语音。前置知识：基本Linux命令操作、了解Docker或云服务器基础概念。教程价值：无需复杂配置，小白友好，30分钟内即可完成部署并生成第一段语音。

2. 环境准备与镜像部署

2.1 选择合适的基础环境

Fish Speech 1.5镜像需要运行在支持CUDA的NVIDIA GPU环境中，建议显存不小于6GB。以下是推荐的基础配置：

操作系统：Ubuntu 20.04/22.04 LTS
GPU：NVIDIA Tesla T4/V100/A100（或消费级RTX 3060以上）
显存：≥6GB
驱动：CUDA 12.4 + PyTorch 2.5.0

2.2 部署镜像实例

在云平台镜像市场中选择fish-speech-1.5（内置模型版）v1镜像，点击"部署实例"。等待实例状态变为"已启动"（约需1-2分钟初始化，首次启动需60-90秒完成CUDA Kernel编译）。

# 查看实例状态 sudo docker ps -a | grep fish-speech

3. 服务启动与验证

3.1 启动服务并查看日志

使用提供的启动脚本启动服务：

# 运行启动脚本 bash /root/start_fish_speech.sh # 查看实时日志（新开终端） tail -f /root/fish_speech.log

当看到以下输出时，表示服务已就绪：

后端API已就绪 → 启动前端WebUI → Running on http://0.0.0.0:7860

3.2 验证服务状态

检查服务端口是否正常监听：

# 检查WebUI端口（7860） lsof -i :7860 # 检查API端口（7861，内部使用） lsof -i :7861

4. WebUI访问与使用

4.1 访问Web界面

在实例列表中找到部署的实例，点击"HTTP"入口按钮，或在浏览器直接访问http://<实例IP>:7860，打开Fish Speech交互页面。

4.2 生成第一段语音

按照以下步骤体验语音合成：

输入文本：在左侧"输入文本"框中输入测试内容，例如：
- 中文：你好，欢迎使用Fish Speech 1.5语音合成系统。
- 英文：Hello, welcome to Fish Speech text-to-speech system.
调整参数（可选）：
- 拖动"最大长度"滑块（默认1024 tokens，约20-30秒语音）
- 调整"温度"参数（0.1-1.0，默认0.7）
生成语音：点击"🎵 生成语音"按钮
- 状态栏显示"⏳ 正在生成语音..."（约2-5秒）
- 生成成功后变为" 生成成功"
试听与下载：
- 右侧音频播放器点击试听
- 点击" 下载WAV文件"保存到本地

4.3 高级功能：API调用

对于程序化调用，可以使用API接口：

curl -X POST http://127.0.0.1:7861/v1/tts \ -H "Content-Type: application/json" \ -d '{"text":"API测试","reference_id":null}' \ --output api_test.wav

5. 常见问题与解决方案

5.1 启动问题排查

问题现象	排查方法	解决方案
WebUI无法访问	`lsof -i :7860`检查端口	等待90秒首次编译完成
"后端API未就绪"	`lsof -i :7861`检查后端	查看日志`tail -50 /root/fish_speech.log`
生成超时	检查输入文本长度	缩短文本或增大`max_tokens`参数

5.2 音频生成问题

问题现象	可能原因	解决方案
生成的音频无声	文件大小异常（应>10KB）	重新生成，或调大`max_tokens`
音色克隆无效	使用WebUI而非API	WebUI当前不支持音色克隆，需用API调用

6. 技术细节与进阶使用

6.1 模型架构特点

Fish Speech 1.5采用双服务架构：

前端WebUI：Gradio 6.2.0（端口7860，对外访问）
后端API：FastAPI服务（端口7861，内部调用）
通信方式：WebUI通过HTTP请求调用后端API

6.2 文件位置说明

启动脚本：/root/start_fish_speech.sh
模型权重：/root/fish-speech/checkpoints/fish-speech-1___5/
运行日志：/root/fish_speech.log
生成缓存：/tmp/fish_speech_*.wav

6.3 自定义参数配置

通过修改API调用参数实现高级功能：

curl -X POST http://127.0.0.1:7861/v1/tts \ -H "Content-Type: application/json" \ -d '{ "text":"自定义参数测试", "reference_id":null, "max_new_tokens":2048, "temperature":0.5 }' \ --output custom_test.wav