当前位置：首页 > news >正文

快速部署Fish-Speech 1.5：WebUI+API双服务，满足不同使用场景

news 2026/3/26 23:29:20

快速部署Fish-Speech 1.5：WebUI+API双服务，满足不同使用场景

1. 项目概述

Fish-Speech 1.5是一款创新的开源文本转语音(TTS)模型，采用独特的DualAR架构设计。相比传统TTS系统，它具备以下核心优势：

双自回归Transformer设计：主Transformer以21Hz运行处理时序，次Transformer专注声学特征转换，计算效率与语音质量同步提升
无音素依赖：直接处理原始文本，无需复杂语音规则库，泛化能力显著增强
多场景适配：同时提供WebUI交互界面和RESTful API，满足不同使用需求

2. 服务部署与验证

2.1 服务状态确认

部署完成后，系统会自动启动两个服务：

# 查看服务状态 supervisorctl status

预期输出应包含：

fish-speech-webui RUNNING pid 1234, uptime 0:05:21 fish-speech RUNNING pid 1235, uptime 0:05:20

2.2 服务访问方式

服务类型	访问地址	适用场景	默认端口
WebUI	http://<服务器IP>:7860	交互式使用，适合个人测试	7860
API	http://<服务器IP>:8080	程序化调用，适合集成开发	8080

3. WebUI使用指南

3.1 界面功能分区

WebUI界面采用直观的左右布局：

左侧输入区：
- 文本输入框（支持2000字以内内容）
- 参考音频上传区域
右侧控制区：
- 基础参数调节滑块
- 生成/停止按钮
- 音频播放器与下载选项

3.2 基础使用流程

在文本框中输入需要合成的文字内容
（可选）上传5-10秒参考音频用于音色克隆
点击"生成"按钮等待处理
播放或下载生成的音频文件

关键提示：务必等待界面显示"实时规范化文本同步完成"后再点击生成，确保文本预处理正确。

4. API接口调用

4.1 API文档访问

内置Swagger UI文档，可通过浏览器访问：

http://<服务器IP>:8080/

4.2 Python调用示例

import requests API_URL = "http://<服务器IP>:8080/v1/tts" def generate_speech(text, output_file="output.wav"): payload = { "text": text, "format": "wav", "temperature": 0.7, "top_p": 0.7 } response = requests.post(API_URL, json=payload) if response.status_code == 200: with open(output_file, "wb") as f: f.write(response.content) print(f"音频已保存至 {output_file}") else: print(f"生成失败，状态码：{response.status_code}") # 示例调用 generate_speech("欢迎使用Fish-Speech语音合成系统")

4.3 cURL调用示例

curl -X POST "http://<服务器IP>:8080/v1/tts" \ -H "Content-Type: application/json" \ -d '{"text":"这是一个API测试示例","format":"mp3"}' \ --output test.mp3

5. 参数配置详解

5.1 核心参数说明

参数	类型	默认值	作用说明
text	string	必填	需要合成的文本内容
format	string	wav	输出格式(wav/mp3/flac)
temperature	float	0.7	控制语音随机性(0.6-0.9)
top_p	float	0.7	控制生成多样性(0.6-0.9)

5.2 音色克隆参数

当需要克隆特定音色时，需提供以下额外参数：

{ "reference_audio": "/path/to/audio.wav", "reference_text": "这段音频对应的文字内容", "use_memory_cache": true }

6. 性能优化建议

6.1 硬件资源配置

配置项	推荐规格	说明
GPU	NVIDIA RTX 3060+	显存≥8GB效果最佳
内存	16GB+	处理长文本时需要
存储	SSD硬盘	提升模型加载速度

6.2 参数调优策略

短文本响应：增大chunk_length(200-300)提升连贯性
长文本生成：适当降低max_new_tokens(512-768)避免OOM
语音自然度：temperature=0.65-0.75，top_p=0.7-0.8平衡稳定性与表现力

7. 常见问题排查

7.1 服务启动失败

# 查看错误日志 tail -n 100 /var/log/fish-speech-webui.err.log tail -n 100 /var/log/fish-speech.err.log # 常见解决方案 1. 检查端口冲突：netstat -tulnp | grep -E '7860|8080' 2. 验证GPU驱动：nvidia-smi 3. 检查依赖：pip list | grep torch