当前位置：首页 > news >正文

s2-pro语音合成教程：Web界面操作与后台API请求体结构对照说明

news 2026/4/12 21:32:00

s2-pro语音合成教程：Web界面操作与后台API请求体结构对照说明

1. 平台介绍

s2-pro是Fish Audio开源的专业级语音合成模型镜像，能够将文本转换为自然流畅的语音。该镜像最突出的特点是支持通过参考音频复用音色，这意味着你可以上传一段语音样本，让系统模仿该声音特征来合成新的语音内容。

2. Web界面操作指南

2.1 基础语音合成

输入合成文本：
- 在"合成文本"输入框中输入需要转换为语音的文字内容
- 建议初次使用时输入1-3句话进行测试
- 示例：欢迎使用s2-pro语音合成系统
选择输出格式：
- 默认输出格式为WAV
- 可切换为MP3格式以减小文件体积
点击生成按钮：
- 系统将开始处理文本并生成语音
- 生成完成后可在线试听或下载音频文件

2.2 音色复用功能

上传参考音频：
- 点击"参考音频"区域上传音频文件
- 支持常见音频格式如WAV、MP3等
- 建议音频清晰，无明显背景噪音
填写参考文本：
- 必须准确填写参考音频对应的文字内容
- 系统将分析音频特征并与文本对齐
- 示例：如果参考音频说的是"今天天气真好"，则必须填写相同文字
生成语音：
- 系统将基于参考音频的音色特征合成新语音
- 生成语音将保留参考音频的声线特点

3. API接口使用详解

3.1 请求体结构

s2-pro提供后台API接口，请求体为JSON格式，主要参数如下：

{ "text": "需要合成的文本内容", "audio_reference": "参考音频的Base64编码", "reference_text": "参考音频对应的文本", "output_format": "wav", "chunk_length": 200, "max_new_tokens": 256, "top_p": 0.8, "temperature": 0.8, "repetition_penalty": 1.1, "seed": null }

3.2 参数对照说明

Web界面参数	API参数	说明
合成文本	text	必填，需要转换为语音的文本内容
参考音频	audio_reference	可选，参考音频的Base64编码
参考音频文本	reference_text	使用参考音频时必填
输出格式	output_format	支持wav或mp3，默认wav
Chunk Length	chunk_length	默认200
Max New Tokens	max_new_tokens	控制生成语音长度，默认256
Top P	top_p	影响语音多样性，默认0.8
Temperature	temperature	影响语音随机性，默认0.8
Repetition Penalty	repetition_penalty	避免重复，默认1.1
Seed	seed	随机种子，留空则随机

3.3 示例请求

基础语音合成请求：

import requests url = "http://127.0.0.1:7860/api/tts" headers = {"Content-Type": "application/json"} data = { "text": "欢迎使用s2-pro语音合成系统", "output_format": "wav" } response = requests.post(url, json=data, headers=headers) with open("output.wav", "wb") as f: f.write(response.content)

音色复用请求：

import base64 with open("reference.wav", "rb") as audio_file: audio_base64 = base64.b64encode(audio_file.read()).decode("utf-8") data = { "text": "这是使用参考音色生成的新语音", "audio_reference": audio_base64, "reference_text": "这是参考音频的原始文本", "output_format": "mp3" } response = requests.post(url, json=data, headers=headers)

4. 实用技巧与建议

4.1 文本处理建议

保持句子结构完整，避免过长段落
适当添加标点符号控制语音停顿
数字、缩写等特殊内容建议写全称
示例优化：
- 差：会议3.15下午2点302室
- 好：会议于三月十五日下午两点在三百零二室举行

4.2 音色复用技巧

参考音频选择：
- 优先选择清晰、无背景噪音的音频
- 单人说话效果最佳，避免多人对话
- 时长建议5-20秒
参考文本要求：
- 必须与音频内容完全一致
- 包含音频中所有的语气词和停顿
- 示例：
  - 音频："嗯...这个问题很有意思"
  - 参考文本也应包含"嗯..."和停顿
效果优化：
- 可尝试调整temperature(0.5-1.2)改变语音自然度
- 适当提高max_new_tokens可生成长语音
- 多次生成选择最佳效果

5. 常见问题解决

5.1 服务状态检查

页面无法打开：

supervisorctl status s2-pro ss -ltnp | grep 7860

API请求失败：
- 首先检查本地服务状态：
```
curl http://127.0.0.1:7860/health
```
- 返回200表示服务正常
启动缓慢：
- 首次启动需要加载模型和预热
- 预热完成后7860端口才会提供服务

5.2 生成问题排查

无语音输出：
- 检查文本是否包含特殊字符
- 尝试缩短文本长度
- 查看API日志：
```
tail -n 200 /root/workspace/s2-pro-api.log
```
音色复用失败：
- 确认参考音频和参考文本都已提供
- 检查参考文本是否与音频内容完全匹配
- 尝试不同的参考音频
语音质量不佳：
- 调整temperature和top_p参数
- 尝试不同的输出格式
- 检查文本是否有歧义或生僻词