当前位置：首页 > news >正文

GLM-TTS批量推理教程：一键处理上百条语音，效率提升10倍

news 2026/5/12 11:03:58

GLM-TTS批量推理教程：一键处理上百条语音，效率提升10倍

1. 为什么需要批量语音合成

在日常工作中，我们经常会遇到需要生成大量语音的场景：

为电商平台数百个商品生成语音介绍
制作多语言版本的培训材料
批量创建有声读物章节
为智能客服系统准备语音回复库

传统方法需要手动逐条输入文本、上传参考音频、点击合成按钮，不仅效率低下，还容易出错。GLM-TTS的批量推理功能可以完美解决这些问题，让您一键处理上百条语音任务，效率提升10倍以上。

2. 准备工作与环境配置

2.1 启动GLM-TTS Web界面

首先确保您已经正确部署了GLM-TTS镜像。启动Web界面的方法有两种：

推荐方式：使用启动脚本

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh

直接运行方式

cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 python app.py

启动成功后，在浏览器中访问：http://localhost:7860

重要提示：每次启动前必须先激活torch29虚拟环境，否则会报错。

2.2 准备参考音频库

批量推理需要准备一组参考音频文件，建议：

创建专门的目录存放参考音频，如/root/GLM-TTS/examples/prompt/
每个音频文件3-10秒长度，清晰无背景噪音
命名规范：speaker1_001.wav、speaker2_001.wav等
不同音色的音频分开存放，便于后续管理

3. 批量推理实战指南

3.1 创建任务配置文件

批量推理使用JSONL格式的任务文件，每行代表一个语音合成任务。下面是一个完整的创建过程：

新建文本文件，命名为batch_tasks.jsonl
按照以下格式添加任务：

{ "prompt_text": "欢迎使用智能语音合成系统", "prompt_audio": "examples/prompt/speaker1_001.wav", "input_text": "这款手机采用最新处理器，续航长达48小时", "output_name": "product_001" } { "prompt_text": "今天的天气真不错", "prompt_audio": "examples/prompt/speaker2_001.wav", "input_text": "本季度销售额同比增长30%，表现优异", "output_name": "report_001" }

关键字段说明：

prompt_text：参考音频对应的文本内容（可选，但建议填写）
prompt_audio：参考音频文件路径（必填）
input_text：需要合成的文本内容（必填）
output_name：输出文件名（可选，不填则自动生成）

3.2 上传并执行批量任务

在Web界面切换到"批量推理"标签页
点击"上传JSONL文件"按钮，选择刚才创建的batch_tasks.jsonl
设置合成参数：
- 采样率：24kHz（快速）或32kHz（高质量）
- 随机种子：固定值（如42）可确保结果可复现
- 输出目录：默认为@outputs/batch/，可自定义
点击"开始批量合成"按钮

系统会显示实时进度，包括已完成任务数、剩余时间和当前处理的任务内容。

3.3 处理结果与输出

批量任务完成后：

所有生成的音频文件会保存在指定输出目录
系统会自动打包成ZIP文件供下载
文件命名规则：
- 如果指定了output_name，则保存为output_name.wav
- 未指定则按output_0001.wav、output_0002.wav顺序命名

典型输出目录结构：

@outputs/batch/ ├── product_001.wav ├── report_001.wav └── batch_output.zip

4. 高级批量处理技巧

4.1 使用脚本自动化任务生成

对于大量任务，手动编写JSONL文件效率低下。可以使用Python脚本自动生成：

import json # 基础配置 base_audio = "examples/prompt/speaker1_{:03d}.wav" output_dir = "@outputs/batch/" # 读取文本内容 with open("product_descriptions.txt", "r") as f: texts = [line.strip() for line in f.readlines() if line.strip()] # 生成任务文件 with open("auto_tasks.jsonl", "w") as out: for i, text in enumerate(texts, 1): task = { "prompt_text": "这是参考文本", "prompt_audio": base_audio.format(i % 5 + 1), # 循环使用5个参考音频 "input_text": text, "output_name": f"product_{i:03d}" } out.write(json.dumps(task, ensure_ascii=False) + "\n")

4.2 多音色批量合成

如果需要混合多种音色，可以在任务文件中指定不同的参考音频：

{"prompt_audio": "examples/prompt/male_voice.wav", "input_text": "男性声音的解说", "output_name": "male_001"} {"prompt_audio": "examples/prompt/female_voice.wav", "input_text": "女性声音的解说", "output_name": "female_001"}

4.3 长文本自动分割处理

GLM-TTS对单次合成的文本长度有限制（建议不超过200字）。对于长文本，可以预先分割：

from textwrap import wrap long_text = "..." # 你的长文本 chunks = wrap(long_text, width=150) # 每150字分割 tasks = [] for i, chunk in enumerate(chunks, 1): tasks.append({ "prompt_audio": "examples/prompt/narrator.wav", "input_text": chunk, "output_name": f"chapter1_part{i:02d}" })