当前位置：首页 > news >正文

本地部署OpenAI TTS兼容API：免费、低延迟的语音合成方案

news 2026/5/7 6:38:35

1. 项目概述：一个本地化的OpenAI TTS兼容API

如果你正在开发一个需要语音合成功能的AI应用，比如智能助手、有声读物生成器或者交互式聊天机器人，那么你大概率绕不开OpenAI的TTS（文本转语音）API。它好用，但有两个绕不开的问题：一是需要付费，二是网络延迟。对于需要频繁调用、追求实时响应，或者希望将应用完全本地化部署的开发者来说，这无疑增加了成本和不确定性。

今天要聊的这个项目——travisvn/openai-edge-tts，就是为了解决这两个痛点而生的。简单来说，它在你自己的服务器或电脑上，搭建了一个与OpenAI TTS API接口完全兼容的服务。你原来调用OpenAI TTS的代码，几乎可以无缝切换到这个本地服务上。而它的核心引擎，是微软Edge浏览器内置的、完全免费的在线文本转语音服务（edge-tts）。这意味着，你获得了一个功能强大、免费、且可以完全掌控的语音合成方案。

这个项目特别适合几类人：一是个人开发者或小团队，希望在不增加API成本的前提下为应用添加语音功能；二是正在使用Ollama、Open WebUI、AnythingLLM等本地大模型框架的玩家，想要补全“语音输出”这最后一环；三是任何对数据隐私有要求，希望语音生成过程不经过第三方服务器的场景。接下来，我会从设计思路到实操部署，再到深度集成和问题排查，为你完整拆解这个项目。

2. 核心设计思路与方案选型

2.1 为什么选择兼容OpenAI API？

这个项目的首要设计目标是“无缝替换”。OpenAI的API设计已经成为事实上的行业标准之一，尤其是对于已经围绕其生态构建的应用（如各类AI前端WebUI）而言。直接兼容OpenAI的/v1/audio/speech端点，带来了巨大的便利性：

迁移成本极低：你不需要重写现有的客户端代码。只需将请求的URL从api.openai.com改为你本地的服务地址，并配置一个虚拟的API Key即可。
生态兼容性好：像Open WebUI、AnythingLLM这类工具，在设计上就预设了对接OpenAI格式的TTS服务。使用这个项目，你可以在这些工具的设置页面直接填入本地地址，瞬间获得语音能力，体验与使用官方API无异。
接口规范统一：请求体结构（input,voice,speed,response_format）、响应格式（二进制音频流或SSE流）都保持一致，降低了学习和使用门槛。

2.2 为什么底层使用Edge-TTS？

在确定了接口规范后，下一个关键决策是选择哪个TTS引擎。项目作者选择了edge-tts，这是一个基于微软Edge浏览器语音服务的Python库。这个选择背后有非常务实的考量：

完全免费：这是最核心的优势。微软通过Edge浏览器提供了高质量的神经网络语音服务，edge-tts库巧妙地利用了这一点，绕过了商业API的收费环节。
音质出色：微软的语音合成技术（尤其是神经语音）在自然度和情感表达上属于第一梯队，支持多种语言和丰富的音色（Voice），足以满足绝大多数应用场景。
无需本地模型：与需要下载数GB模型的本地TTS引擎（如Coqui TTS）不同，edge-tts本身不包含模型，它作为一个客户端向微软的在线服务发起请求。这意味着部署极其轻量，不占用大量磁盘空间，但同时也带来了对网络连接的依赖。

注意：虽然服务本身免费，但使用edge-tts需要能够访问微软的TTS服务端点。在某些网络环境下可能需要留意。不过，对于部署在公网或标准网络环境下的服务器，这通常不是问题。

2.3 核心功能架构解析

项目在edge-tts的基础上，构建了一个完整的HTTP API服务层。这个服务层主要做了以下几件事：

请求适配与验证：接收符合OpenAI格式的HTTP POST请求，解析JSON参数，并进行必要的验证（如API Key校验、参数范围检查）。
参数映射与转换：将OpenAI风格的参数（如voice: “alloy”）映射到edge-tts能识别的语音标识符（如voice: “en-US-AvaNeural”）。项目内置了一个映射表，让用户可以用熟悉的OpenAI音色名来调用。
音频流处理：调用edge-tts生成音频流。根据请求的response_format（如mp3,wav），服务层可能会调用ffmpeg进行实时转码，以满足不同格式需求。
响应流式输出：支持两种输出模式。一是标准的二进制音频流，直接返回音频文件；二是SSE（Server-Sent Events）流，将音频数据分块编码为Base64，通过事件流（Event Stream）实时推送给客户端，特别适合Web前端实现“边生成边播放”的效果。
辅助功能：提供了额外的端点，如/v1/voices，用于查询edge-tts支持的所有语音列表，方便开发者动态选择。

这种架构使得项目既保持了上游edge-tts的免费和高品质特性，又提供了下游应用所需的标准化、易用性接口。

3. 详细部署与配置指南

3.1 环境准备：Docker是最佳选择

虽然项目支持纯Python运行，但我强烈推荐使用Docker进行部署。Docker将应用及其所有依赖（Python版本、库、甚至可选的ffmpeg）打包在一个隔离的容器中，保证了环境的一致性，避免了“在我机器上能跑”的经典问题。

安装Docker：前往Docker官网下载并安装适合你操作系统（Windows/macOS/Linux）的Docker Desktop或Docker Engine。安装后，在终端运行docker --version确认安装成功。
安装Docker Compose：Docker Desktop通常已包含。Linux用户可能需要单独安装。运行docker compose version检查。

3.2 两种部署方式详解

方式一：极速启动（适用于快速体验）

这是最快上手的方式，直接从Docker Hub拉取预构建的镜像运行。

docker run -d -p 5050:5050 \ -e API_KEY=your_secret_key_here \ -e PORT=5050 \ travisvn/openai-edge-tts:latest

参数拆解：

-d：让容器在后台运行。
-p 5050:5050：将宿主机的5050端口映射到容器的5050端口。你可以把前一个5050改成宿主机上任何未被占用的端口。
-e：设置环境变量。这里设置了API密钥和端口。
travisvn/openai-edge-tts:latest：指定要运行的镜像名称和标签。

执行后，服务就在http://localhost:5050运行起来了。你可以立刻用curl命令测试。

方式二：自定义构建与部署（推荐用于生产）

对于长期使用，我更推荐使用docker-compose配合.env配置文件的方式。这种方式管理方便，配置清晰，易于版本控制。

克隆项目代码：

git clone https://github.com/travisvn/openai-edge-tts.git cd openai-edge-tts

配置环境变量：项目根目录下有一个.env.example文件，复制它并创建你自己的.env文件。

cp .env.example .env

然后编辑.env文件，以下是最关键的几个配置项说明：

# 你的API密钥，任何字符串均可，用于客户端鉴权 API_KEY=your_very_secret_key_123 # 服务监听的端口 PORT=5050 # 默认语音，当请求未指定voice时使用。可以从 https://tts.travisvn.com/ 挑选 DEFAULT_VOICE=en-US-AvaNeural # 默认音频格式 DEFAULT_RESPONSE_FORMAT=mp3 # 默认语速 DEFAULT_SPEED=1.0 # 是否强制要求API Key（生产环境建议True） REQUIRE_API_KEY=True # 是否移除edge-tts的内容过滤器（谨慎开启，可能生成不合适内容） REMOVE_FILTER=False # 是否启用扩展API（如/voices端点） EXPAND_API=True

关于FFmpeg的抉择：ffmpeg是音视频处理的瑞士军刀，本项目用它来转换音频格式（如将opus转为mp3）。
- 如果你只需要mp3格式：那么可以不用ffmpeg，因为edge-tts原生支持输出mp3。使用latest标签的镜像即可。
- 如果你需要wav、flac、aac等其他格式：必须使用包含ffmpeg的镜像。你有两个选择：
  - 使用预构建的FFmpeg镜像：在docker run命令中，将镜像标签改为latest-ffmpeg。
  - 本地构建时包含FFmpeg：在运行docker compose up --build之前，设置环境变量INSTALL_FFMPEG_ARG=true。可以直接在.env文件末尾添加这一行。

启动服务：

# 前台启动，方便查看日志 docker compose up --build # 或，后台启动 docker compose up -d --build

使用docker compose logs -f可以实时查看容器日志，对于排查问题非常有用。

3.3 关键配置项深度解析

REQUIRE_API_KEY：设置为True时，客户端必须在请求头中携带Authorization: Bearer <API_KEY>。这是一个基本的安全措施，防止你的TTS服务被随意调用。即使API Key是自定的，也建议开启。
REMOVE_FILTER：edge-tts服务端有一个内容过滤器，可能会拒绝合成某些它认为不安全的文本。开启此选项可以绕过过滤，但请务必谨慎，你需要对自己生成的内容负全责。
DEFAULT_LANGUAGE：这个设置主要影响/v1/voices列表的默认过滤。即使这里设为en-US，你依然可以在请求中指定任何edge-tts支持的语音（如ja-JP-NanamiNeural）来合成其他语言。

4. 核心API使用与客户端集成实战

服务跑起来后，我们来深入看看怎么用它。它的核心端点只有一个：POST /v1/audio/speech，但玩法多样。

4.1 基础音频生成与播放

最基本的用法是生成一个音频文件。以下curl命令演示了如何合成一段语音并保存为hello.mp3。

curl -X POST http://localhost:5050/v1/audio/speech \ -H "Content-Type: application/json" \ -H "Authorization: Bearer your_very_secret_key_123" \ -d '{ "model": "tts-1", # 或 "tts-1-hd"，本项目两者等效 "input": "欢迎使用本地部署的文本转语音服务。这是一个测试。", "voice": "nova", # 使用OpenAI音色名 "response_format": "mp3", "speed": 1.2 }' \ --output hello.mp3

实操心得：voice参数非常灵活。你可以直接使用OpenAI的六种音色名（alloy,echo,fable,onyx,nova,shimmer），项目内部会映射到对应的Edge语音。你也可以直接使用从/v1/voices端点查到的任意edge-tts语音ID，例如zh-CN-XiaoxiaoNeural（中文女声）。

如果你想立即听到声音而不保存文件，可以配合ffplay（FFmpeg的一部分）实现管道播放：

curl -X POST http://localhost:5050/v1/audio/speech \ -H "Authorization: Bearer your_very_secret_key_123" \ -H "Content-Type: application/json" \ -d '{"input": "正在实时播放音频", "voice": "alloy"}' | ffplay -autoexit -nodisp -i -

这个命令将生成的音频流直接通过管道|传递给ffplay进行播放。-autoexit表示播放完后自动退出，-nodisp表示不显示图形窗口（适合后台运行）。

4.2 流式传输（SSE）与Web集成

对于需要低延迟、实时反馈的Web应用，SSE流式传输是更好的选择。服务器会将音频数据切成小块，源源不断地发送给浏览器，浏览器可以边接收边解码播放。

服务端请求：只需要在请求体中加上"stream_format": "sse"。

curl -X POST http://localhost:5050/v1/audio/speech \ -H "Content-Type: application/json" \ -H "Authorization: Bearer your_very_secret_key_123" \ -d '{ "input": "这是一段通过服务器发送事件流式传输的语音。", "voice": "echo", "stream_format": "sse" }'

你会看到服务器返回的不是二进制数据，而是一行行data: {...}格式的文本流，其中audio字段是Base64编码的音频数据块。

Web前端集成示例：以下是一个完整的HTML/JavaScript示例，展示如何在网页中接收SSE流并实时播放。

<!DOCTYPE html> <html> <body> <button onclick="speak()">合成并播放语音</button> <audio id="audioPlayer" controls></audio> <script> async function speak() { const apiUrl = 'http://localhost:5050/v1/audio/speech'; const apiKey = 'your_very_secret_key_123'; const text = document.getElementById('textInput').value || '你好，世界！'; const response = await fetch(apiUrl, { method: 'POST', headers: { 'Content-Type': 'application/json', 'Authorization': `Bearer ${apiKey}` }, body: JSON.stringify({ input: text, voice: 'zh-CN-XiaoxiaoNeural', // 使用中文语音 stream_format: 'sse' }) }); const reader = response.body.getReader(); const decoder = new TextDecoder(); const audioChunks = []; while (true) { const { done, value } = await reader.read(); if (done) break; const chunkStr = decoder.decode(value); // SSE流可能一次收到多行，需要按行分割处理 const lines = chunkStr.split('\n').filter(line => line.trim()); for (const line of lines) { if (line.startsWith('data: ')) { try { const data = JSON.parse(line.slice(6)); // 去掉"data: "前缀 if (data.type === 'speech.audio.delta') { // 解码Base64音频块并存储 const binaryString = atob(data.audio); const bytes = new Uint8Array(binaryString.length); for (let i = 0; i < binaryString.length; i++) { bytes[i] = binaryString.charCodeAt(i); } audioChunks.push(bytes); } else if (data.type === 'speech.audio.done') { console.log('合成完成，总令牌数:', data.usage?.total_tokens); // 合并所有音频块 const totalLength = audioChunks.reduce((sum, chunk) => sum + chunk.length, 0); const fullAudioArray = new Uint8Array(totalLength); let offset = 0; for (const chunk of audioChunks) { fullAudioArray.set(chunk, offset); offset += chunk.length; } // 创建Blob并播放 const audioBlob = new Blob([fullAudioArray], { type: 'audio/mpeg' }); const audioUrl = URL.createObjectURL(audioBlob); document.getElementById('audioPlayer').src = audioUrl; document.getElementById('audioPlayer').play(); return; } } catch (e) { console.error('解析SSE数据出错:', e); } } } } } </script> <textarea id="textInput" rows="4" cols="50">请输入要合成的文本...</textarea> </body> </html>

4.3 与主流AI前端深度集成

这才是本项目威力最大的地方：让你现有的本地AI应用“开口说话”。

集成到 Open WebUI

Open WebUI（原Ollama WebUI）是目前最流行的本地大模型聊天前端之一。

确保你的Open WebUI和openai-edge-tts都在运行。如果都用Docker运行，在Open WebUI容器内，localhost指的是容器自己，而不是宿主机。你需要使用特殊的Docker域名host.docker.internal来访问宿主机的服务。
进入Open WebUI管理界面（Settings -> Audio）。
配置如下：
- TTS Provider: 选择OpenAI。
- OpenAI API Key: 填写你在.env里设置的API_KEY（如your_very_secret_key_123）。
- OpenAI Base URL: 填写http://host.docker.internal:5050/v1（如果Open WebUI和TTS服务在同一台宿主机，且都使用Docker）。如果TTS服务运行在另一台机器，则填写其IP和端口，如http://192.168.1.100:5050/v1。
- Model: 填写tts-1或tts-1-hd。
- Voice: 选择你喜欢的音色，如alloy。

配置完成后，在聊天界面，当AI回复时，点击旁边的喇叭图标，就能听到流畅的语音了。

集成到 AnythingLLM

AnythingLLM是另一个功能强大的本地文档问答和聊天应用。

进入AnythingLLM设置（Settings -> Voice & Speech）。
在“Select a Text-to-Speech Provider”下，选择“Generic OpenAI TTS”。
配置如下：
- Endpoint:http://localhost:5050/v1（如果AnythingLLM和TTS服务在同一台机器上非Docker运行）。如果是Docker环境，同样可能需要使用host.docker.internal。
- Model:tts-1。
- Key: 你的API_KEY。

保存后，在聊天中启用语音，即可体验。

重要提示：在Docker跨容器通信时，localhost的问题非常常见。如果集成不成功，首先检查网络连通性。可以在运行AI前端的容器内，使用curl http://host.docker.internal:5050/v1/models测试是否能访问到TTS服务。

5. 高级技巧与性能调优

5.1 语音选择与音色定制

edge-tts提供了数百种语音，涵盖多种语言、方言、年龄和性别。通过项目的/v1/voices端点可以查询全部列表。

curl -H "Authorization: Bearer your_key" http://localhost:5050/v1/voices

你可以通过language参数过滤，例如/v1/voices?language=zh-CN来获取所有中文语音。找到心仪的语音后，直接在请求的voice参数中使用其完整的ShortName，例如zh-CN-YunxiNeural（年轻男声）、zh-CN-XiaoyiNeural（年轻女声）。

实操心得：不同语音对语速（speed）参数的敏感度不同。有些语音在语速过快（>1.5）时可能失真，建议在正式使用前，用不同语速测试一下目标语音的效果。

5.2 处理长文本与稳定性

OpenAI TTS API有4096字符的长度限制，本项目也继承了这个限制。对于超长文本，需要在客户端进行切分。

一个稳健的切分策略是：

按标点符号（句号、问号、感叹号）进行分句。
将句子组合成不超过4000字符的段落（留出缓冲空间）。
依次请求每个段落的音频。
在客户端（或服务器端）使用pydub、ffmpeg等工具将多个音频文件拼接起来。

示例Python代码片段（客户端拼接）：

import requests from pydub import AudioSegment import io def synthesize_long_text(text, api_url, api_key, voice='alloy', chunk_size=4000): # 简单的分句逻辑（实际应用需要更健壮的分句器） sentences = text.replace('。', '。|').replace('！', '！|').replace('？', '？|').split('|') chunks = [] current_chunk = "" for s in sentences: if len(current_chunk) + len(s) < chunk_size: current_chunk += s else: if current_chunk: chunks.append(current_chunk) current_chunk = s if current_chunk: chunks.append(current_chunk) audio_segments = [] for idx, chunk in enumerate(chunks): print(f"正在合成第 {idx+1}/{len(chunks)} 段...") resp = requests.post( f"{api_url}/v1/audio/speech", headers={"Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}, json={"input": chunk, "voice": voice, "response_format": "mp3"}, stream=True ) # 将二进制响应写入内存文件对象，供pydub读取 audio_data = io.BytesIO(resp.content) segment = AudioSegment.from_file(audio_data, format="mp3") audio_segments.append(segment) # 可选：在段之间添加短暂静音 audio_segments.append(AudioSegment.silent(duration=200)) # 200毫秒静音 # 合并所有音频段 final_audio = sum(audio_segments) # 导出最终文件 final_audio.export("long_speech.mp3", format="mp3")

5.3 容器化部署的性能考量

如果你在服务器上部署，可能需要处理更高的并发请求。

资源限制：在docker-compose.yml中，可以为服务设置资源限制，防止单个容器占用过多资源。

services: openai-edge-tts: image: travisvn/openai-edge-tts:latest-ffmpeg container_name: tts-service ports: - "5050:5050" env_file: - .env deploy: # 或者使用 resources 字段（取决于Compose版本） resources: limits: cpus: '1.0' memory: 512M reservations: cpus: '0.5' memory: 256M restart: unless-stopped

反向代理与负载均衡：对于生产环境，建议使用Nginx或Caddy作为反向代理，提供HTTPS、负载均衡和缓冲。一个简单的Nginx配置示例如下：

upstream tts_backend { server host.docker.internal:5050; # 或者你的容器IP:端口 # 如果你启动了多个实例，可以在这里添加多个server行实现负载均衡 # server 192.168.1.101:5050; # server 192.168.1.102:5050; } server { listen 443 ssl; server_name tts.yourdomain.com; ssl_certificate /path/to/your/cert.pem; ssl_certificate_key /path/to/your/key.pem; location / { proxy_pass http://tts_backend; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; # 以下两行对SSE流很重要 proxy_buffering off; proxy_cache off; } }

配置完成后，你的客户端就可以通过https://tts.yourdomain.com/v1/audio/speech来访问服务了。

6. 常见问题排查与解决方案实录

在实际部署和使用中，你可能会遇到一些问题。下面是我在多次部署中总结的常见问题及其解决方法。

6.1 网络与连接问题

问题1：容器内服务无法访问宿主机或其他容器服务（如Open WebUI集成失败）。

症状：在Open WebUI中配置TTS后，点击播放无声音，浏览器开发者工具网络面板显示Failed to fetch或连接超时。
排查：首先在运行Open WebUI的容器内执行curl http://host.docker.internal:5050/v1/models。如果返回curl: (6) Could not resolve host，说明Docker的host.docker.internal域名解析不支持（某些Linux原生Docker环境）。
解决：
1. 方法A（推荐）：使用自定义Docker网络。创建一个网络并将所有相关容器加入。
```
docker network create my_ai_network # 运行TTS服务时指定网络 docker run -d --network my_ai_network --name tts-service -p 5050:5050 ... travisvn/openai-edge-tts:latest # 运行Open WebUI时也加入同一网络，并使用容器名访问 # 在Open WebUI设置中，Base URL改为 http://tts-service:5050/v1
```
2. 方法B：使用宿主机IP。在宿主机上执行ip addr show或ifconfig找到本机在内网的IP（如192.168.1.100）。在Open WebUI设置中，Base URL改为http://192.168.1.100:5050/v1。注意防火墙需放行5050端口。

问题2：edge-tts连接微软服务超时或失败。

症状：请求TTS API返回5xx错误，查看容器日志发现类似Connection to tts speech platform timed out的错误。
排查：这通常是因为部署openai-edge-tts的服务器无法访问微软的TTS服务端点。可能是服务器位于受限网络，或DNS解析有问题。
解决：
1. 在服务器上尝试curl -v https://speech.platform.bing.com，看是否能连通。
2. 检查服务器的DNS配置，可以尝试在Docker运行命令中指定公共DNS，如--dns 8.8.8.8 --dns 8.8.4.4。
3. 如果服务器在特殊网络环境，可能需要配置网络代理。这需要在容器内设置HTTP_PROXY和HTTPS_PROXY环境变量。

6.2 音频格式与播放问题

问题3：请求返回500 Internal Server Error，日志提示需要ffmpeg但未安装。

症状：请求response_format为wav或flac时失败，请求mp3则正常。日志错误信息包含ffmpeg。
解决：确保你使用的Docker镜像是latest-ffmpeg标签，或者在本地构建时设置了INSTALL_FFMPEG_ARG=true环境变量。重新构建或拉取正确的镜像即可。

问题4：生成的音频播放速度异常快或慢，或有杂音。

症状：在播放器里听到的语速与设置的speed参数不符，或者有爆音、卡顿。
排查：
1. 语速问题：检查speed参数是否在有效范围（0.25-4.0）内。某些播放器或音频处理库可能对极端值（如<0.5或>3.0）支持不佳。
2. 杂音问题：这可能是edge-tts服务端的问题，或者是音频流在传输、转码过程中出现问题。尝试更换另一种voice，或者换一种response_format（如从mp3换成opus）看是否改善。
3. SSE流播放问题：Web前端代码中，如果Base64解码或音频块拼接逻辑有误，会导致音频损坏。确保你正确地将所有speech.audio.delta事件的音频数据按顺序拼接。

6.3 配置与请求错误

问题5：请求返回401 Unauthorized错误。

症状：curl或客户端请求时收到401状态码。
排查：检查请求头中的Authorization: Bearer <API_KEY>是否正确。确认.env文件中的API_KEY与请求中使用的完全一致（注意空格和大小写）。同时确认REQUIRE_API_KEY环境变量是否为True。

问题6：请求返回422 Unprocessable Entity或400 Bad Request。

症状：API返回错误，提示参数无效。
排查：这是最常见的参数错误。
1. 检查input文本长度：是否超过4096字符。
2. 检查voice参数：是否使用了不存在的语音名。可以通过/v1/voices端点查询有效值。
3. 检查response_format：是否在支持的列表内（mp3,opus,aac,flac,wav,pcm）。如果请求了pcm等格式但未安装ffmpeg，也会报错。
4. 检查JSON格式：确保请求体是合法的JSON，并且所有字符串参数都用双引号包裹。

问题7：合成某些文本时失败，返回内容过滤相关错误。

症状：请求包含特定词汇时失败，日志可能显示Reason: Rejected。
原因：微软的edge-tts服务端有内容安全过滤器。
解决：如果确认内容安全，可以在.env文件中设置REMOVE_FILTER=True，然后重启服务。再次警告，请谨慎使用此选项，并对生成的内容负责。

6.4 性能与并发问题

问题8：在高并发请求下，服务响应变慢或出错。

症状：同时发起多个TTS请求时，部分请求超时或失败。
分析：edge-tts库本身是同步的，每个请求都会阻塞直到从微软服务获取到完整的音频。虽然项目可能使用了异步框架（如FastAPI），但底层库的同步调用可能成为瓶颈。此外，向微软服务发起的请求也可能有频率限制。
缓解措施：
1. 客户端限流：在调用方实现请求队列，控制并发请求数。
2. 服务端缓存：对于相同的文本、语音、语速组合，可以将生成的音频文件缓存到内存（如Redis）或磁盘。下次相同请求直接返回缓存文件，大幅减少对上游服务的调用和计算开销。这需要自行修改项目代码实现缓存层。
3. 横向扩展：如前所述，使用负载均衡部署多个openai-edge-tts实例。

部署和调试的过程就是不断遇到问题并解决问题的过程。保持查看容器日志的习惯（docker compose logs -f），大部分错误信息都会直接显示在那里，是定位问题的第一手资料。

查看全文

http://www.jsqmd.com/news/768473/