当前位置：首页 > news >正文

小米TTS本地化部署：构建兼容OpenAI API的私有语音合成服务

news 2026/5/9 6:43:33

1. 项目概述：从设备原生语音到云端智能语音的桥梁

最近在折腾智能家居和语音交互项目时，遇到了一个挺有意思的需求：想把小米设备上那个识别度还不错的离线语音合成（TTS）能力，给“搬”到云端去用。比如，我想让我的智能助手在回复时，声音能更自然、更有表现力，而不是那种冷冰冰的机械音。市面上成熟的云端TTS服务，像OpenAI的TTS API，效果确实惊艳，但一来有调用成本，二来在某些对延迟敏感或需要完全离线的场景下，也不是最佳选择。

这时候，我就盯上了手头闲置的小米音箱或者手机。它们内置的语音引擎，经过小米这么多年的优化，在中文发音、语调和基础情感表达上，其实已经做得相当不错了，关键是它完全离线、免费、低延迟。那么，能不能把这套本地能力封装成一个标准的、类似OpenAI TTS API的HTTP服务呢？这样，我既能在需要高质量、可控性强的场景用OpenAI，也能在追求实时性、零成本、数据隐私的场合，无缝切换到小米的本地引擎上。

这个想法催生了yshtcn/xiaomiTTS2OpenAITTSAPI这个项目。本质上，它是一个适配器或桥接器。它的核心使命，是把小米设备（目前主要针对Android系统）上非标准的、系统级的TTS功能，包装成一套符合OpenAI TTS API规范的RESTful接口。这意味着，任何原本设计用来调用api.openai.com/v1/audio/speech的代码、应用或服务，几乎不需要修改，只需要把请求端点指向我们这个本地服务，就能享受到小米本地TTS带来的好处。

这不仅仅是简单的“替换”，更是一种“能力扩展”。对于开发者而言，它提供了多一种稳定、高效的语音合成选择，尤其是在构建需要兼顾成本、响应速度和隐私保护的混合云或边缘计算应用时，价值凸显。你可以把它部署在家里的树莓派、旧手机或NAS上，立刻就能获得一个私有的、高质量的TTS服务节点。

2. 核心需求与设计思路拆解

2.1 为什么是小米TTS与OpenAI TTS API的对接？

这个项目的出发点源于几个非常实际的痛点。首先，成本考量。OpenAI的TTS API按字符数收费，对于高频使用或长文本合成场景，长期下来是一笔不小的开销。而小米设备的TTS引擎是预装的，调用它除了电费和设备折旧，几乎没有额外成本。

其次，网络与延迟。云端API的稳定性依赖于网络，在弱网环境下，语音合成的延迟会显著增加，影响交互体验。本地TTS则完全不受此影响，响应速度极快，通常在几十毫秒内就能完成合成，这对于实时对话、智能家居控制等场景至关重要。

第三，数据隐私与合规。将包含可能敏感信息的文本发送到第三方云端进行合成，存在隐私泄露风险。本地处理意味着数据不出设备，满足了更高阶的隐私保护需求。

那么，为什么选择模仿OpenAI的API规范，而不是自己定义一套？这就是生态兼容性的智慧。OpenAI的TTS API设计简洁、文档清晰，已经成为许多开源项目和商业应用的事实标准。兼容它的接口，意味着我们这个服务可以“即插即用”到庞大的现有生态中，比如：

直接用于ChatGPT-Next-Web、Lobe Chat等开源聊天前端，替换其语音回复的合成后端。
被LangChain、Semantic Kernel等AI应用开发框架的TTS组件直接调用。
让任何遵循OpenAI API格式的自研应用，轻松获得本地TTS能力。

降低了用户的接入门槛，是这个项目能否被广泛采用的关键。

2.2 整体架构与核心组件设计

项目的架构并不复杂，但每个环节都需要精心设计，以确保稳定性、性能和易用性。其核心工作流程可以概括为：“接收标准请求 -> 提取并预处理文本 -> 调用系统TTS合成 -> 处理音频输出 -> 返回标准响应”。

1. 服务层 (API Server)：这是对外的门户，通常是一个轻量级的HTTP服务器（如使用FastAPI、Flask或aiohttp构建）。它需要精确实现OpenAI TTS API的关键端点（主要是/v1/audio/speech）和请求/响应格式。

请求解析：必须正确解析model,input,voice,response_format,speed等字段。虽然小米TTS可能不支持所有参数（如不同的voice角色），但服务层需要做兼容性处理和友好提示。
响应封装：无论底层合成结果是什么格式（如小米默认可能是MP3或PCM），最终都需要按照请求的response_format（如mp3, opus, aac, flac）转换成对应格式，并以HTTP流或附件形式返回。

2. 适配与驱动层 (TTS Engine Adapter)：这是项目的“心脏”，负责与Android系统底层进行交互。这里面的技术挑战最大。小米的TTS引擎通常通过Android的TextToSpeech(TTS) API来调用。我们的服务需要：

系统API调用：在Python中，这通常无法直接实现。因此，项目可能会依赖一个“桥梁”组件。一种常见的思路是使用adb(Android Debug Bridge) 通过USB或网络连接到Android设备，执行shell命令来触发系统TTS并录制音频。另一种更优雅但更复杂的方式，是编写一个轻量的Android应用作为“守护服务”，通过本地Socket或HTTP与运行在服务器上的主程序通信。
参数映射：将OpenAI API的抽象参数（如voice=alloy,speed=1.2）映射到小米TTS引擎支持的具体参数上。例如，speed可能对应系统的语速设置，而voice可能需要映射到系统已安装的特定语音包。

3. 音频处理管道 (Audio Processing Pipeline)：系统TTS合成的原始音频往往不能直接使用。这个管道负责：

格式转换：将系统输出的音频（可能是AMR、PCM或其他格式）转码为OpenAI API支持的格式（MP3、AAC等）。这里会用到ffmpeg或pydub这样的工具。
流式处理：为了支持大文本的流式响应（边合成边返回），管道需要能够处理音频块，而不是等待整个文件合成完毕。这对降低端到端延迟体验至关重要。

4. 缓存与队列层 (Cache & Queue)：为了提高性能和应对并发请求，引入缓存和队列是必要的。

文本缓存：对相同的文本请求，直接返回缓存中的音频文件，避免重复合成，极大提升响应速度。
请求队列：Android系统的TTS引擎可能不是为高并发设计的。一个请求队列可以序列化合成任务，防止同时调用导致引擎崩溃或无响应。

3. 环境准备与关键技术点解析

3.1 宿主环境选择：x86服务器还是ARM设备？

这个项目的部署目标非常灵活，主要分为两类：

方案A：部署在x86/64 Linux服务器（如云服务器、本地PC、NAS）

优势：性能强，资源充足，易于管理，适合作为团队共享服务。
挑战：需要一台Android设备（小米手机/音箱）作为“TTS合成器”通过ADB连接。这意味着你必须有一台设备长期连接并保持亮屏/解锁状态（或使用一些技术手段绕过），网络和设备的稳定性会成为整个服务的单点故障。
关键技术：adb的稳定连接与授权管理。你需要配置adb over TCP/IP实现网络连接，并处理好设备重连、授权弹窗等问题。可以考虑使用scrcpy的伴生工具adb或更稳定的pure-python-adb库来管理连接。

方案B：直接部署在Android设备本身（如旧小米手机、平板）

优势：最简洁的架构，无需跨设备通信，延迟最低，稳定性最好。设备本身就是一个完整的服务节点。
挑战：在Android上运行Python HTTP服务需要一定的环境配置（如Termux）。设备性能可能有限，难以应对非常高并发的请求。
关键技术：在Android上部署Python环境（Termux），并解决后台运行、保活、网络访问权限等问题。这种方式下，服务直接调用本机TTS API，路径最短，效率最高。

我的实操心得：对于个人或家庭使用，我强烈推荐方案B。找一台淘汰的小米手机，充电并设置为永不休眠，安装Termux和必要的Python包，部署服务后设为自启动。这样你就得到了一个24小时在线、零额外成本、完全私有的TTS服务器，可靠性远超通过ADB连接的方式。

3.2 核心依赖与工具链梳理

无论选择哪种部署方案，以下工具和库都是核心依赖：

Python 3.7+: 项目的主要开发语言。
FastAPI / Flask: 用于快速构建高性能的API服务。FastAPI因其异步特性、自动API文档生成和性能优势，通常是更优选择。
Android SDK Platform-Tools (adb): 如果采用方案A，这是与Android设备通信的必备工具。需要确保服务器上的adb版本与设备兼容。
FFmpeg: 音频处理的核心瑞士军刀。用于音频格式转换、编码、流处理。必须确保在系统路径中或可被Python调用。
PyDub / pydub: 一个基于FFmpeg的Python音频处理库，提供了更友好的API来进行音频切片、格式转换、音量调整等操作。
Requests / httpx: 用于处理HTTP请求（如果在方案B中，守护App与服务间采用HTTP通信）。
缓存库 (如 diskcache, redis): 用于实现文本到音频文件的缓存。diskcache是一个轻量级的选择，它将缓存存储在磁盘上，管理简单。

3.3 小米TTS引擎的调用深度探索

调用系统TTS是项目的技术难点。在Android上，标准方法是使用TextToSpeech类。但在非Android环境的Python中，我们需要另辟蹊径。

方法一：ADB Shell命令模拟（方案A常用）这是最直接但略显“粗糙”的方法。原理是使用adb shell执行命令来触发TTS并录制音频。

# 1. 通过服务调用合成语音到临时文件 (假设) adb shell am broadcast -a com.android.intent.action.TTS_SYNTHESIZE --es text "你好世界" --ei stream 3 # 2. 使用`screenrecord`或`tinymix`/`tinycap`等工具录制系统音频输出（需要root权限） # 非Root环境下极其困难，因为Android的音频路由策略严格。 # 3. 更可行的思路：利用一些支持命令行输出的TTS引擎App # 例如，安装一个第三方TTS引擎（如Google TTS），并配置其支持文件输出。 # 然后通过ADB启动该引擎的Activity或Service，指定输出文件。

注意：这种方法严重依赖于特定设备、系统版本和是否有root权限，通用性很差。且录制系统音频在非root设备上几乎无法实现。因此，这通常不是生产级方案。

方法二：开发Android辅助App（推荐方案）这是更健壮、可控的方案。我们开发一个极简的Android App，它作为一个后台服务运行，监听特定的端口或Socket。

通信协议：App内嵌一个简单的HTTP服务器（如使用NanoHTTPD）或使用Socket。
接收请求：主服务（Python程序）将待合成的文本、参数通过HTTP POST或Socket发送给这个App。
本地合成：App在接收到请求后，使用Android原生的TextToSpeechAPI进行合成，并直接保存为音频文件到存储中。
返回结果：App将生成的音频文件路径或直接读取的字节流，返回给主服务。

这种方法的好处是：

功能完整：可以充分利用TextToSpeechAPI的所有功能，如设置语音、语速、音调等。
无需Root：在App自身沙盒内操作，权限要求低。
稳定可靠：通信链路清晰，错误易于捕获和处理。
跨设备：只要安装了这个App，任何Android设备都可以成为TTS节点。

在yshtcn/xiaomiTTS2OpenAITTSAPI项目中，很可能就包含了这样一个辅助App的源码或安装包，这是项目能跑通的关键。

4. 服务部署与配置实战

4.1 在Android设备上部署服务（Termux方案）

假设我们选择方案B，将服务直接部署在一台小米手机上。以下是详细步骤：

步骤1：准备Android设备

找一台闲置小米手机，建议系统版本在Android 9以上。
进入“设置”->“关于手机”，连续点击“MIUI版本”开启开发者选项。
在“开发者选项”中，开启“USB调试”（便于初始安装）和“禁止权限监控”（可能需根据Termux要求设置）。
保持设备充电并连接Wi-Fi，设置屏幕永不休眠（在“显示”设置中）。

步骤2：安装Termux及基础环境

从F-Droid或GitHub下载Termux官方APK并安装。切勿从非官方应用商店下载，以免版本过旧导致包管理失败。
打开Termux，首先更新包管理器：
```
pkg update && pkg upgrade -y
```
安装Python、Git、FFmpeg等必要工具：
```
pkg install python git ffmpeg -y
```
安装Python虚拟环境工具（可选但推荐）：
```
pip install virtualenv
```

步骤3：获取项目代码并安装依赖

克隆项目仓库（假设项目已开源）：

git clone https://github.com/yshtcn/xiaomiTTS2OpenAITTSAPI.git cd xiaomiTTS2OpenAITTSAPI

创建并激活虚拟环境：

python -m venv venv source venv/bin/activate

安装Python依赖。查看项目根目录的requirements.txt文件并安装：
```
pip install -r requirements.txt
```
通常依赖包括fastapi,uvicorn,pydub,requests等。

步骤4：配置与运行辅助Android App

在项目android_app/目录下（如果存在），找到编译好的APK文件，或使用Android Studio打开源码编译。
将APK安装到手机。在Termux中可以使用adb（如果已安装）：
```
pkg install android-tools adb install path/to/app-debug.apk
```
或者直接在手机文件管理器中点击安装。
安装后，在手机上打开这个辅助App，授予其必要的权限（如存储、音频权限）。App可能会显示一个本地IP和端口，例如http://192.168.1.100:8080。记下这个地址。

步骤5：配置主服务并启动

回到Termux中的项目目录，找到配置文件（可能是config.yaml,.env或config.py）。

修改配置，将TTS引擎地址指向刚才的辅助App地址：

# config.yaml 示例 tts_engine: type: "xiaomi_android_app" endpoint: "http://192.168.1.100:8080/synthesize" # 辅助App提供的端点 server: host: "0.0.0.0" # 监听所有网络接口，方便其他设备访问 port: 8000 cache: enabled: true path: "./tts_cache"

启动FastAPI服务。使用Uvicorn作为ASGI服务器：
```
uvicorn main:app --host 0.0.0.0 --port 8000 --reload
```
--reload参数用于开发时热重载，生产环境应移除。
服务启动后，在手机浏览器访问http://localhost:8000/docs，应该能看到自动生成的OpenAPI文档界面，证明服务运行成功。

步骤6：设置服务自启动（保活）Termux中的进程在后台容易被系统清理。我们需要配置保活。

在Termux中安装termux-services：

pkg install termux-services sv-enable sshd # 启用服务管理，这里以sshd为例，会创建必要的目录结构

编写一个服务脚本。创建~/.termux/boot/目录（如果不存在）：
```
mkdir -p ~/.termux/boot cd ~/.termux/boot
```

创建一个启动脚本，例如start-tts-api.sh：

#!/data/data/com.termux/files/usr/bin/bash cd /data/data/com.termux/files/home/xiaomiTTS2OpenAITTSAPI source venv/bin/activate uvicorn main:app --host 0.0.0.0 --port 8000 > /dev/null 2>&1 &

并赋予执行权限：chmod +x start-tts-api.sh

这样，当Termux启动时（例如设备重启后），这个脚本会自动运行，拉起我们的TTS API服务。

4.2 服务配置详解与优化

一个健壮的服务离不开细致的配置。以下是几个关键配置项的解析：

音频缓存配置缓存是提升性能的利器，尤其是对于重复的问候语、指令等。

cache: enabled: true type: "diskcache" # 或 "memory", "redis" path: "./cache/audio" ttl: 86400 # 缓存生存时间，单位秒，设为24小时 max_size: 1073741824 # 最大缓存大小，1GB

选择缓存类型：diskcache将音频文件存储在磁盘，适合存储空间大、需要持久化的场景。memory缓存更快，但重启即丢失。redis适合分布式部署。
缓存键设计：缓存键应包含文本内容、语音类型、语速等所有影响音频输出的参数，确保参数变化能对应不同的缓存。

TTS引擎参数映射这是实现OpenAI API参数到小米TTS参数转换的关键。

parameter_mapping: voice: alloy: "com.xiaomi.mibrain.speech.voice.default" # 映射到系统语音包ID echo: "com.xiaomi.mibrain.speech.voice.child" fable: "com.xiaomi.mibrain.speech.voice.story" speed: # OpenAI speed: 0.25 ~ 4.0, 小米可能只支持 0.5 ~ 2.0 # 进行范围映射和裁剪 min: 0.5 max: 2.0 default: 1.0

需要在实际测试中，找出小米TTS引擎支持的具体语音包ID和参数范围。

请求限流与队列配置防止过多请求压垮Android端的TTS引擎。

rate_limit: enabled: true requests_per_minute: 30 # 每分钟最大请求数 burst_limit: 5 # 突发请求允许数量 request_queue: enabled: true max_size: 100 # 队列最大长度，超出的请求返回503 worker_count: 1 # 合成工作线程数，通常为1，因为系统TTS可能不支持并发

5. API使用详解与客户端集成

5.1 OpenAI TTS API接口规范实现

我们的服务严格遵循OpenAI的/v1/audio/speech端点规范。这意味着你可以直接使用OpenAI官方的Python库、JavaScript SDK，或者任何发送HTTP请求的工具来调用。

请求示例 (cURL)

curl -X POST "http://你的设备IP:8000/v1/audio/speech" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer sk-xxx" \ # 如果需要简单鉴权，项目可能支持 -d '{ "model": "tts-1", # 模型名，本项目可能固定为`xiaomi-tts` "input": "你好，欢迎使用小米本地TTS服务。", "voice": "alloy", # 尝试映射到小米的语音 "response_format": "mp3", "speed": 1.0 }' \ --output speech.mp3

model：在我们的服务中，这个字段可能被忽略，或者用于选择不同的后端引擎（如果未来扩展了多个TTS引擎）。可以固定传递tts-1或项目定义的xiaomi-tts。
input：要合成的文本。支持长文本，但服务内部可能需要做分句处理，因为某些TTS引擎对单次输入长度有限制。
voice：语音角色。OpenAI定义了alloy,echo等几种。我们需要在配置文件中将其映射到小米TTS可用的语音包。如果映射失败，应使用默认语音并返回警告信息（非错误）。
response_format：输出音频格式。我们的服务通过FFmpeg支持mp3,opus,aac,flac等。需要确保配置正确。
speed：语速。需要将OpenAI的范围（0.25-4.0）线性映射到小米TTS支持的范围。

响应处理服务应返回HTTP 200状态码，并且Content-Type为对应的音频格式，如audio/mpeg。客户端可以直接将响应体保存为文件，或进行流式播放。

5.2 与主流项目集成实战

集成到 ChatGPT-Next-WebChatGPT-Next-Web是一个流行的ChatGPT UI。要替换其TTS后端，只需修改其配置。

找到部署ChatGPT-Next-Web的环境配置文件（如Docker环境变量或.env文件）。

设置OpenAI API的基址（BASE_URL）为你本地服务的地址，并提供一个虚拟的API KEY（如果服务端配置了简单的鉴权）。

# .env.local 示例 OPENAI_API_KEY=sk-dummy-key-just-for-auth # 一个虚拟Key，仅用于通过服务端可能存在的简单校验 BASE_URL=http://192.168.1.100:8000 # 你的小米TTS服务地址

重启ChatGPT-Next-Web。现在，当你在界面中点击“朗读”回复时，请求就会发送到你的本地小米TTS服务。

在Python代码中直接调用如果你有自己的Python脚本，可以像调用OpenAI一样调用本地服务。

import requests import json from pathlib import Path def synthesize_speech(text, voice="alloy", speed=1.0): url = "http://localhost:8000/v1/audio/speech" headers = { "Content-Type": "application/json", "Authorization": "Bearer sk-dummy" # 如果服务需要 } data = { "model": "tts-1", "input": text, "voice": voice, "speed": speed, "response_format": "mp3" } response = requests.post(url, headers=headers, json=data, stream=True) if response.status_code == 200: # 保存音频文件 with open("output.mp3", "wb") as f: for chunk in response.iter_content(chunk_size=8192): f.write(chunk) print("语音合成成功，已保存为 output.mp3") else: print(f"请求失败: {response.status_code}, {response.text}") # 使用示例 synthesize_speech("今天天气真好，适合出去散步。")

6. 性能调优、问题排查与进阶玩法

6.1 性能瓶颈分析与优化策略

部署后，你可能会发现某些请求比较慢，或者并发能力不足。我们来系统性地分析和优化。

1. 合成延迟分析延迟主要来自几个部分：

网络延迟（方案A）：主服务器与Android设备间的ADB或HTTP通信延迟。优化：使用有线网络连接（USB网络共享）替代Wi-Fi，确保设备与服务器在同一局域网低延迟子网内。
TTS引擎初始化延迟：Android的TextToSpeech引擎在首次调用或长时间不用时，加载语音数据需要时间。优化：服务启动时，发送一段简短的静默文本进行“预热”，让引擎保持就绪状态。实现一个简单的守护线程，定期（如每5分钟）发送一个短句，防止引擎休眠。
音频转码延迟：FFmpeg转码消耗CPU和时间。优化：根据常用格式（如mp3）预配置高质量的转码参数，避免每次动态计算。如果客户端只接受一种格式，可以在配置中固定输出格式，减少判断逻辑。对于方案B（设备性能有限），可以考虑使用更轻量的编码器（如libopus）或降低音频比特率。

2. 并发与稳定性优化

请求队列化：如前所述，这是必须的。用一个线程安全的队列（如queue.Queue）管理合成任务，由单个工作线程顺序处理，避免多线程同时调用系统TTS导致崩溃。
连接池与超时设置：如果使用HTTP与辅助App通信，使用requests.Session或httpx.AsyncClient保持连接复用，并设置合理的连接、读取超时时间（如10秒）。
优雅降级与重试：当TTS引擎无响应时，不应直接让API请求失败。可以设计一个降级策略，例如：首次失败后重试1次；如果连续失败N次，则在一段时间内标记引擎为“不可用”，并直接返回一个包含错误信息的标准响应，或者（如果配置了）切换到备用的云端TTS服务。

3. 缓存策略优化

分级缓存：引入内存缓存（如LRU Cache）存储最热门的、短小的音频（如“好的”、“马上办”），磁盘缓存存储所有历史记录。内存缓存能极大提升高频短句的响应速度。
缓存预热：在服务启动时，根据历史访问日志或预定义的常用语列表，提前合成并加载到内存缓存中。
缓存失效：除了基于TTL的失效，还可以考虑在系统语音包更新后，手动或自动清空缓存，以获取新的语音效果。

6.2 常见问题与排查实录

在实际部署和运行中，你几乎一定会遇到下面这些问题。这里是我的排查笔记：

问题1：服务启动成功，但调用API返回“引擎不可用”或超时。

排查步骤：
1. 检查辅助App：确保Android设备上的辅助App已启动，并显示服务正在运行。查看App内日志（如果有）是否有错误。
2. 测试端点连通性：在Termux（或服务器）上，用curl直接调用辅助App的端点，看是否正常响应。
```
curl -X POST http://192.168.1.100:8080/synthesize -d '{"text":"test"}' -H "Content-Type: application/json"
```
3. 检查网络与防火墙：确保设备IP正确，且主服务所在设备的防火墙允许访问辅助App的端口（如8080）。
4. 查看主服务日志：主服务的日志通常会记录调用引擎失败的具体原因，如连接拒绝、超时等。

问题2：合成的语音听起来机械、有杂音，或者语速异常。

可能原因与解决：
1. 参数映射错误：检查配置文件中voice和speed的映射关系。小米TTS可能不支持某些极端的语速值。尝试将speed限制在0.8-1.5之间。
2. 音频编码参数不佳：FFmpeg转码时使用的编码器参数（比特率、采样率）可能不理想。尝试调整主服务中音频输出的编码参数。例如，对于MP3，尝试-b:a 64k（较低比特率）或-b:a 192k（较高比特率），找到清晰度和文件大小的平衡点。
3. 文本预处理问题：长文本没有合理分句。TTS引擎对整段长文本的处理效果可能不如分句处理。在主服务中，加入一个文本预处理模块，根据标点符号（。！？；）进行智能分句，然后逐句合成再拼接（注意处理句间静音）。

问题3：服务运行一段时间后，没有声音了，但API返回成功。

可能原因：
1. Android系统休眠或杀进程：系统为了省电，可能终止了辅助App或Termux的后台进程。
  - 解决：为辅助App和Termux设置电池优化白名单（“设置”->“电池与性能”->“应用智能省电”->选择应用->“无限制”）。
  - 在小米手机上，进入“安全中心”->“省电优化”->“应用智能省电”，进行类似设置。
2. TTS引擎资源泄漏：频繁创建和销毁TextToSpeech对象可能导致问题。确保辅助App中，TTS引擎对象是单例的，并在整个App生命周期内复用。
3. 存储空间不足：音频缓存写满磁盘。定期清理缓存目录，或配置自动清理策略。

问题4：并发请求时，后面的请求需要等待很久。

这是预期行为，因为队列化处理。但可以通过以下方式改善体验：
1. 返回队列状态：在API响应头或一个单独的端点中，提供当前队列长度、预计等待时间，让客户端可以决定是等待还是提示用户稍后再试。
2. 实现请求取消：如果客户端等待超时，可以发送一个DELETE请求到特定端点（如/v1/audio/speech/{request_id}）来取消尚未开始的合成任务。
3. 优先级队列：对交互式请求（如聊天回复）赋予比批量生成请求更高的优先级。

6.3 进阶扩展与玩法

当基础服务稳定后，你可以尝试一些更有趣的扩展：

1. 多引擎负载均衡与故障转移在一个配置文件里配置多个TTS后端，可以是多个不同型号的Android设备，甚至混合小米TTS和另一个云端TTS（如Edge-TTS）。

tts_engines: - name: "xiaomi_phone_1" type: "xiaomi_app" endpoint: "http://192.168.1.101:8080" weight: 5 # 权重，用于负载均衡 enabled: true - name: "xiaomi_speaker" type: "xiaomi_app" endpoint: "http://192.168.1.102:8080" weight: 3 enabled: true - name: "fallback_cloud" type: "openai" # 假设也实现了OpenAI客户端 api_key: "${OPENAI_API_KEY}" weight: 1 enabled: true

主服务根据权重轮询选择引擎，并在某个引擎失败时自动切换到下一个。

2. 语音效果后处理在音频返回给客户端之前，可以加入一个后处理环节，使用Python音频库（如pydub）进行：