当前位置：首页 > news >正文

Qwen1.5-1.8B-GPTQ-Int4 Chainlit扩展：集成TTS语音播报与语音输入功能

news 2026/6/29 21:15:23

Qwen1.5-1.8B-GPTQ-Int4 Chainlit扩展：集成TTS语音播报与语音输入功能

1. 项目概述

今天我们来探索一个很有意思的技术方案：如何为已经部署好的Qwen1.5-1.8B-Chat-GPTQ-Int4模型添加语音交互能力。这个方案能让你的AI助手不仅能看懂文字，还能听懂你的语音指令，并用语音回应你。

想象一下这样的场景：你不需要打字，直接对着麦克风说话，AI就能理解你的问题并用语音回答。这种交互方式更加自然，特别适合在需要双手操作的其他任务时使用，比如开车、做饭或者做实验时与AI交流。

我们使用的核心组件包括：

Qwen1.5-1.8B-Chat-GPTQ-Int4：一个经过量化的轻量级语言模型，响应速度快
Chainlit：一个专门为AI应用设计的Web界面框架
TTS（文本转语音）技术：让AI能够"说话"
语音识别技术：让AI能够"听懂"你的话

这个方案最大的优势是开箱即用，你不需要重新训练模型，只需要在现有的部署基础上添加一些功能模块。

2. 环境准备与基础部署

2.1 确认模型部署状态

首先，我们需要确保Qwen1.5-1.8B模型已经正确部署。打开终端，使用以下命令检查部署状态：

# 检查模型服务日志 cat /root/workspace/llm.log

如果看到类似下面的输出，说明模型已经成功加载：

Loading model weights... Model loaded successfully in 45.2s Starting inference server on port 8000...

2.2 安装必要的语音处理库

接下来，我们需要安装语音处理相关的Python库：

pip install speechrecognition pyaudio gtts playsound

这些库的作用分别是：

speechrecognition：用于语音识别，将语音转为文字
pyaudio：处理音频输入输出
gtts：Google Text-to-Speech，文本转语音引擎
playsound：播放生成的语音文件

如果你在安装pyaudio时遇到问题，可以尝试先安装portaudio：

# Ubuntu/Debian系统 sudo apt-get install portaudio19-dev python3-pyaudio # CentOS/RHEL系统 sudo yum install portaudio-devel

3. 语音功能集成实现

3.1 语音输入功能实现

让我们先实现语音输入功能，这样用户就可以用说话的方式与AI交流了：

import speech_recognition as sr import threading def setup_voice_input(): """设置语音输入功能""" recognizer = sr.Recognizer() microphone = sr.Microphone() # 调整麦克风环境噪声 with microphone as source: recognizer.adjust_for_ambient_noise(source) return recognizer, microphone def listen_to_speech(recognizer, microphone): """监听语音输入并转换为文字""" try: print("请说话...") with microphone as source: audio = recognizer.listen(source, timeout=5, phrase_time_limit=10) # 使用Google语音识别 text = recognizer.recognize_google(audio, language='zh-CN') print(f"识别结果: {text}") return text except sr.WaitTimeoutError: print("等待超时，请重试") return None except sr.UnknownValueError: print("无法识别语音") return None except Exception as e: print(f"语音识别错误: {e}") return None

3.2 语音播报功能实现

接下来实现文本转语音功能，让AI能够用语音回答：

from gtts import gTTS import tempfile import os from playsound import playsound def text_to_speech(text, language='zh-cn'): """将文本转换为语音并播放""" try: # 创建临时语音文件 tts = gTTS(text=text, lang=language, slow=False) with tempfile.NamedTemporaryFile(delete=False, suffix='.mp3') as tmp_file: tts.save(tmp_file.name) # 播放语音 playsound(tmp_file.name) # 清理临时文件 os.unlink(tmp_file.name) except Exception as e: print(f"语音合成失败: {e}")

3.3 Chainlit界面集成

现在我们将语音功能集成到Chainlit界面中：

import chainlit as cl import asyncio @cl.on_chat_start async def start_chat(): """聊天开始时初始化语音功能""" # 初始化语音识别器 recognizer, microphone = setup_voice_input() cl.user_session.set("recognizer", recognizer) cl.user_session.set("microphone", microphone) # 添加语音输入按钮 actions = [ cl.Action(name="voice_input", value="start", description="🎤 语音输入") ] await cl.Message(content="欢迎使用语音交互AI助手！点击麦克风按钮开始语音输入", actions=actions).send() @cl.action_callback("voice_input") async def on_voice_input(action: cl.Action): """处理语音输入按钮点击""" recognizer = cl.user_session.get("recognizer") microphone = cl.user_session.get("microphone") # 在后台线程中处理语音识别 def recognize_speech(): return listen_to_speech(recognizer, microphone) # 显示等待消息 wait_msg = cl.Message(content="正在聆听...") await wait_msg.send() # 异步执行语音识别 text = await asyncio.to_thread(recognize_speech) if text: # 删除等待消息 await wait_msg.remove() # 发送识别到的文本到AI msg = cl.Message(content=text) await msg.send() # 获取AI回复 response = await get_ai_response(text) # 发送AI回复 await cl.Message(content=response).send() # 语音播报回复 await asyncio.to_thread(text_to_speech, response) else: await wait_msg.update(content="语音识别失败，请重试") async def get_ai_response(text): """调用Qwen模型获取回复""" # 这里是你原有的模型调用代码 # 示例：调用vLLM部署的模型 import requests response = requests.post( "http://localhost:8000/v1/chat/completions", json={ "model": "Qwen1.5-1.8B-Chat", "messages": [{"role": "user", "content": text}], "temperature": 0.7 } ) return response.json()["choices"][0]["message"]["content"]

4. 完整功能演示

4.1 语音输入体验

启动Chainlit应用后，你会看到一个带有麦克风按钮的界面。点击按钮开始说话，系统会自动识别你的语音并转换为文字。整个过程非常流畅：

点击麦克风按钮→ 界面显示"正在聆听..."
开始说话→ 系统自动检测语音结束
文字识别→ 识别结果发送给AI模型
AI回复→ 收到文字回复并自动语音播报

4.2 实际使用案例

让我们看几个实际的使用场景：

场景一：快速查询信息

你："今天的天气怎么样？"
AI：（文字回复+语音播报）"今天晴转多云，气温15-25度，适合外出"

场景二：学习辅助

你："请解释一下机器学习的基本概念"
AI：（详细解释+语音播报）"机器学习是人工智能的一个分支，主要研究如何让计算机..."

场景三：代码帮助

你："Python里怎么用正则表达式匹配邮箱？"
AI：（给出代码示例+语音解释）"你可以使用re模块，示例代码：import re..."

4.3 性能优化建议

为了获得更好的语音交互体验，这里有一些实用建议：

# 语音识别优化配置 def optimize_voice_recognition(): recognizer = sr.Recognizer() # 调整识别参数 recognizer.energy_threshold = 300 # 环境噪音阈值 recognizer.dynamic_energy_threshold = True recognizer.pause_threshold = 0.8 # 停顿时间阈值 return recognizer # 语音播报优化 def optimize_tts(): """优化TTS播放体验""" # 可以添加缓存机制，避免重复生成相同内容的语音 tts_cache = {} def cached_tts(text, language='zh-cn'): if text in tts_cache: playsound(tts_cache[text]) else: with tempfile.NamedTemporaryFile(delete=False, suffix='.mp3') as f: tts = gTTS(text=text, lang=language) tts.save(f.name) tts_cache[text] = f.name playsound(f.name) return cached_tts

5. 常见问题与解决方案

5.1 语音识别不准确

如果遇到语音识别准确率低的问题，可以尝试以下方法：

# 提高语音识别准确率的方法 def improve_recognition_accuracy(): recognizer = sr.Recognizer() # 方法1：延长语音输入时间 recognizer.pause_threshold = 1.0 # 默认0.8，增加到1.0秒 # 方法2：调整环境噪音阈值 with microphone as source: recognizer.adjust_for_ambient_noise(source, duration=2) # 延长校准时间 # 方法3：尝试不同的识别引擎 try: text = recognizer.recognize_google(audio, language='zh-CN') except: # 备用方案：使用离线识别 text = recognizer.recognize_sphinx(audio) # 需要安装pocketsphinx

5.2 语音播报延迟

语音生成和播放可能会有延迟，这里有几个优化方案：

预加载常用回复：对常见问题的回复预先生成语音文件
使用本地TTS引擎：如果网络条件不好，可以考虑使用本地TTS引擎
异步处理：确保语音生成和播放不会阻塞主线程

5.3 跨平台兼容性

不同操作系统可能需要不同的配置：

# 跨平台音频处理配置 def setup_cross_platform_audio(): import platform system = platform.system() if system == "Windows": # Windows特定配置 os.environ['PATH'] += ';C:\\path\\to\\portaudio' elif system == "Darwin": # macOS # macOS特定配置 pass elif system == "Linux": # Linux特定配置 pass