当前位置：首页 > news >正文

手把手教学：使用chainlit前端调用通义千问1.5-1.8B模型

news 2026/4/26 6:57:28

手把手教学：使用chainlit前端调用通义千问1.5-1.8B模型

1. 环境准备与模型部署

1.1 确认模型服务状态

在开始使用chainlit前端之前，首先需要确认通义千问1.5-1.8B-Chat-GPTQ-Int4模型服务已经成功部署。通过以下命令检查服务日志：

cat /root/workspace/llm.log

如果看到类似"Model loaded successfully"的提示信息，说明模型已经准备就绪。常见的成功部署标志包括：

显存占用显示正常
模型权重加载完成提示
服务端口监听状态正常

1.2 了解模型基本信息

通义千问1.5-1.8B-Chat-GPTQ-Int4是一个经过量化的轻量级对话模型，具有以下特点：

基于Transformer架构
使用SwiGLU激活函数
采用GPTQ-Int4量化技术
显存占用低，响应速度快
支持中英文对话

2. chainlit前端安装与配置

2.1 安装chainlit包

chainlit是一个专门为AI应用设计的轻量级前端框架。使用pip安装最新版本：

pip install chainlit

建议版本不低于0.7.0，以确保完整的功能支持。可以通过以下命令检查已安装版本：

chainlit --version

2.2 创建基础应用文件

新建一个Python文件qwen_app.py，作为chainlit应用的入口：

import chainlit as cl from transformers import AutoTokenizer from auto_gptq import AutoGPTQForCausalLM # 模型路径配置 MODEL_PATH = "/root/workspace/qwen-gptq"

3. 模型加载与初始化

3.1 编写模型加载函数

在qwen_app.py中添加模型加载代码：

@cl.on_chat_start async def load_model(): # 加载分词器 tokenizer = AutoTokenizer.from_pretrained( MODEL_PATH, use_fast=True, trust_remote_code=True ) # 加载GPTQ量化模型 model = AutoGPTQForCausalLM.from_quantized( MODEL_PATH, device="cuda:0", use_safetensors=True, trust_remote_code=True ) # 将模型和分词器存入用户会话 cl.user_session.set("tokenizer", tokenizer) cl.user_session.set("model", model) await cl.Message(content="模型加载完成，可以开始提问了！").send()

3.2 处理模型加载异常

添加错误处理逻辑，确保前端用户能获得清晰的反馈：

@cl.on_chat_start async def load_model(): try: # 原有加载代码... except Exception as e: error_msg = f"模型加载失败: {str(e)}" print(error_msg) await cl.Message(content=error_msg).send() raise

4. 实现对话交互功能

4.1 编写消息处理函数

添加核心的对话处理逻辑：

@cl.on_message async def handle_message(message: cl.Message): # 从会话中获取模型和分词器 tokenizer = cl.user_session.get("tokenizer") model = cl.user_session.get("model") # 构造对话模板 messages = [ {"role": "system", "content": "你是一个乐于助人的AI助手。"}, {"role": "user", "content": message.content} ] text = tokenizer.apply_chat_template(messages, tokenize=False) # 编码输入 inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成响应 outputs = model.generate( **inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9 ) # 解码输出 response = tokenizer.decode(outputs[0], skip_special_tokens=True) # 发送响应 await cl.Message(content=response).send()

4.2 优化对话体验

添加流式输出功能，提升用户体验：

@cl.on_message async def handle_message(message: cl.Message): # ...前面的代码不变... # 创建消息对象 msg = cl.Message(content="") await msg.send() # 流式生成 for chunk in model.stream_generate( **inputs, max_new_tokens=256, do_sample=True, temperature=0.7 ): token = tokenizer.decode(chunk[0], skip_special_tokens=True) await msg.stream_token(token) await msg.update()

5. 启动与使用chainlit应用

5.1 启动应用服务

在终端运行以下命令启动chainlit服务：

chainlit run qwen_app.py -w

参数说明：

-w：自动打开浏览器窗口
默认端口为8000，可通过--port参数修改

5.2 访问前端界面

服务启动后，浏览器会自动打开chainlit界面。如果没有自动打开，可以手动访问：

http://localhost:8000

界面主要功能区域包括：

左侧：对话历史记录
中部：消息输入和显示区域
右侧：可选的侧边栏配置

5.3 进行对话测试

在输入框中键入问题，例如：

"你好，能介绍一下你自己吗？"
"用Python写一个快速排序算法"
"解释一下量子计算的基本原理"

观察模型的响应速度和质量，正常情况下应该在几秒内获得回复。

6. 常见问题与解决方案

6.1 模型响应慢或卡顿

可能原因及解决方法：

显存不足：检查nvidia-smi确认显存使用情况
- 解决方案：减少max_new_tokens参数值
CPU瓶颈：检查CPU使用率
- 解决方案：升级服务器配置或使用更轻量模型
输入过长：过长的输入会显著增加计算时间
- 解决方案：限制输入长度或分段处理

6.2 生成内容不符合预期

优化生成质量的几种方法：

调整temperature参数（0.1-1.0之间）
修改top_p参数（通常0.7-0.95效果较好）
在系统提示中明确要求："你是一个专业严谨的AI助手，回答应当准确可靠"

6.3 前端界面无法访问

排查步骤：

确认chainlit服务是否正常运行
检查防火墙设置，确保端口开放
尝试更换端口：chainlit run qwen_app.py --port 8080
查看chainlit日志获取详细错误信息

7. 进阶功能扩展

7.1 添加对话历史记忆

修改消息处理函数，保留对话上下文：

@cl.on_message async def handle_message(message: cl.Message): # 获取历史消息或初始化 history = cl.user_session.get("history", []) # 添加用户新消息 history.append({"role": "user", "content": message.content}) # 生成响应（使用完整历史） text = tokenizer.apply_chat_template(history, tokenize=False) inputs = tokenizer(text, return_tensors="pt").to(model.device) # ...生成代码... # 添加AI响应到历史 history.append({"role": "assistant", "content": response}) cl.user_session.set("history", history)

7.2 支持文件上传与处理

添加文件处理能力：

@cl.on_file_upload async def on_file_upload(file: cl.File): content = await file.read() # 简单文本文件处理示例 if file.name.endswith(".txt"): text = content.decode("utf-8") await cl.Message(f"已接收文本文件，内容长度: {len(text)}").send() # 可以扩展其他文件类型处理...

7.3 添加配置侧边栏

允许用户调整生成参数：

@cl.on_chat_start async def init_settings(): settings = await cl.ChatSettings( [ cl.input_widget.Slider( id="temperature", label="创意度", initial=0.7, min=0.1, max=1.0, step=0.1 ), cl.input_widget.Slider( id="max_tokens", label="最大生成长度", initial=256, min=32, max=512, step=32 ) ] ).send()