当前位置：首页 > news >正文

Qwen1.5-1.8B-GPTQ-Int4实战教程：Chainlit+FastAPI构建混合API服务

news 2026/3/27 5:18:31

Qwen1.5-1.8B-GPTQ-Int4实战教程：Chainlit+FastAPI构建混合API服务

1. 引言：为什么需要混合API服务？

如果你正在寻找一个既轻量又智能的文本生成模型，并且希望它能通过一个美观易用的界面提供服务，那么你来对地方了。今天我要分享的，就是如何将通义千问1.5-1.8B-Chat-GPTQ-Int4这个经过量化压缩的模型，部署成一个既支持API调用，又提供Web聊天界面的混合服务。

你可能会有疑问：为什么不用现成的服务，非要自己搭建呢？原因很简单——自主可控。自己部署意味着你可以完全掌控数据隐私、定制功能、调整响应速度，而且成本更低。特别是对于企业应用、内部工具或者需要特定集成的场景，这种混合服务架构提供了极大的灵活性。

通义千问1.5-1.8B-Chat-GPTQ-Int4是一个经过GPTQ-Int4量化处理的聊天模型，体积小巧但能力不俗。我们将使用vLLM来高效部署这个模型，然后用FastAPI构建标准的REST API，最后用Chainlit打造一个漂亮的Web聊天界面。听起来有点复杂？别担心，我会一步步带你完成，保证小白也能看懂、跟着做。

2. 环境准备与快速部署

2.1 系统要求与前置检查

在开始之前，确保你的环境满足以下基本要求：

操作系统：Linux（推荐Ubuntu 20.04+）或macOS
Python版本：Python 3.8或更高版本
内存：至少8GB RAM（模型本身约1.8GB，加上运行内存）
GPU：可选但推荐（有GPU会快很多）
磁盘空间：至少5GB可用空间

如果你使用的是云服务器或者已经预装了相关环境，可以直接跳到下一步。如果没有，建议先安装Python和pip。

2.2 一键部署脚本

为了让大家快速上手，我准备了一个完整的部署脚本。你只需要复制下面的代码，保存为deploy.sh，然后运行即可。

#!/bin/bash # 创建项目目录 mkdir -p qwen-mixed-service cd qwen-mixed-service # 创建虚拟环境 python3 -m venv venv source venv/bin/activate # 安装核心依赖 pip install --upgrade pip pip install fastapi uvicorn chainlit vllm transformers # 创建必要的目录结构 mkdir -p models logs static templates echo "✅ 基础环境准备完成！"

运行这个脚本：

chmod +x deploy.sh ./deploy.sh

脚本执行完成后，你会看到一个名为qwen-mixed-service的目录，里面包含了我们需要的所有基础结构。

2.3 模型下载与准备

接下来需要下载模型。由于通义千问1.5-1.8B-Chat-GPTQ-Int4已经经过量化处理，我们可以直接从Hugging Face下载。

创建一个下载脚本download_model.py：

import os from huggingface_hub import snapshot_download # 模型在Hugging Face上的路径 model_id = "Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4" # 本地保存路径 local_dir = "./models/qwen1.5-1.8b-chat-gptq-int4" print(f"开始下载模型: {model_id}") print("这可能需要一些时间，请耐心等待...") # 下载模型 snapshot_download( repo_id=model_id, local_dir=local_dir, local_dir_use_symlinks=False, resume_download=True ) print(f"✅ 模型下载完成！保存在: {local_dir}")

运行下载：

python download_model.py

下载过程可能需要一些时间，具体取决于你的网络速度。模型大小约1.8GB，下载完成后我们就可以开始部署了。

3. 使用vLLM部署模型服务

3.1 什么是vLLM？为什么选择它？

vLLM是一个专门为大型语言模型设计的高效推理引擎。相比传统的transformers库，vLLM有几个显著优势：

内存效率高：使用PagedAttention技术，大幅减少内存占用
推理速度快：支持批量处理和连续批处理，吞吐量更高
易于部署：提供简单的API接口，方便集成

对于我们的1.8B模型来说，vLLM能够确保即使在资源有限的环境下也能稳定运行。

3.2 启动vLLM服务

创建一个启动脚本start_vllm.py：

import subprocess import time import os # 模型路径 model_path = "./models/qwen1.5-1.8b-chat-gptq-int4" # 检查模型是否存在 if not os.path.exists(model_path): print(f"❌ 模型路径不存在: {model_path}") print("请先运行 download_model.py 下载模型") exit(1) print("🚀 启动vLLM服务...") # 启动vLLM服务 cmd = [ "python", "-m", "vllm.entrypoints.openai.api_server", "--model", model_path, "--host", "0.0.0.0", "--port", "8000", "--api-key", "your-api-key-here", # 可以自定义API密钥 "--served-model-name", "qwen1.5-1.8b-chat" ] # 启动服务 process = subprocess.Popen(cmd) print("✅ vLLM服务已启动") print("📡 服务地址: http://localhost:8000") print("📝 API文档: http://localhost:8000/docs") print("⏳ 等待服务完全启动...") # 等待服务启动完成 time.sleep(10) print("🎉 vLLM服务启动完成！") print("💡 提示: 按Ctrl+C停止服务")

运行这个脚本：

python start_vllm.py

服务启动后，你可以在浏览器中访问http://localhost:8000/docs查看OpenAI兼容的API文档。这意味着你可以像调用ChatGPT API一样调用我们的模型。

3.3 验证vLLM服务

为了确保服务正常运行，我们可以写一个简单的测试脚本：

import requests import json # 测试vLLM API def test_vllm_api(): url = "http://localhost:8000/v1/chat/completions" headers = { "Content-Type": "application/json", "Authorization": "Bearer your-api-key-here" } data = { "model": "qwen1.5-1.8b-chat", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "max_tokens": 100, "temperature": 0.7 } try: response = requests.post(url, headers=headers, json=data) if response.status_code == 200: result = response.json() print("✅ API调用成功！") print("🤖 模型回复:", result["choices"][0]["message"]["content"]) return True else: print(f"❌ API调用失败，状态码: {response.status_code}") print("响应内容:", response.text) return False except Exception as e: print(f"❌ 请求异常: {e}") return False if __name__ == "__main__": test_vllm_api()

运行测试：

python test_vllm_api.py

如果看到模型回复了自我介绍，说明vLLm服务部署成功！

4. 构建FastAPI中间层

4.1 为什么需要FastAPI中间层？

你可能会问：vLLM不是已经提供了API吗？为什么还要加一层FastAPI？原因有几个：

统一接口：vLLM提供的是OpenAI兼容接口，但你可能需要自定义的接口格式
添加业务逻辑：可以在中间层实现限流、鉴权、日志记录等功能
多模型支持：未来可以轻松扩展支持多个模型
错误处理：提供更友好的错误信息和重试机制

4.2 创建FastAPI应用

创建一个fastapi_app.py文件：

from fastapi import FastAPI, HTTPException, Depends from fastapi.middleware.cors import CORSMiddleware from pydantic import BaseModel from typing import List, Optional import requests import time import logging # 配置日志 logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) # 创建FastAPI应用 app = FastAPI( title="Qwen混合API服务", description="基于Qwen1.5-1.8B-GPTQ-Int4的混合API服务", version="1.0.0" ) # 添加CORS中间件（允许跨域请求） app.add_middleware( CORSMiddleware, allow_origins=["*"], # 生产环境应该限制具体域名 allow_credentials=True, allow_methods=["*"], allow_headers=["*"], ) # 定义请求和响应模型 class ChatMessage(BaseModel): role: str # user, assistant, system content: str class ChatRequest(BaseModel): messages: List[ChatMessage] max_tokens: Optional[int] = 512 temperature: Optional[float] = 0.7 top_p: Optional[float] = 0.9 stream: Optional[bool] = False class ChatResponse(BaseModel): id: str object: str = "chat.completion" created: int model: str choices: List[dict] usage: dict # vLLM服务配置 VLLM_URL = "http://localhost:8000/v1/chat/completions" API_KEY = "your-api-key-here" # 与vLLM配置一致 @app.get("/") async def root(): """健康检查端点""" return { "status": "healthy", "service": "Qwen混合API服务", "model": "Qwen1.5-1.8B-Chat-GPTQ-Int4", "version": "1.0.0" } @app.post("/v1/chat/completions", response_model=ChatResponse) async def chat_completion(request: ChatRequest): """ 聊天补全接口 将请求转发到vLLM服务 """ start_time = time.time() # 准备请求头 headers = { "Content-Type": "application/json", "Authorization": f"Bearer {API_KEY}" } # 准备请求数据 vllm_request = { "model": "qwen1.5-1.8b-chat", "messages": [msg.dict() for msg in request.messages], "max_tokens": request.max_tokens, "temperature": request.temperature, "top_p": request.top_p, "stream": request.stream } try: # 记录请求日志 logger.info(f"收到聊天请求: {len(request.messages)}条消息") # 转发请求到vLLM response = requests.post(VLLM_URL, headers=headers, json=vllm_request) # 检查响应状态 if response.status_code != 200: logger.error(f"vLLM服务错误: {response.status_code} - {response.text}") raise HTTPException( status_code=response.status_code, detail=f"模型服务错误: {response.text}" ) # 解析响应 result = response.json() # 计算处理时间 processing_time = time.time() - start_time # 添加自定义字段 result["processing_time"] = processing_time result["service"] = "qwen-mixed-api" # 记录成功日志 logger.info(f"请求处理完成，耗时: {processing_time:.2f}秒") return result except requests.exceptions.ConnectionError: logger.error("无法连接到vLLM服务") raise HTTPException( status_code=503, detail="模型服务暂时不可用，请稍后重试" ) except Exception as e: logger.error(f"处理请求时发生错误: {str(e)}") raise HTTPException( status_code=500, detail=f"内部服务器错误: {str(e)}" ) @app.get("/models") async def list_models(): """列出可用模型""" return { "models": [ { "id": "qwen1.5-1.8b-chat", "name": "Qwen1.5-1.8B-Chat-GPTQ-Int4", "description": "经过量化处理的1.8B参数聊天模型", "max_tokens": 8192, "supports_streaming": True } ] } if __name__ == "__main__": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8080)

4.3 启动FastAPI服务

创建一个启动脚本start_fastapi.sh：

#!/bin/bash # 激活虚拟环境 source venv/bin/activate # 启动FastAPI服务 echo "🚀 启动FastAPI服务..." echo "📡 服务地址: http://localhost:8080" echo "📝 API文档: http://localhost:8080/docs" python fastapi_app.py

运行服务：

chmod +x start_fastapi.sh ./start_fastapi.sh

现在你有了两个服务：

vLLM服务：运行在端口8000，提供原始的模型推理能力
FastAPI服务：运行在端口8080，提供增强的业务逻辑层

5. 集成Chainlit前端界面

5.1 Chainlit是什么？为什么选择它？

Chainlit是一个专门为AI应用设计的开源聊天界面框架，它有以下几个优点：

开箱即用：几行代码就能创建一个漂亮的聊天界面
功能丰富：支持文件上传、代码高亮、消息流式传输等
易于定制：可以自定义主题、布局和组件
开发友好：与FastAPI无缝集成

5.2 创建Chainlit应用

创建一个chainlit_app.py文件：

import chainlit as cl import requests import json from typing import Optional # FastAPI服务地址 FASTAPI_URL = "http://localhost:8080/v1/chat/completions" @cl.on_chat_start async def start_chat(): """ 聊天开始时的初始化 """ # 设置聊天设置 settings = await cl.ChatSettings( [ cl.input_widget.Slider( id="temperature", label="温度 (Temperature)", initial=0.7, min=0, max=2, step=0.1 ), cl.input_widget.Slider( id="max_tokens", label="最大生成长度 (Max Tokens)", initial=512, min=50, max=2048, step=50 ), cl.input_widget.Select( id="model", label="模型选择", values=["qwen1.5-1.8b-chat"], initial_index=0 ) ] ).send() # 欢迎消息 await cl.Message( content=""" 🤖 欢迎使用 Qwen1.5-1.8B 聊天助手！ 我是基于通义千问1.5-1.8B-Chat-GPTQ-Int4模型构建的智能助手。 **我可以帮你：** - 回答各种问题 - 协助写作和创作 - 代码编写和调试 - 翻译和总结文本 请在下方输入你的问题，我会尽力为你解答！ 💡 **提示**：你可以在右侧设置中调整温度参数和生成长度。 """ ).send() @cl.on_message async def main(message: cl.Message): """ 处理用户消息 """ # 获取用户设置 settings = await cl.ChatSettings( [ cl.input_widget.Slider( id="temperature", label="温度 (Temperature)", initial=0.7, min=0, max=2, step=0.1 ), cl.input_widget.Slider( id="max_tokens", label="最大生成长度 (Max Tokens)", initial=512, min=50, max=2048, step=50 ) ] ).get() # 显示"正在思考"消息 msg = cl.Message(content="") await msg.send() # 准备请求数据 request_data = { "messages": [ { "role": "user", "content": message.content } ], "max_tokens": settings["max_tokens"], "temperature": settings["temperature"], "stream": True # 启用流式响应 } try: # 发送请求到FastAPI服务 response = requests.post( FASTAPI_URL, json=request_data, stream=True, headers={"Content-Type": "application/json"} ) if response.status_code == 200: # 处理流式响应 full_response = "" for line in response.iter_lines(): if line: line = line.decode('utf-8') if line.startswith("data: "): data = line[6:] # 去掉"data: "前缀 if data != "[DONE]": try: chunk = json.loads(data) if "choices" in chunk and len(chunk["choices"]) > 0: delta = chunk["choices"][0].get("delta", {}) if "content" in delta: content = delta["content"] full_response += content await msg.stream_token(content) except json.JSONDecodeError: continue # 更新完整消息 msg.content = full_response await msg.update() # 添加操作按钮 actions = [ cl.Action(name="copy", value=full_response, description="📋 复制回答"), cl.Action(name="regenerate", value="regenerate", description="🔄 重新生成"), cl.Action(name="feedback", value="feedback", description="💬 提供反馈") ] await msg.send() else: error_msg = f"请求失败，状态码: {response.status_code}" await cl.Message(content=error_msg).send() except requests.exceptions.ConnectionError: await cl.Message( content="无法连接到后端服务，请确保FastAPI服务正在运行。" ).send() except Exception as e: await cl.Message( content=f"处理请求时发生错误: {str(e)}" ).send() @cl.on_settings_update async def setup_agent(settings): """ 处理设置更新 """ await cl.Message( content=f"设置已更新：温度={settings['temperature']}, 最大长度={settings['max_tokens']}" ).send() @cl.action_callback("copy") async def on_action_copy(action: cl.Action): """ 复制回答到剪贴板 """ await cl.Message(content="✅ 回答已复制到剪贴板！").send() @cl.action_callback("regenerate") async def on_action_regenerate(action: cl.Action): """ 重新生成回答 """ await cl.Message(content="🔄 正在重新生成回答...").send() @cl.action_callback("feedback") async def on_action_feedback(action: cl.Action): """ 提供反馈 """ await cl.Message( content="感谢你的反馈！请告诉我这个回答有什么可以改进的地方？" ).send() # Chainlit配置文件 chainlit_config = """ [project] name = "Qwen聊天助手" description = "基于Qwen1.5-1.8B-GPTQ-Int4的智能聊天助手" author = "你的名字" version = "1.0.0" [UI] name = "Qwen聊天助手" description = "与AI助手对话" show_readme_as_default = true [features] telemetry = false """ # 写入配置文件 with open(".chainlit/config.toml", "w") as f: f.write(chainlit_config)

5.3 启动Chainlit服务

创建一个启动脚本start_chainlit.sh：

#!/bin/bash # 激活虚拟环境 source venv/bin/activate # 启动Chainlit服务 echo "🚀 启动Chainlit聊天界面..." echo "🌐 访问地址: http://localhost:8001" chainlit run chainlit_app.py -w --port 8001

运行服务：

chmod +x start_chainlit.sh ./start_chainlit.sh

现在打开浏览器，访问http://localhost:8001，你就能看到一个漂亮的聊天界面了！

6. 完整系统集成与一键启动

6.1 创建一键启动脚本

为了方便管理，我们创建一个完整的启动脚本start_all.sh：

#!/bin/bash # 颜色定义 RED='\033[0;31m' GREEN='\033[0;32m' YELLOW='\033[1;33m' NC='\033[0m' # No Color echo -e "${GREEN}🚀 启动Qwen混合API服务${NC}" echo "=" * 50 # 检查Python环境 echo -e "${YELLOW}[1/4] 检查Python环境...${NC}" if ! command -v python3 &> /dev/null; then echo -e "${RED}❌ 未找到Python3，请先安装Python3${NC}" exit 1 fi python_version=$(python3 --version | cut -d' ' -f2) echo -e "${GREEN}✅ Python版本: ${python_version}${NC}" # 检查虚拟环境 echo -e "${YELLOW}[2/4] 检查虚拟环境...${NC}" if [ ! -d "venv" ]; then echo -e "${YELLOW}⚠️ 虚拟环境不存在，正在创建...${NC}" python3 -m venv venv fi source venv/bin/activate echo -e "${GREEN}✅ 虚拟环境已激活${NC}" # 检查依赖 echo -e "${YELLOW}[3/4] 检查依赖包...${NC}" pip install -q fastapi uvicorn chainlit vllm transformers requests # 启动服务 echo -e "${YELLOW}[4/4] 启动所有服务...${NC}" # 启动vLLM服务（后台运行） echo -e "${GREEN}▶️ 启动vLLM服务...${NC}" python -m vllm.entrypoints.openai.api_server \ --model ./models/qwen1.5-1.8b-chat-gptq-int4 \ --host 0.0.0.0 \ --port 8000 \ --api-key your-api-key-here \ --served-model-name qwen1.5-1.8b-chat \ > vllm.log 2>&1 & VLLM_PID=$! echo -e "${GREEN}✅ vLLM服务已启动 (PID: ${VLLM_PID})${NC}" echo -e "${GREEN}📡 vLLM API地址: http://localhost:8000${NC}" # 等待vLLM服务启动 sleep 15 # 启动FastAPI服务（后台运行） echo -e "${GREEN}▶️ 启动FastAPI服务...${NC}" python fastapi_app.py > fastapi.log 2>&1 & FASTAPI_PID=$! echo -e "${GREEN}✅ FastAPI服务已启动 (PID: ${FASTAPI_PID})${NC}" echo -e "${GREEN}📡 FastAPI地址: http://localhost:8080${NC}" echo -e "${GREEN}📝 API文档: http://localhost:8080/docs${NC}" # 等待FastAPI服务启动 sleep 5 # 启动Chainlit服务（前台运行） echo -e "${GREEN}▶️ 启动Chainlit聊天界面...${NC}" echo -e "${GREEN}🌐 聊天界面: http://localhost:8001${NC}" echo -e "${YELLOW}💡 按Ctrl+C停止所有服务${NC}" echo "=" * 50 chainlit run chainlit_app.py -w --port 8001 # 清理：当Chainlit停止时，停止其他服务 echo -e "${YELLOW}🛑 停止所有服务...${NC}" kill $VLLM_PID 2>/dev/null kill $FASTAPI_PID 2>/dev/null echo -e "${GREEN}✅ 所有服务已停止${NC}"

6.2 创建停止脚本

同时创建一个停止脚本stop_all.sh：

#!/bin/bash echo "🛑 停止所有Qwen服务..." # 查找并停止相关进程 pkill -f "vllm.entrypoints.openai.api_server" pkill -f "fastapi_app.py" pkill -f "chainlit" echo "✅ 所有服务已停止"

6.3 使用说明

现在你可以通过以下方式启动整个系统：

# 给脚本添加执行权限 chmod +x start_all.sh stop_all.sh # 启动所有服务 ./start_all.sh # 停止所有服务（或者在启动脚本的终端按Ctrl+C） ./stop_all.sh

7. 常见问题与解决方案

7.1 服务启动失败怎么办？

如果服务启动失败，可以按照以下步骤排查：

检查端口占用：

# 检查端口是否被占用 lsof -i :8000 # vLLM端口 lsof -i :8080 # FastAPI端口 lsof -i :8001 # Chainlit端口 # 如果端口被占用，可以修改端口或停止占用进程

检查模型文件：

# 确认模型文件存在 ls -lh ./models/qwen1.5-1.8b-chat-gptq-int4/ # 如果模型不存在，重新下载 python download_model.py

检查依赖包：

# 检查关键依赖是否安装 pip list | grep -E "(fastapi|uvicorn|chainlit|vllm|transformers)"

7.2 响应速度慢怎么办？

如果发现响应速度慢，可以尝试以下优化：

启用GPU加速（如果有GPU）：

# 修改start_vllm.py中的启动命令，添加GPU参数 cmd = [ "python", "-m", "vllm.entrypoints.openai.api_server", "--model", model_path, "--host", "0.0.0.0", "--port", "8000", "--gpu-memory-utilization", "0.9", # GPU内存利用率 "--tensor-parallel-size", "1", # 张量并行数 "--max-num-batched-tokens", "4096", # 最大批处理token数 ]

调整批处理参数：

# 在FastAPI中调整请求参数 @app.post("/v1/chat/completions") async def chat_completion(request: ChatRequest): # 添加批处理优化 vllm_request = { # ... 其他参数 "max_tokens": min(request.max_tokens, 1024), # 限制最大长度 "temperature": max(0.1, min(request.temperature, 1.0)), # 限制温度范围 }

7.3 内存不足怎么办？

对于1.8B的模型，8GB内存通常足够，但如果遇到内存问题：

减少并发请求：

# 在FastAPI中添加限流 from slowapi import Limiter, _rate_limit_exceeded_handler from slowapi.util import get_remote_address limiter = Limiter(key_func=get_remote_address) app.state.limiter = limiter @app.post("/v1/chat/completions") @limiter.limit("5/minute") # 每分钟最多5个请求 async def chat_completion(request: ChatRequest): # ...

使用更小的批处理大小：

# 在vLLM启动参数中调整 --max-num-seqs 4 # 最大并发序列数 --max-prompt-length 512 # 最大提示长度

7.4 如何监控服务状态？

添加简单的监控端点：

@app.get("/health") async def health_check(): """健康检查端点""" try: # 检查vLLM服务 vllm_response = requests.get("http://localhost:8000/health") vllm_status = vllm_response.status_code == 200 return { "status": "healthy" if vllm_status else "degraded", "services": { "vllm": "up" if vllm_status else "down", "fastapi": "up", "chainlit": "up" }, "timestamp": time.time() } except: return { "status": "unhealthy", "services": { "vllm": "down", "fastapi": "up", "chainlit": "up" }, "timestamp": time.time() }

8. 总结与下一步建议

8.1 学到了什么？

通过这个实战教程，我们完成了一个完整的混合API服务搭建：

模型部署：使用vLLM高效部署了Qwen1.5-1.8B-GPTQ-Int4模型
API服务：用FastAPI构建了功能丰富的中间层API
前端界面：用Chainlit创建了美观易用的聊天界面
系统集成：将所有组件整合成一个完整的服务

这个架构有几个关键优势：

灵活性：可以根据需要单独使用API或Web界面
可扩展性：很容易添加新的模型或功能
易维护性：各组件职责清晰，便于调试和维护
生产就绪：包含了错误处理、日志记录、健康检查等生产级功能

8.2 可以如何改进？

虽然我们已经有了一个可用的系统，但还有很多可以改进的地方：

添加身份验证：

# 在FastAPI中添加API密钥验证 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials security = HTTPBearer() @app.post("/v1/chat/completions") async def chat_completion( request: ChatRequest, credentials: HTTPAuthorizationCredentials = Depends(security) ): if credentials.credentials != "your-secret-api-key": raise HTTPException(status_code=403, detail="无效的API密钥") # ...

添加缓存机制：

from fastapi_cache import FastAPICache from fastapi_cache.backends.inmemory import InMemoryBackend from fastapi_cache.decorator import cache @app.on_event("startup") async def startup(): FastAPICache.init(InMemoryBackend()) @app.post("/v1/chat/completions") @cache(expire=300) # 缓存5分钟 async def chat_completion(request: ChatRequest): # ...

添加监控和日志：

import structlog # 配置结构化日志 structlog.configure( processors=[ structlog.processors.TimeStamper(fmt="iso"), structlog.processors.JSONRenderer() ] ) logger = structlog.get_logger()