当前位置：首页 > news >正文

Qwen3-14b_int4_awq从零开始：Linux环境部署vLLM+Chainlit全流程图文详解

news 2026/5/11 1:47:01

Qwen3-14b_int4_awq从零开始：Linux环境部署vLLM+Chainlit全流程图文详解

1. 环境准备与快速部署

在开始之前，请确保您的Linux系统满足以下基本要求：

操作系统：Ubuntu 20.04或更高版本
显卡：NVIDIA GPU（建议显存≥16GB）
驱动：NVIDIA驱动≥515.0
CUDA：11.8或更高版本
Python：3.8或更高版本

1.1 安装基础依赖

首先更新系统并安装必要的依赖包：

sudo apt update && sudo apt upgrade -y sudo apt install -y python3-pip python3-dev git curl wget

1.2 创建Python虚拟环境

为避免依赖冲突，建议创建独立的Python环境：

python3 -m venv qwen_env source qwen_env/bin/activate

2. 模型部署与配置

2.1 安装vLLM框架

vLLM是一个高效的大语言模型推理框架，特别适合部署量化模型：

pip install vllm

2.2 下载Qwen3-14b_int4_awq模型

从镜像源获取预量化模型：

git clone https://your-model-repo/Qwen3-14b_int4_awq.git cd Qwen3-14b_int4_awq

2.3 启动vLLM服务

使用以下命令启动模型服务：

python -m vllm.entrypoints.api_server \ --model ./Qwen3-14b_int4_awq \ --tensor-parallel-size 1 \ --quantization awq \ --port 8000

服务启动后，您可以通过查看日志确认状态：

tail -f /root/workspace/llm.log

正常运行的日志应包含类似以下内容：

INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

3. Chainlit前端集成

3.1 安装Chainlit

Chainlit是一个简单易用的对话应用框架：

pip install chainlit

3.2 创建Chainlit应用

新建一个Python文件app.py，添加以下内容：

import chainlit as cl import requests @cl.on_message async def main(message: cl.Message): response = requests.post( "http://localhost:8000/generate", json={ "prompt": message.content, "max_tokens": 512, "temperature": 0.7 } ) result = response.json()["text"][0] await cl.Message(content=result).send()

3.3 启动Chainlit服务

运行以下命令启动前端：

chainlit run app.py -w

服务启动后，默认会在浏览器打开http://localhost:8000，您可以直接在界面中输入问题与模型交互。

4. 验证与测试

4.1 服务状态验证

确保两个服务都正常运行：

# 检查vLLM服务 curl http://localhost:8000/health # 检查Chainlit服务 netstat -tulnp | grep 8000

4.2 功能测试

在Chainlit界面中尝试提问，例如：

请用简洁的语言解释量子计算的基本原理

正常响应应包含连贯、相关的回答内容，表明模型已成功部署并运行。

5. 常见问题解决

5.1 模型加载失败

如果模型无法加载，检查：

显存是否足够（至少16GB）
CUDA版本是否兼容
模型文件是否完整

5.2 响应速度慢

可以尝试以下优化：

# 增加批处理大小 python -m vllm.entrypoints.api_server \ --model ./Qwen3-14b_int4_awq \ --tensor-parallel-size 1 \ --quantization awq \ --port 8000 \ --max-num-batched-tokens 4096