当前位置：首页 > news >正文

Qwen3-14b_int4_awq部署教程：vLLM与Ollama共存方案 + Chainlit统一前端接入

news 2026/7/3 20:11:47

Qwen3-14b_int4_awq部署教程：vLLM与Ollama共存方案 + Chainlit统一前端接入

1. 模型简介

Qwen3-14b_int4_awq是基于Qwen3-14b模型的int4量化版本，采用AngelSlim技术进行压缩优化。这个版本特别适合在资源受限的环境下运行文本生成任务，同时保持较高的生成质量。

主要特点：

采用AWQ（Activation-aware Weight Quantization）量化技术
4-bit整数精度（int4）显著减少显存占用
保持原始模型90%以上的生成质量
支持多种文本生成任务

2. 环境准备与部署

2.1 系统要求

最低配置：

GPU：NVIDIA显卡（推荐RTX 3090或更高）
显存：16GB以上
内存：32GB以上
存储：50GB可用空间

推荐配置：

GPU：NVIDIA A100 40GB
显存：40GB以上
内存：64GB以上
存储：100GB SSD

2.2 部署步骤

拉取镜像：

docker pull csdn_mirror/qwen3-14b-int4-awq:latest

启动容器：

docker run -it --gpus all -p 8000:8000 -p 8001:8001 \ -v /path/to/models:/models csdn_mirror/qwen3-14b-int4-awq:latest

检查服务状态：

cat /root/workspace/llm.log

成功部署后，日志会显示类似以下内容：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit) INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete.

3. 模型服务验证

3.1 通过API测试

使用curl测试API接口：

curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ -d '{"prompt": "介绍一下Qwen3模型", "max_tokens": 100}'

预期响应：

{ "id": "cmpl-3Q6q7XQ5J4q8", "object": "text_completion", "created": 1677652288, "model": "Qwen3-14b-int4-awq", "choices": [ { "text": "Qwen3是阿里巴巴达摩院开发的大规模语言模型...", "index": 0, "logprobs": null, "finish_reason": "length" } ], "usage": { "prompt_tokens": 10, "completion_tokens": 100, "total_tokens": 110 } }

3.2 使用Chainlit前端

安装Chainlit：

pip install chainlit

创建app.py：

import chainlit as cl import requests @cl.on_message async def main(message: str): response = requests.post( "http://localhost:8000/v1/completions", json={ "prompt": message, "max_tokens": 200, "temperature": 0.7 } ) result = response.json() await cl.Message(content=result["choices"][0]["text"]).send()

启动Chainlit：

chainlit run app.py -w

访问前端：打开浏览器访问 http://localhost:8001

4. 高级配置

4.1 vLLM与Ollama共存配置

修改docker-compose.yml：

version: '3.8' services: vllm: image: csdn_mirror/qwen3-14b-int4-awq:latest ports: - "8000:8000" deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] ollama: image: ollama/ollama:latest ports: - "11434:11434" volumes: - ollama_data:/root/.ollama deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] volumes: ollama_data:

启动服务：

docker-compose up -d

4.2 性能优化参数

在启动vLLM服务时，可以添加以下优化参数：

python -m vllm.entrypoints.api_server \ --model /models/Qwen3-14b-int4-awq \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 256 \ --max-model-len 4096

关键参数说明：