当前位置：首页 > news >正文

Qwen2.5-72B-GPTQ-Int4部署教程：离线环境无网络安装与证书配置

news 2026/6/7 9:08:28

Qwen2.5-72B-GPTQ-Int4部署教程：离线环境无网络安装与证书配置

1. 模型简介

Qwen2.5-72B-Instruct-GPTQ-Int4是Qwen大语言模型系列的最新版本，提供了从0.5B到720B参数的基础语言模型和指令调优模型。这个72B参数的版本经过GPTQ 4-bit量化处理，特别适合在资源受限的环境中部署。

1.1 核心改进

Qwen2.5相比前代带来了显著提升：

知识量大幅增加，特别是在编程和数学能力方面
指令遵循能力增强，支持生成长文本(超过8K tokens)
能够理解结构化数据(如表格)并生成结构化输出(特别是JSON格式)
支持长达128K tokens的上下文窗口，可生成最多8K tokens的内容
支持29种以上语言，包括中文、英语、法语、西班牙语等

1.2 技术规格

类型：因果语言模型
训练阶段：预训练与后训练
架构：带有RoPE、SwiGLU、RMSNorm和Attention QKV偏置的transformers
参数数量：72.7B
非嵌入参数数量：70.0B
层数：80
注意力头数(GQA)：Q为64，KV为8
上下文长度：完整131,072 tokens和生成8,192 tokens
量化方式：GPTQ 4-bit

2. 环境准备

2.1 硬件要求

部署Qwen2.5-72B-GPTQ-Int4模型需要满足以下硬件条件：

GPU：至少1张NVIDIA A100 80GB或等效性能显卡
内存：建议至少256GB系统内存
存储：需要约40GB磁盘空间存放模型文件

2.2 软件依赖

在开始部署前，请确保系统已安装以下软件：

# 基础依赖 sudo apt-get update sudo apt-get install -y python3-pip python3-dev git # Python包 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip3 install vllm chainlit transformers

3. 离线安装与部署

3.1 模型下载与准备

在离线环境中，需要预先下载模型文件并传输到目标机器：

从官方渠道获取Qwen2.5-72B-GPTQ-Int4模型文件
将模型文件放置在/root/workspace/qwen2.5-72b-gptq-int4目录下
确保目录结构如下：

/root/workspace/qwen2.5-72b-gptq-int4/ ├── config.json ├── generation_config.json ├── model-00001-of-00009.safetensors ├── ... └── tokenizer.json

3.2 使用vLLM部署模型

vLLM是一个高效的大语言模型推理和服务引擎，特别适合部署量化模型：

# 启动vLLM服务 python3 -m vllm.entrypoints.api_server \ --model /root/workspace/qwen2.5-72b-gptq-int4 \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 16 \ --served-model-name Qwen2.5-72B-GPTQ-Int4 \ --port 8000 \ --log-file /root/workspace/llm.log

3.3 验证服务状态

部署完成后，可以通过以下命令检查服务是否正常运行：

cat /root/workspace/llm.log

如果看到类似以下输出，表示服务已成功启动：

INFO 07-01 12:34:56 api_server.py:150] Loading model weights... INFO 07-01 12:35:23 api_server.py:162] Model loaded successfully INFO 07-01 12:35:23 api_server.py:175] Starting API server on port 8000

4. 证书配置与安全访问

4.1 生成自签名证书

在离线环境中，可以使用OpenSSL生成自签名证书：

# 生成私钥 openssl genrsa -out /root/workspace/ssl.key 2048 # 生成证书签名请求 openssl req -new -key /root/workspace/ssl.key -out /root/workspace/ssl.csr # 生成自签名证书 openssl x509 -req -days 365 -in /root/workspace/ssl.csr -signkey /root/workspace/ssl.key -out /root/workspace/ssl.crt

4.2 配置Chainlit使用HTTPS

修改Chainlit配置以使用生成的证书：

# chainlit_app.py import chainlit as cl @cl.on_message async def main(message: cl.Message): # 模型调用逻辑 response = "这是模型的响应" await cl.Message(content=response).send() if __name__ == "__main__": cl.run( app="chainlit_app:main", port=7860, ssl_certfile="/root/workspace/ssl.crt", ssl_keyfile="/root/workspace/ssl.key" )