当前位置：首页 > news >正文

Qwen3.5-35B-A3B-AWQ-4bit镜像部署一文详解：内置模型目录+压缩张量+双卡验证

news 2026/3/26 17:28:21

Qwen3.5-35B-A3B-AWQ-4bit镜像部署一文详解：内置模型目录+压缩张量+双卡验证

1. 模型概述

Qwen3.5-35B-A3B-AWQ-4bit是一款面向视觉多模态理解的量化模型，具备强大的图片理解和图文对话能力。这个模型特别适合需要分析图片内容、进行图文问答以及生成视觉描述的应用场景。

1.1 核心能力

能力类型	具体功能	应用场景
图片理解	分析图片内容	商品识别、场景理解
图文问答	围绕图片提问	智能客服、教育辅导
视觉描述	生成图片说明	内容创作、无障碍访问

1.2 技术特点

量化压缩：采用4bit AWQ量化技术，大幅降低显存需求
多模态支持：同时处理图像和文本输入
中文优化：针对中文场景特别优化
双卡支持：已验证可在双24GB GPU上稳定运行

2. 部署准备

2.1 硬件要求

GPU：至少2张24GB显存的NVIDIA显卡
内存：建议64GB以上
存储：需要约50GB可用空间

2.2 软件环境

# 基础环境检查 nvidia-smi # 确认GPU状态 df -h # 检查磁盘空间 free -h # 检查内存情况

3. 镜像部署详解

3.1 内置模型目录结构

镜像已经预置了完整的模型文件，目录结构如下：

/root/workspace/ ├── qwen35awq-backend/ # 后端服务 ├── qwen35awq-web/ # 前端界面 ├── models/ # 模型文件 │ ├── config.json # 模型配置 │ ├── model.safetensors # 量化权重 │ └── tokenizer/ # 分词器 └── logs/ # 日志目录

3.2 压缩张量技术

后端采用vLLM框架配合compressed-tensors技术，实现了：

高效加载：快速载入4bit量化模型
稳定推理：避免传统方法的内存问题
自动恢复：服务重启后能保持状态

4. 双卡配置验证

4.1 配置检查

确保部署时正确设置了以下参数：

# 关键配置参数 tensor_parallel_size = 2 # 双卡并行 max_model_len = 4096 # 上下文长度 enforce_eager = True # 推理模式

4.2 性能验证

我们进行了以下测试验证：

显存占用：单卡约18GB，双卡均衡负载
响应速度：简单问答在3-5秒内响应
稳定性：连续运行24小时无异常

5. 使用指南

5.1 Web界面操作

访问服务地址（默认7860端口）
上传待分析的图片
输入相关问题
查看模型回答

5.2 API调用示例

import requests url = "http://localhost:8000/v1/chat/completions" headers = {"Content-Type": "application/json"} data = { "model": "qwen-35b-awq", "messages": [ {"role": "user", "content": "描述这张图片的内容"}, ], "image": "base64编码的图片数据" } response = requests.post(url, headers=headers, json=data) print(response.json())

6. 服务管理

6.1 常用命令

# 服务状态检查 supervisorctl status qwen35awq-backend supervisorctl status qwen35awq-web # 日志查看 tail -f /root/workspace/qwen35awq-backend.log

6.2 问题排查

问题现象	可能原因	解决方案
服务启动失败	配置参数错误	检查tensor-parallel-size设置
响应速度慢	图片过大	压缩图片或使用更小分辨率
回答不准确	问题模糊	尝试更具体的问题描述