当前位置：首页 > news >正文

Qwen3.5-35B-A3B-AWQ-4bit保姆级部署指南：vLLM+compressed-tensors一键启动

news 2026/5/11 17:49:45

Qwen3.5-35B-A3B-AWQ-4bit保姆级部署指南：vLLM+compressed-tensors一键启动

1. 模型介绍

Qwen3.5-35B-A3B-AWQ-4bit是一款面向视觉多模态理解的量化模型，特别适合需要图片分析和图文对话的应用场景。这个模型经过4bit量化处理后，在保持较高精度的同时大幅降低了显存需求。

1.1 核心能力

能力类型	具体功能
图片理解	识别图片中的物体、场景、文字等内容
图文问答	针对图片内容进行多轮提问和回答
视觉描述	自动生成图片的详细文字描述
中文支持	全程中文输入输出，适合国内用户

1.2 技术特点

高效量化：采用AWQ(Activation-aware Weight Quantization)4bit量化技术
多模态支持：同时处理图像和文本输入
双卡优化：针对24GB显存显卡进行特别优化
稳定部署：基于vLLM和compressed-tensors的稳定推理方案

2. 环境准备

2.1 硬件要求

GPU：至少2张24GB显存的NVIDIA显卡（如RTX 3090×2）
内存：建议64GB以上
存储：至少50GB可用空间

2.2 软件依赖

# 基础环境检查 nvidia-smi # 确认显卡驱动正常 docker --version # 确认Docker已安装 nvidia-docker --version # 确认NVIDIA Docker已安装

3. 一键部署指南

3.1 获取镜像

docker pull csdn-mirror/qwen35-awq:latest

3.2 启动容器

docker run -itd --gpus all \ -p 7860:7860 \ -p 8000:8000 \ --name qwen35-awq \ csdn-mirror/qwen35-awq:latest

3.3 服务验证

# 检查后端服务状态 docker exec -it qwen35-awq supervisorctl status # 预期输出示例 qwen35awq-backend RUNNING qwen35awq-web RUNNING

4. 使用教程

4.1 访问Web界面

本地浏览器访问：http://服务器IP:7860
或通过SSH隧道访问：

ssh -L 7860:localhost:7860 用户名@服务器IP

4.2 基础使用流程

上传图片：点击上传按钮选择本地图片
输入问题：在对话框输入关于图片的问题
获取回答：点击"发送"按钮等待模型响应

4.3 使用示例

测试图片：上传一张包含猫和狗的图片

问题示例：

"图片中有哪些动物？"
"猫是什么颜色的？"
"它们在做什么？"

5. 高级配置

5.1 参数调整

参数文件路径	关键参数	建议值
/root/workspace/config.json	tensor_parallel_size	2
/root/workspace/config.json	max_model_len	4096
/root/workspace/config.json	enforce_eager	true

5.2 性能优化建议

对于大图片(>5MB)，建议先压缩再上传
复杂问题可以拆分为多个简单问题逐步提问
同一会话中保持图片不变可获得更好连续性

6. 运维管理

6.1 服务监控

# 查看实时日志 docker exec -it qwen35-awq tail -f /root/workspace/qwen35awq-backend.log # 资源监控 docker stats qwen35-awq

6.2 常见维护操作

# 重启服务 docker exec -it qwen35-awq supervisorctl restart all # 更新镜像 docker stop qwen35-awq docker rm qwen35-awq docker pull csdn-mirror/qwen35-awq:latest # 然后重新运行启动命令