当前位置：首页 > news >正文

Qwen3.5-35B-AWQ-4bit开源镜像部署教程：vLLM+compressed-tensors稳定方案

news 2026/6/8 11:04:22

Qwen3.5-35B-AWQ-4bit开源镜像部署教程：vLLM+compressed-tensors稳定方案

1. 模型介绍

Qwen3.5-35B-A3B-AWQ-4bit是一个面向视觉多模态理解的量化模型，支持图片理解、图文问答、视觉描述等能力。这个模型特别适合需要分析图片内容、进行图文对话的应用场景。

1.1 核心能力

能力	说明	典型应用场景
图片理解	分析上传图片的内容	商品识别、场景分析
图文问答	围绕图片进行多轮提问	智能客服、教育辅导
视觉描述	生成图片的文字描述	内容创作、无障碍服务
中文输出	支持中文问答交互	本地化应用开发

1.2 技术特点

高效量化：采用AWQ-4bit量化技术，大幅降低显存需求
多模态支持：同时处理图像和文本输入
稳定部署：基于vLLM+compressed-tensors方案
开箱即用：提供完整的Web交互界面

2. 环境准备

2.1 硬件要求

GPU配置：至少2张24GB显存的GPU卡（如NVIDIA RTX 3090）
内存：建议64GB以上系统内存
存储：需要50GB以上可用空间

2.2 软件依赖

# 基础环境检查 nvidia-smi # 确认GPU驱动正常 docker --version # 确认Docker已安装 nvidia-docker --version # 确认NVIDIA Docker支持

3. 部署步骤

3.1 获取镜像

# 拉取预构建镜像 docker pull csdn-mirror/qwen35-awq:latest

3.2 启动容器

# 启动容器（注意替换your_api_key） docker run -itd --gpus all \ -p 7860:7860 \ -e API_KEY=your_api_key \ --name qwen35-awq \ csdn-mirror/qwen35-awq:latest

3.3 服务验证

# 检查服务状态 docker exec -it qwen35-awq supervisorctl status # 预期输出示例 qwen35awq-backend RUNNING qwen35awq-web RUNNING

4. 使用指南

4.1 访问Web界面

如果已配置公网访问，直接打开分配的URL
本地测试可通过SSH隧道访问：

ssh -L 7860:127.0.0.1:7860 your_username@your_server_ip

然后在浏览器访问：http://127.0.0.1:7860

4.2 基本操作流程

上传图片：点击上传按钮选择图片文件
输入问题：在对话框输入关于图片的问题
获取回答：模型会生成针对图片的回复

4.3 使用示例

测试图片：上传一张包含多个水果的图片
提问示例：

"图片中有哪些水果？"
"香蕉在图片的什么位置？"
"这些水果可以做什么甜点？"

5. 高级配置

5.1 性能调优参数

参数	说明	推荐值
tensor-parallel-size	张量并行数	2
max-model-len	最大上下文长度	4096
enforce-eager	禁用cudagraph	true
dtype	推理精度	float16

5.2 服务管理命令

# 重启后端服务 docker exec -it qwen35-awq supervisorctl restart qwen35awq-backend # 查看日志 docker exec -it qwen35-awq tail -f /root/workspace/qwen35awq-backend.log

6. 常见问题解决

6.1 服务启动失败

症状：Web页面无法打开
排查步骤：

检查容器是否运行：docker ps
检查端口是否监听：docker exec -it qwen35-awq ss -ltnp
查看服务日志：docker exec -it qwen35-awq supervisorctl tail qwen35awq-backend

6.2 响应速度慢

优化建议：

减小图片尺寸（建议长边不超过1024px）
使用更简单明确的问题
确保GPU利用率正常（检查nvidia-smi）

6.3 显存不足

解决方案：

确认使用双GPU卡
检查tensor-parallel-size设置为2
尝试减小max-model-len参数

7. 最佳实践

图片预处理：
- 确保图片清晰度高
- 主体对象突出
- 复杂场景可先裁剪重点区域
提问技巧：
- 从整体描述开始（"这张图片展示了什么？"）
- 逐步深入细节（"左侧穿红衣服的人在做什么？"）
- 避免一次问多个问题
性能优化：
- 保持会话围绕同一张图片
- 长时间不用后首次查询会有预热时间
- 批量处理时可考虑API调用方式

8. 技术方案解析

8.1 vLLM+compressed-tensors优势

内存效率：量化模型显存占用降低60%
推理速度：保持原始模型80%以上的推理速度
稳定性：避免原生Transformers的OOM问题

8.2 量化技术细节

AWQ算法：激活感知的权重量化
4bit精度：每组权重使用4bit表示
分组量化：按通道分组保持精度

9. 总结

Qwen3.5-35B-AWQ-4bit模型通过量化技术和稳定的vLLM+compressed-tensors部署方案，使得大模型多模态应用变得更加可行。本教程详细介绍了从环境准备到实际使用的完整流程，帮助开发者快速搭建自己的图文对话系统。

关键要点回顾：

必须使用双GPU卡部署
Web界面开箱即用，适合快速验证
提问方式影响回答质量，需要适当引导
服务管理命令方便运维监控

对于希望进一步探索的开发者，可以尝试：

集成到现有应用系统
开发自定义前端界面
针对垂直领域进行微调

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

http://www.jsqmd.com/news/627539/

相关文章：

万物识别中文模型5分钟快速上手：免配置环境一键部署教程

使用Proteus进行nli-distilroberta-base模型服务依赖的可视化架构设计

基于Qwen-Image-2512-Pixel-Art-LoRA 的嵌入式系统UI图标生成方案

RetinaFace效果实测：对比不同阈值下的人脸检测精度差异

【SITS2026紧急预警】：2026年起，无伦理溯源日志的AI系统将被全球TOP15云平台自动拒载（附开源EthiLog v2.1集成指南）

Graphormer模型推理加速：使用.accelerate库优化计算性能

生物信息学新手必看：5分钟搞定AlphaFold蛋白质结构数据本地化

从零搭建高活跃AI原生技术社区：7步标准化流程、3类核心角色配置清单与实时数据验证模型

FireRedASR Pro学术研究辅助工具：自动转写访谈录音与文献摘要

Qwen3-Reranker-0.6B部署总结：你已掌握的核心能力与下一步行动建议

输入两字秒出春联：春联生成模型-中文-base新手体验实测

Z-Image-GGUF一键部署教程：3步完成Python环境下的文生图模型搭建

文档漂移（Doc Drift）正在吞噬你的AI系统可靠性：一份被27家AI原生企业联合签署的自动化更新白皮书

自动化测试集成：Z-Image-Turbo生成图像的质量评估算法

Kandinsky-5.0-I2V-Lite-5s部署案例：高校AI课程实验平台——学生自助生成动态作业

【紧急预警】Kubernetes+LLM协同失控风险正在爆发！3个真实生产事故复盘，及开源可部署的AI-Native Guardrails v1.2

在WSL2中无缝开发与调试：Phi-4-mini-reasoning模型本地化部署指南

MongoDB 创建集合

day21-数据结构力扣

cv_resnet101_face-detection_cvpr22papermogface 与MySQL数据库联动：检测日志存储与分析

AI原生软件国际化工程实践（2024年最新Gartner验证的87%企业未采用的语义层抽象方案）

零基础小白必看：Python3.11+Miniconda快速部署指南

手把手教学：基于CYBER-VISION的实时路径分割系统部署指南

用Glyph做视觉推理：4090D单卡快速部署，开启长文本智能处理新体验

开源可部署AI工具推荐：Pixel Epic智识终端+AgentCPM-Report全解析

【毕业论文求生指南】AIGC率居高不下？10款降AI工具实测清单，手把手带你安全通关

实测有效！单卡10分钟微调Qwen2.5-7B，改变AI自我认知

Qwen3-ForcedAligner部署避坑指南：从镜像拉取到API调用完整流程

技术速递｜oBeaver —— 一只可以在你本地机器上运行大语言模型的海狸 [特殊字符]

一丹一世界FLUX.1 Prompt工程：用InstructPix2Pix实现‘沙滩变雪地’跨域编辑