当前位置: 首页 > news >正文

Qwen3.5-35B-A3B-AWQ-4bit保姆级部署指南:vLLM+compressed-tensors一键启动

Qwen3.5-35B-A3B-AWQ-4bit保姆级部署指南:vLLM+compressed-tensors一键启动

1. 模型介绍

Qwen3.5-35B-A3B-AWQ-4bit是一款面向视觉多模态理解的量化模型,特别适合需要图片分析和图文对话的应用场景。这个模型经过4bit量化处理后,在保持较高精度的同时大幅降低了显存需求。

1.1 核心能力

能力类型具体功能
图片理解识别图片中的物体、场景、文字等内容
图文问答针对图片内容进行多轮提问和回答
视觉描述自动生成图片的详细文字描述
中文支持全程中文输入输出,适合国内用户

1.2 技术特点

  • 高效量化:采用AWQ(Activation-aware Weight Quantization)4bit量化技术
  • 多模态支持:同时处理图像和文本输入
  • 双卡优化:针对24GB显存显卡进行特别优化
  • 稳定部署:基于vLLM和compressed-tensors的稳定推理方案

2. 环境准备

2.1 硬件要求

  • GPU:至少2张24GB显存的NVIDIA显卡(如RTX 3090×2)
  • 内存:建议64GB以上
  • 存储:至少50GB可用空间

2.2 软件依赖

# 基础环境检查 nvidia-smi # 确认显卡驱动正常 docker --version # 确认Docker已安装 nvidia-docker --version # 确认NVIDIA Docker已安装

3. 一键部署指南

3.1 获取镜像

docker pull csdn-mirror/qwen35-awq:latest

3.2 启动容器

docker run -itd --gpus all \ -p 7860:7860 \ -p 8000:8000 \ --name qwen35-awq \ csdn-mirror/qwen35-awq:latest

3.3 服务验证

# 检查后端服务状态 docker exec -it qwen35-awq supervisorctl status # 预期输出示例 qwen35awq-backend RUNNING qwen35awq-web RUNNING

4. 使用教程

4.1 访问Web界面

  1. 本地浏览器访问:http://服务器IP:7860
  2. 或通过SSH隧道访问:
ssh -L 7860:localhost:7860 用户名@服务器IP

4.2 基础使用流程

  1. 上传图片:点击上传按钮选择本地图片
  2. 输入问题:在对话框输入关于图片的问题
  3. 获取回答:点击"发送"按钮等待模型响应

4.3 使用示例

测试图片:上传一张包含猫和狗的图片

问题示例

  1. "图片中有哪些动物?"
  2. "猫是什么颜色的?"
  3. "它们在做什么?"

5. 高级配置

5.1 参数调整

参数文件路径关键参数建议值
/root/workspace/config.jsontensor_parallel_size2
/root/workspace/config.jsonmax_model_len4096
/root/workspace/config.jsonenforce_eagertrue

5.2 性能优化建议

  • 对于大图片(>5MB),建议先压缩再上传
  • 复杂问题可以拆分为多个简单问题逐步提问
  • 同一会话中保持图片不变可获得更好连续性

6. 运维管理

6.1 服务监控

# 查看实时日志 docker exec -it qwen35-awq tail -f /root/workspace/qwen35awq-backend.log # 资源监控 docker stats qwen35-awq

6.2 常见维护操作

# 重启服务 docker exec -it qwen35-awq supervisorctl restart all # 更新镜像 docker stop qwen35-awq docker rm qwen35-awq docker pull csdn-mirror/qwen35-awq:latest # 然后重新运行启动命令

7. 总结

本指南详细介绍了Qwen3.5-35B-A3B-AWQ-4bit模型的部署和使用方法。通过vLLM+compressed-tensors的技术方案,即使是量化后的多模态大模型也能稳定运行。这种部署方式特别适合需要图片理解和图文对话能力的应用场景。

实际使用中建议:

  1. 从简单图片和问题开始测试
  2. 逐步尝试更复杂的多轮对话
  3. 关注GPU显存使用情况
  4. 定期检查服务日志

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

http://www.jsqmd.com/news/510166/

相关文章:

  • 超越字符切割:为你的Qdrant知识库实现真正的‘段落级’智能检索(基于n8n工作流)
  • Flux Sea Studio 异常处理与日志分析:保障生成服务稳定运行
  • 2026长沙名酒回收行业应用白皮书:长沙翡翠回收/长沙翡翠抵押/长沙虫草回收/长沙钻石回收/长沙铂金回收/选择指南 - 优质品牌商家
  • Fish Speech-1.5语音合成扩展:接入RAG知识库生成动态播报内容
  • 2026年奶油味原味爆米花品牌推荐:原味爆米花高口碑品牌推荐 - 品牌宣传支持者
  • 深度解析mrpack-install:3大核心模块构建的Modrinth模组包自动化部署方案
  • VideoAgentTrek Screen Filter与SpringBoot集成:构建企业级视频审核微服务
  • Pixel Dimension Fissioner惊艳输出:同一产品卖点生成科技感/温暖感/幽默感文案
  • 河北聚邦水利:排污机/水利清污机/水电站清污机/河道清污机/液压抓斗清污机/移动式清污机/耙斗式清污机/选择指南 - 优质品牌商家
  • 2026年质量好的玻璃隔断厂家推荐:双玻百叶隔断制造厂家推荐 - 品牌宣传支持者
  • gemma-3-12b-it企业知识库接入:扫描PDF图表→结构化入库+检索增强
  • 2026不锈钢盖板生产厂家/不锈钢井盖生产厂家推荐/井盖生产厂家推荐-杭州月半湾,源头直供,品质筑牢安全防线 - 栗子测评
  • MedGemma多模态系统展示:支持‘请用住院医师水平’‘请用主任医师水平’分级输出
  • 立知-lychee-rerank-mm实战手册:自定义Instruction提升垂直领域效果
  • 极客专属OpenClaw玩法:QwQ-32B模型操控智能家居联动
  • 用n-gram模型生成菜谱:从‘青椒炒肉片‘到‘茄子炒豆角‘的实战教程
  • Qwen3-14B-INT4-AWQ入门教程:10分钟完成Linux环境下的模型调用
  • DAMO-YOLO部署教程:Python 3.10环境依赖安装与版本冲突解决
  • 铝合金户外地板生产厂家哪个好?2026铝合金地板品牌推荐:杭州月半湾,源头直供,户外耐用标杆 - 栗子测评
  • Qwen3-VL-4B Pro应用场景:物流包裹面单图像识别+异常类型自动归因
  • 形式化验证不是玄学,而是C代码可信交付的最后防线:一线航天嵌入式团队正在用的4阶验证工作流
  • Python实战:5分钟搞定CIFAR-10数据集下载与图片可视化(附完整代码)
  • 净化装修公司怎么选?精选2026净化车间装修公司推荐:无锡驰川建设一站式洁净解决方案 - 栗子测评
  • 2026工业设备翻新服务商推荐 旧机床翻新靠谱之选 - 优质品牌商家
  • 树脂排水沟哪家好?排水沟盖板选哪家?2026排水沟品牌推荐:杭州月半湾源头品牌品质护航 - 栗子测评
  • Linux ext4文件系统核心原理与性能优化
  • mxbai-embed-large-v1保姆级教程:5分钟搞定文本向量化与语义检索
  • Qwen3-Reranker-0.6B与Keil5的嵌入式开发集成
  • PowerPaint-V1 Gradio参数详解:CFG Scale与Denoising Strength调优
  • CLAP零样本音频分类实测:广播剧片段中‘laughter‘、‘applause‘、‘background music‘分离识别