当前位置：首页 > news >正文

Qwen3.5-4B-AWQ部署案例：消费级显卡跑MMLU-Pro接近30B模型效果

news 2026/6/24 16:59:50

Qwen3.5-4B-AWQ部署案例：消费级显卡跑MMLU-Pro接近30B模型效果

1. 模型概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型，经过4bit AWQ量化后，显存占用仅约3GB，可以在RTX 3060/4060等消费级显卡上流畅运行。这款模型在保持轻量化的同时，实现了令人惊艳的性能表现：

性能均衡：MMLU-Pro得分接近Qwen3-30B-A3B，OmniDocBench击败GPT-5-Nano
全能力覆盖：支持201种语言、原生多模态（图文）、长上下文、工具调用
部署友好：适配llama.cpp等多种推理框架，适合轻量Agent、知识库、客服等场景

2. 环境准备与快速部署

2.1 基础环境要求

显卡：NVIDIA RTX 3060/4060或更高（显存≥4GB）
系统：Linux（推荐Ubuntu 20.04+）
驱动：CUDA 11.8+，cuDNN 8.6+
Python：3.8+

2.2 一键部署步骤

# 克隆模型仓库 git clone https://github.com/Qwen/Qwen3.5-4B-AWQ-4bit.git cd Qwen3.5-4B-AWQ-4bit # 创建conda环境 conda create -n qwen python=3.8 -y conda activate qwen # 安装依赖 pip install -r requirements.txt # 下载模型权重（约3GB） wget https://models.qwen.com/Qwen3.5-4B-AWQ-4bit/model.safetensors

3. 服务管理与使用

3.1 服务状态管理

# 查看服务状态 supervisorctl status # 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq

3.2 日志查看

# 实时查看运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 查看错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

3.3 WebUI访问

服务启动后，通过浏览器访问：

http://localhost:7860

4. 性能优化与问题排查

4.1 显存管理技巧

如果遇到显存不足问题，可以尝试以下方法：

# 查看GPU显存占用 nvidia-smi # 查找并终止残留进程 ps aux | grep VLLM kill -9 <PID>

4.2 手动调试模式

cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py

5. 实际应用案例

5.1 多语言文本生成

from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path) input_text = "用中文、英文和法文分别说'你好'" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0]))

5.2 图文多模态交互

from PIL import Image from transformers import pipeline pipe = pipeline("image-to-text", model=model_path) image = Image.open("example.jpg") result = pipe(image, question="这张图片里有什么？") print(result)