当前位置：首页 > news >正文

Qwen3.5-9B-GGUF环境部署：Python 3.11+torch28+llama-cpp-python兼容性配置

news 2026/4/25 18:26:28

Qwen3.5-9B-GGUF环境部署：Python 3.11+torch28+llama-cpp-python兼容性配置

1. 项目介绍

Qwen3.5-9B-GGUF是基于阿里云开源的Qwen3.5-9B模型，经过GGUF格式量化后的轻量级版本。这个90亿参数的稠密模型采用了创新的Gated Delta Networks架构和混合注意力机制（75%线性+25%标准），支持长达256K tokens的上下文窗口（约18万字），在Apache 2.0协议下可自由商用、微调和分发。

本项目提供了完整的部署方案，使用llama-cpp-python进行GGUF格式模型的推理，并通过Gradio构建了友好的Web界面。整个系统通过Supervisor进行进程管理，确保服务稳定运行。

2. 环境准备

2.1 基础环境要求

在开始部署前，请确保系统满足以下要求：

Python版本：3.11
Conda环境：已安装Miniconda3
硬件要求：
- 内存：至少16GB
- 显存：不需要GPU（纯CPU推理）
- 磁盘空间：至少10GB可用空间

2.2 模型文件准备

模型文件Qwen3.5-9B-IQ4_NL.gguf（5.3GB）应放置在指定路径：

mkdir -p /root/ai-models/unsloth/Qwen3___5-9B-GGUF # 将模型文件放入上述目录

3. 环境配置

3.1 创建Conda环境

conda create -n torch28 python=3.11 -y conda activate torch28

3.2 安装核心依赖

pip install torch==2.8.0 pip install llama-cpp-python pip install gradio pip install transformers

3.3 验证安装

python -c "import llama_cpp; print(llama_cpp.__version__)" # 应输出llama-cpp-python的版本号

4. 项目部署

4.1 项目结构

项目目录结构如下：

/root/Qwen3.5-9B-GGUFit/ ├── app.py # Gradio WebUI + llama-cpp-python 推理 ├── start.sh # 启动脚本 ├── stop.sh # 停止脚本 ├── supervisor.conf # Supervisor 配置备份 └── service.log # 运行日志

4.2 通过Supervisor管理服务

Supervisor配置文件位于/etc/supervisor/conf.d/qwen3-9b-gguf.conf，内容应包含：

[program:qwen3-9b-gguf] command=/root/Qwen3.5-9B-GGUFit/start.sh directory=/root/Qwen3.5-9B-GGUFit user=root autostart=true autorestart=true stderr_logfile=/root/Qwen3.5-9B-GGUFit/service.log stdout_logfile=/root/Qwen3.5-9B-GGUFit/service.log

4.3 常用管理命令

# 启动服务 supervisorctl start qwen3-9b-gguf # 停止服务 supervisorctl stop qwen3-9b-gguf # 重启服务 supervisorctl restart qwen3-9b-gguf # 查看状态 supervisorctl status # 查看日志 tail -f /root/Qwen3.5-9B-GGUFit/service.log

5. 服务访问

部署完成后，可以通过以下方式访问：

本地访问：http://localhost:7860
注意：默认配置仅限本地访问，无公网暴露

首次启动时，模型加载可能需要2-3分钟，请耐心等待。

6. 常见问题排查

6.1 服务启动失败

# 检查服务状态 supervisorctl status # 查看详细错误日志 tail -50 /root/Qwen3.5-9B-GGUFit/service.log # 手动测试运行 cd /root/Qwen3.5-9B-GGUFit source /opt/miniconda3/bin/activate torch28 python app.py

6.2 端口冲突

# 检查7860端口占用情况 ss -tlnp | grep 7860 # 终止占用进程 kill -9 <PID>

6.3 模型加载问题

# 验证模型文件存在 ls -la /root/ai-models/unsloth/Qwen3___5-9B-GGUF/Qwen3.5-9B-IQ4_NL.gguf # 检查llama-cpp-python安装 python -c "import llama_cpp; print(llama_cpp.__version__)"