当前位置：首页 > news >正文

Qwen3.5-9B-GGUF快速部署：5分钟完成start.sh执行+WebUI响应验证

news 2026/4/23 7:19:26

Qwen3.5-9B-GGUF快速部署：5分钟完成start.sh执行+WebUI响应验证

1. 项目概述

Qwen3.5-9B-GGUF是基于阿里云通义千问3.5开源模型（2026年3月发布）的量化版本，采用GGUF格式进行优化。这个90亿参数的稠密模型采用了创新的Gated Delta Networks架构和混合注意力机制（75%线性+25%标准），支持原生256K tokens（约18万字）的上下文长度，并采用Apache 2.0开源协议，允许商用、微调和分发。

本项目使用llama-cpp-python和Gradio构建了一个轻量级的推理服务，让开发者能够快速部署和使用这个强大的语言模型。

核心参数速览：

项目	值
模型路径	`/root/ai-models/unsloth/Qwen3___5-9B-GGUF`
模型文件	`Qwen3.5-9B-IQ4_NL.gguf`(5.3GB)
WebUI端口	7860
进程管理	Supervisor

2. 快速部署指南

2.1 环境准备

确保你的系统满足以下基本要求：

Linux操作系统（推荐Ubuntu 20.04+）
至少16GB内存
10GB以上可用磁盘空间
Python 3.11环境

2.2 一键启动服务

项目提供了简单的启动脚本，只需执行以下命令：

cd /root/Qwen3.5-9B-GGUFit ./start.sh

这个脚本会自动完成以下操作：

激活conda环境（torch28）
启动Gradio WebUI服务
加载Qwen3.5-9B-GGUF模型
在7860端口启动服务

2.3 验证服务运行

启动后，可以通过以下方式验证服务是否正常运行：

# 检查服务状态 supervisorctl status qwen3-9b-gguf # 查看日志 tail -f /root/Qwen3.5-9B-GGUFit/service.log

当看到日志中出现"Running on local URL: http://0.0.0.0:7860"时，表示服务已成功启动。

3. WebUI使用指南

3.1 访问Web界面

服务启动后，可以通过以下方式访问Web界面：

本地访问：http://localhost:7860
服务器访问：http://[服务器IP]:7860

注意：默认配置为仅本地访问，如需公网访问需要额外配置网络规则。

3.2 界面功能说明

WebUI界面主要包含以下区域：

输入框：输入你的问题或指令
参数调节：可调整生成参数（温度、最大长度等）
历史记录：显示对话历史
清除按钮：重置对话

3.3 快速测试

输入以下测试指令验证模型是否正常工作：

请用中文介绍一下你自己

正常响应应包含模型的基本信息和能力说明。

4. 服务管理

4.1 常用管理命令

项目使用Supervisor进行进程管理，常用命令如下：

# 启动服务 supervisorctl start qwen3-9b-gguf # 停止服务 supervisorctl stop qwen3-9b-gguf # 重启服务 supervisorctl restart qwen3-9b-gguf # 查看状态 supervisorctl status

4.2 手动控制方式

如果需要手动调试，可以直接运行：

# 进入conda环境 source /opt/miniconda3/bin/activate torch28 # 启动服务 cd /root/Qwen3.5-9B-GGUFit python app.py

5. 故障排查

5.1 常见问题解决

服务启动失败

# 检查错误日志 tail -50 /root/Qwen3.5-9B-GGUFit/service.log # 验证模型文件 ls -la /root/ai-models/unsloth/Qwen3___5-9B-GGUF/Qwen3.5-9B-IQ4_NL.gguf

端口冲突

# 检查端口占用 ss -tlnp | grep 7860 # 解决冲突 kill -9 <占用进程PID> # 或修改app.py中的端口号

5.2 环境验证

确保关键依赖安装正确：

source /opt/miniconda3/bin/activate torch28 python -c "import llama_cpp; print(llama_cpp.__version__)"

6. 项目结构与配置

6.1 目录结构

/root/Qwen3.5-9B-GGUFit/ ├── app.py # Gradio WebUI + llama-cpp-python 推理 ├── start.sh # 启动脚本 ├── stop.sh # 停止脚本 ├── supervisor.conf # Supervisor 配置备份 └── service.log # 运行日志