当前位置：首页 > news >正文

通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI搭建指南：Ubuntu系统下的完整依赖安装与配置

news 2026/3/27 6:28:45

通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI搭建指南：Ubuntu系统下的完整依赖安装与配置

如果你手头有一台运行Ubuntu的机器，并且对那个小巧但聪明的通义千问1.8B模型感兴趣，想把它部署成一个带网页界面的聊天应用，那你来对地方了。今天咱们不聊虚的，就一步一步，从零开始，把这套环境给搭起来。我会把过程中可能遇到的坑，比如CUDA版本不对、系统库缺失这些烦心事，都给你提前标出来，争取让你一次成功。

1. 开始之前：明确目标与准备工作

咱们的目标很明确：在Ubuntu系统上，部署一个能通过浏览器访问的通义千问1.8B模型的聊天界面。这个模型是经过GPTQ量化到Int4精度的，意味着它对显存的要求大大降低，一张消费级的显卡（比如RTX 3060 12GB）就能跑得很流畅。

在动手之前，请先确认以下几件事：

操作系统：本文基于Ubuntu 20.04或22.04 LTS版本。其他版本可能大同小异，但部分命令或库名可能需要调整。
硬件：需要一张NVIDIA显卡，并确保已安装好物理驱动。你可以通过在终端输入nvidia-smi来检查驱动是否正常。如果能看到显卡信息，那就没问题。
网络：整个过程需要从网上下载Python包、模型文件等，请保持网络通畅。
用户权限：建议在普通用户下操作，但部分系统级安装（如CUDA）可能需要sudo权限。

好了，如果这些都准备好了，咱们就挽起袖子开始干。

2. 搭建基石：系统环境与GPU驱动

这是最基础，也最容易出问题的一步。很多朋友部署失败，根子往往就在这里。

2.1 更新系统与安装基础工具

首先，打开你的终端，咱们先把系统更新到最新，并安装一些后续必备的工具。

sudo apt update sudo apt upgrade -y sudo apt install -y wget git curl build-essential libssl-dev libffi-dev python3-pip python3-venv

这里安装的build-essential是编译工具链，libssl-dev和libffi-dev是很多Python加密相关库的依赖，非常重要。

2.2 搞定NVIDIA驱动与CUDA Toolkit

这是为GPU加速铺路。如果你已经用nvidia-smi确认驱动装好了，可以跳过驱动安装，但CUDA Toolkit很可能需要单独安装。

确认驱动版本与CUDA版本需求：再次运行nvidia-smi，查看右上角显示的CUDA Version。例如显示“CUDA Version: 12.2”，这表示你的驱动最高支持CUDA 12.2。但你需要安装的是CUDA Toolkit，其版本最好不超过这个支持版本。
安装CUDA Toolkit：以CUDA 12.1为例（这是一个比较稳定且兼容性好的版本）。前往NVIDIA官网下载对应版本的runfile安装包更可控。但更简单的方法是使用APT仓库：

# 添加NVIDIA CUDA仓库 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" sudo apt update # 安装CUDA Toolkit（这里以12.1为例） sudo apt install -y cuda-toolkit-12-1

配置环境变量：安装完成后，需要将CUDA路径加入环境变量，让系统知道去哪找。

echo 'export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc source ~/.bashrc

你可以通过 `nvcc --version` 来验证CUDA编译器是否安装成功。

2.3 安装cuDNN

cuDNN是深度学习的加速库。你需要注册一个NVIDIA开发者账号（免费），然后从官网下载对应CUDA版本的cuDNN压缩包。假设你下载了cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz。

# 解压并拷贝文件到CUDA目录 tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-12.1/include sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda-12.1/lib64 sudo chmod a+r /usr/local/cuda-12.1/include/cudnn*.h /usr/local/cuda-12.1/lib64/libcudnn*

至此，最复杂的系统级环境就配好了。喝口水，咱们进入更“Python”的世界。

3. 创建专属的Python虚拟环境

强烈建议使用虚拟环境，它能将项目依赖与系统Python完全隔离，避免版本冲突。

# 创建一个名为‘qwen-chat’的虚拟环境 python3 -m venv qwen-chat-env # 激活虚拟环境 source qwen-chat-env/bin/activate

激活后，你的命令行提示符前面通常会显示(qwen-chat-env)，表示你已经在这个环境里了。后续所有pip install操作都在这个环境下进行。

4. 部署WebUI核心：Ollama与Open WebUI

目前，部署这类量化模型聊天界面，一个非常流行且简单的方案是使用Ollama来管理和运行模型，再用Open WebUI（原Ollama WebUI）来提供美观的网页界面。

4.1 安装Ollama

Ollama的安装极其简单，一行命令搞定。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，启动Ollama服务：

ollama serve &

服务会在后台运行。你可以用ollama list查看已拉取的模型，现在当然是空的。

4.2 拉取通义千问GPTQ-Int4模型

Ollama本身并不直接提供通义千问的GPTQ版本。但社区有强大的贡献者制作了对应的Model File。我们需要自己创建一个模型文件，然后让Ollama加载。

创建一个Model File：新建一个文件，比如叫Modelfile.qwen，内容如下。这里我们指定一个社区维护的GGUF格式的模型（GGUF是另一种高效的量化格式，与GPTQ类似，Ollama支持良好）。

FROM /path/to/your/Qwen1.5-1.8B-Chat-GGUF.q4_0.bin # 注意：你需要先将下载好的GGUF模型文件放在本地某个路径，并修改上面的路径。 # 你可以从Hugging Face等平台搜索并下载 "Qwen1.5-1.8B-Chat-GGUF" 模型。 TEMPLATE """<|im_start|>system {{ .System }}<|im_end|> <|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant """ PARAMETER temperature 0.7 PARAMETER top_p 0.9

创建并运行模型：假设你已经把下载好的Qwen1.5-1.8B-Chat-Q4_0.gguf模型文件放在了~/models/目录下。

# 创建模型，命名为 qwen-1.8b ollama create qwen-1.8b -f ./Modelfile.qwen # 运行模型试试看 ollama run qwen-1.8b “你好”

如果看到模型正常回复，恭喜你，模型部分成功了！

4.3 安装与配置Open WebUI

Open WebUI提供了比命令行友好得多的聊天界面。

使用Docker安装（推荐）：这是最简单的方式，避免了复杂的Python依赖问题。

# 确保你已安装Docker和Docker Compose sudo apt install -y docker.io docker-compose # 拉取并运行Open WebUI docker run -d -p 3000:8080 \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main

这条命令会在后台启动一个容器，将本地的3000端口映射到容器的8080端口（WebUI服务端口）。数据会持久化在名为 `open-webui` 的Docker卷中。

访问与配置：打开浏览器，访问http://你的服务器IP:3000。
- 首次访问需要注册一个管理员账户。
- 登录后，在设置（Settings）里，找到“连接Ollama”的地方。通常Ollama的API地址是http://host.docker.internal:11434。但由于我们的Ollama运行在宿主机（而非容器内），对于Linux，你可能需要填写宿主机的实际IP地址，如http://192.168.1.100:11434，并确保宿主机的11434端口对容器可访问（可能需要调整防火墙或Docker网络设置）。更简单的方法是，在启动Open WebUI容器时使用--network=host模式（但这有安全考量，仅建议在受信环境使用）。

替代方案：如果你不想用Docker，也可以直接在之前创建的Python虚拟环境中安装Open WebUI，但步骤更繁琐，需要解决更多依赖。

5. 常见问题与故障排除

这条路不可能一帆风顺，这里列出几个我踩过的坑。

ERROR: Could not build wheels for ...：这通常是编译某些Python包（比如tokenizers,transformers）时缺少系统库。确保你已经安装了build-essential和libssl-dev。如果还报错，根据错误信息安装对应的-dev包，例如libxml2-dev,libxslt1-dev。
Ollama连接失败： Open WebUI无法连接到Ollama。首先确保ollama serve正在运行。然后，在Open WebUI设置中尝试不同的Ollama基础URL：
1. http://localhost:11434(如果Open WebUI也安装在宿主机)
2. http://host.docker.internal:11434(Docker容器内访问宿主机，Mac/Windows)
3. http://宿主机真实IP:11434(Linux Docker容器访问宿主机常用)
CUDA out of memory：即使模型只有1.8B且量化了，如果同时运行多个任务，或者显卡显存较小，也可能溢出。尝试关闭其他占用GPU的程序，或者确保一次只运行一个模型推理任务。
模型加载慢或第一次运行慢：首次加载模型需要时间将模型文件加载到显存并初始化。耐心等待即可。后续对话会快很多。