当前位置：首页 > news >正文

Clawdbot+Qwen3:32B离线部署实战：内网环境也能用上大模型

news 2026/3/26 19:06:57

Clawdbot+Qwen3:32B离线部署实战：内网环境也能用上大模型

你是不是也遇到过这样的困境：公司内网出于安全考虑，完全切断了外网连接，但团队又急需一个本地化的大模型来辅助开发、文档编写或数据分析？或者，你的测试环境部署在私有云上，无法访问任何外部API服务，想用大模型却无从下手？

今天，我们就来解决这个痛点。我将带你一步步在完全离线的内网环境中，部署一个功能完整的AI对话平台。这个方案的核心是Clawdbot和Qwen3:32B大模型。Clawdbot是一个轻量、好用的AI代理网关与管理平台，它提供一个漂亮的Web界面；而Qwen3:32B则是一个拥有320亿参数、能力强大的开源大模型，我们通过Ollama框架让它在本机跑起来。

整个过程不需要连接互联网，所有资源都从本地加载。无论你用的是带GPU的服务器还是纯CPU的虚拟机，都能跑通。最终，你会得到一个类似ChatGPT的聊天界面，但它背后连接的是你本地私有部署的、完全受你控制的Qwen3大模型。

1. 部署前准备：理解架构与准备资源

在开始动手之前，我们先花几分钟搞清楚整个方案是怎么工作的，以及你需要准备哪些东西。这能帮你避免很多后续的坑。

1.1 整体架构：一张图看懂数据流向

整个系统的核心非常简单，就是一个“前端界面 + 后端模型”的组合。

你的浏览器 (访问) -> Clawdbot Web服务 (:8080端口) -> (转发请求) -> Ollama API服务 (:11434端口) -> (加载推理) -> Qwen3:32B 模型文件

Clawdbot：它扮演“前台”和“接线员”的角色。你通过浏览器访问它的界面（通常是http://你的服务器IP:8080），所有聊天请求都发给它。它不负责“思考”（模型推理），只负责把问题转交给真正的“大脑”，并把“大脑”的回复呈现给你。
Ollama：它是一个专门用来在本地运行大模型的工具，非常轻量，一个二进制文件就能启动。它启动后会提供一个标准的API接口（默认在11434端口），Clawdbot就是通过这个接口和模型对话。
Qwen3:32B模型：这就是真正的“大脑”。我们使用的是它的4-bit量化版本（文件格式为.gguf），这个版本在保持较高精度的同时，大幅降低了显存和内存占用，让它在消费级显卡（如24G显存的RTX 4090）上也能流畅运行。

为什么选择这个组合？

完全离线：所有组件（Clawdbot、Ollama、模型文件）都可以提前下载好，通过U盘或内部网络拷贝到目标服务器。
部署简单：Ollama无需复杂的环境配置；Clawdbot配置直观，改个配置文件就行。
资源可控：模型完全运行在你的硬件上，数据不出内网，安全可控。
体验统一：最终用户面对的是一个友好的Web聊天界面，和使用在线AI产品体验类似。

1.2 硬件与软件资源清单

请根据你的实际情况核对下表，确保环境满足要求。

资源类型	最低要求	推荐配置	说明
操作系统	Ubuntu 20.04 LTS / CentOS 8+ (x86_64)	Ubuntu 22.04 LTS	仅支持Linux系统。Windows或macOS需通过虚拟机或WSL2运行Linux环境。
CPU	8核	16核及以上	CPU核心数主要影响纯CPU推理模式下的速度。
内存	32 GB	64 GB及以上	加载32B模型本身需要较大内存，还需为系统和应用预留空间。
显卡 (GPU)	无 (CPU模式)	NVIDIA RTX 4090 (24G) / A100 (40G/80G)	强烈推荐使用GPU，推理速度会有数量级提升。需要已安装NVIDIA驱动和CUDA（≥11.8）。
存储空间	50 GB 空闲	100 GB 空闲	需要存放模型文件（约18G）、Ollama、Clawdbot以及运行时的缓存和日志。

你需要提前准备好的离线文件包（假设已下载并存放在/opt/offline_pkg目录）：

Ollama 运行时：ollama-linux-amd64(最新稳定版，例如 v0.3.10)
Qwen3:32B 模型文件：qwen3:32b-q4_K_M.gguf(约18.2GB，4-bit量化版)
模型配置文件：Modelfile.qwen3(用于告诉Ollama如何加载这个模型)
Clawdbot 可执行文件：clawdbot(根据你的系统架构选择linux-amd64版本)
Clawdbot 配置文件模板：config.yaml.example

2. 第一步：离线安装并启动Ollama服务

Ollama的安装过程极其简单，因为它就是一个独立的二进制文件。

2.1 安装Ollama到系统

打开终端，切换到有sudo权限的用户，执行以下命令：

# 1. 将Ollama二进制文件拷贝到系统可执行路径 sudo cp /opt/offline_pkg/ollama-linux-amd64 /usr/local/bin/ollama sudo chmod +x /usr/local/bin/ollama # 2. 将Ollama安装为系统服务（这会创建systemd服务单元） sudo ollama serve & # 等待几秒，服务会自动安装并启动。你可以用下面的命令检查服务状态。 sudo systemctl status ollama

如果看到active (running)的状态，说明Ollama服务已经成功启动并在后台运行了。它默认监听本机的127.0.0.1:11434端口，不会对外网暴露，很安全。

2.2 离线导入Qwen3:32B大模型

这是最关键的一步，我们需要把准备好的模型文件“喂”给Ollama。

Ollama管理模型有自己的规则，它需要模型文件以特定的方式存放在~/.ollama/models/blobs/目录下。我们通过一个Modelfile来定义模型。

# 1. 创建Ollama的模型存储目录（如果不存在） mkdir -p ~/.ollama/models/blobs # 2. 计算模型文件的SHA256哈希值，这个值将作为文件名 cd /opt/offline_pkg BLOB_ID=$(sha256sum qwen3:32b-q4_K_M.gguf | awk '{print $1}') echo “模型文件的Blob ID是：$BLOB_ID” # 3. 将模型文件复制到Ollama的blobs目录，并重命名为sha256-{BLOB_ID} cp qwen3:32b-q4_K_M.gguf ~/.ollama/models/blobs/sha256-$BLOB_ID # 4. 创建并编辑Modelfile cat > ~/Modelfile.qwen3 << 'EOF' FROM ./qwen3:32b-q4_K_M.gguf # 设置上下文长度，即模型能“记住”多长的对话历史 PARAMETER num_ctx 32768 # 设置停止词，告诉模型对话在哪里结束 PARAMETER stop "<|endoftext|>" PARAMETER stop "<|im_end|>" # 定义对话模板，让模型知道如何理解系统指令、用户问题和它的回复 TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> {{ else }}<|im_start|>assistant {{ .Response }}<|im_end|> {{ end }}""" # 给模型一个系统级的角色设定 SYSTEM “你是一个部署在内网环境中的专业AI助手，回答需要准确、简洁、有用。” EOF # 5. 使用Modelfile创建模型，并命名为“qwen3:32b” ollama create qwen3:32b -f ~/Modelfile.qwen3

执行ollama create命令后，Ollama会读取Modelfile，建立模型索引。这个过程很快，因为模型文件已经就位。

2.3 验证模型是否加载成功

创建完成后，让我们检查一下，并运行一个简单的测试。

# 列出所有已安装的模型 ollama list # 你应该能看到类似下面的输出： # NAME ID SIZE MODIFIED # qwen3:32b 1a2b3c4d... 18 GB Just now # 运行模型进行简单对话测试（这会将模型加载到GPU显存中，首次加载较慢） ollama run qwen3:32b “请用中文简单介绍一下你自己。”

如果模型加载成功，你会看到Qwen3模型开始生成回复，例如：“我是通义千问Qwen3，一个由阿里云开发的大语言模型...”。按Ctrl+C可以退出交互模式，但模型服务仍在后台。

至此，你的本地大模型“大脑”已经准备就绪，正在11434端口等待指令。

3. 第二步：配置并启动Clawdbot网关

现在，“大脑”（Ollama+Qwen3）已经启动了，我们需要搭建一个“前台”（Clawdbot）来接待用户。

3.1 部署Clawdbot

Clawdbot是一个Go语言编写的单文件应用，部署非常简单。

# 1. 将Clawdbot可执行文件放到合适的位置，例如 /usr/local/bin sudo cp /opt/offline_pkg/clawdbot /usr/local/bin/ sudo chmod +x /usr/local/bin/clawdbot # 2. 创建Clawdbot的工作目录和配置文件 sudo mkdir -p /etc/clawdbot sudo cp /opt/offline_pkg/config.yaml.example /etc/clawdbot/config.yaml

3.2 关键配置：让Clawdbot找到Ollama

编辑Clawdbot的配置文件，告诉它后端模型服务在哪里。

sudo nano /etc/clawdbot/config.yaml

找到配置文件中关于后端模型服务的部分（可能叫backend、model或upstream），将其修改为指向本地运行的Ollama。配置文件通常是YAML格式，修改后看起来像这样：

# /etc/clawdbot/config.yaml 关键部分示例 server: port: 8080 # Clawdbot Web服务监听的端口 ai_backend: type: “openai-compatible” # 使用OpenAI兼容的API base_url: “http://127.0.0.1:11434/v1” # 指向本地Ollama服务的API地址 api_key: “ollama” # Ollama默认的API密钥，可以是任意非空字符串 model: “qwen3:32b” # 指定要使用的模型名称

重点解释：

base_url: http://127.0.0.1:11434/v1：这是Ollama提供的兼容OpenAI的API端点。Clawdbot会把聊天请求发送到这里。
api_key: “ollama”：Ollama服务默认不强制验证API Key，但有些客户端要求非空，这里填ollama即可。
model: “qwen3:32b”：必须和你在Ollama中创建模型时使用的名字完全一致。

3.3 启动Clawdbot并设置开机自启

# 1. 直接启动Clawdbot（前台运行，方便看日志） sudo clawdbot --config /etc/clawdbot/config.yaml # 2. 如果上一步运行正常（看到服务启动日志，无报错），可以按Ctrl+C停止。 # 然后创建systemd服务文件，让它后台运行并开机自启。 sudo nano /etc/systemd/system/clawdbot.service

将以下内容写入clawdbot.service文件：

[Unit] Description=Clawdbot AI Gateway After=network.target ollama.service # 确保在Ollama之后启动 Wants=ollama.service [Service] Type=simple User=root ExecStart=/usr/local/bin/clawdbot --config /etc/clawdbot/config.yaml Restart=on-failure RestartSec=5 [Install] WantedBy=multi-user.target

保存后，启用并启动服务：

sudo systemctl daemon-reload sudo systemctl enable clawdbot.service sudo systemctl start clawdbot.service sudo systemctl status clawdbot.service # 检查状态是否为active (running)

4. 第三步：访问验证与令牌配置

服务都跑起来了，现在打开浏览器看看成果。

4.1 首次访问与令牌错误

在浏览器中输入http://<你的服务器IP地址>:8080。

你可能会遇到第一个界面，或者直接看到一个错误提示，类似：disconnected (1008): unauthorized: gateway token missing

这是因为Clawdbot默认启用了简单的令牌认证，防止未经授权的访问。你需要使用一个带有令牌（token）的URL来访问。

解决方法很简单：

观察浏览器地址栏，初始URL可能类似：http://192.168.1.100:8080/chat
你需要将其修改为：http://192.168.1.100:8080/?token=csdn

关键点：在端口号:8080后面加上/?token=csdn。这里的csdn就是默认的令牌。修改后刷新页面。

4.2 登录成功与功能验证

使用正确的带token的URL登录后，你应该能看到Clawdbot的Web聊天界面。

检查连接状态：通常在界面角落或设置里，会显示当前连接的模型。确认它显示的是qwen3:32b或类似信息，并且状态为“已连接”。
进行对话测试：在输入框里尝试问几个问题。
- 简单测试：“你好，你是谁？”
- 代码能力测试：“用Python写一个快速排序函数。”
- 逻辑推理测试：“如果昨天是明天的话就好了，这样今天就是周五了。请问实际的今天是星期几？”
观察响应：注意回复的速度和质量。首次提问可能会慢一些（模型预热），后续问题会快很多。如果一切正常，Qwen3:32B会给出流畅、准确的中文回答。

恭喜！至此，一个完全离线、内网可用的AI对话平台已经部署成功。

5. 常见问题排查与优化技巧

部署过程很少一帆风顺，这里汇总了一些常见问题及其解决方法。

5.1 模型加载失败或报错

问题：执行ollama run qwen3:32b时报错failed to load model或out of memory。
排查：
1. 检查模型文件：确认qwen3:32b-q4_K_M.gguf文件完整，没有损坏。可以对比一下文件大小是否约为18.2GB。
2. 检查显存/内存：运行nvidia-smi（GPU）或free -h（内存）查看资源是否充足。Qwen3:32B Q4版本需要约20GB显存。如果显存不足，可以尝试纯CPU模式运行（速度会慢很多）：
```
OLLAMA_NUM_GPU=0 ollama run qwen3:32b
```
3. 检查Ollama版本：确保使用较新版本的Ollama（如v0.3.10+），旧版本可能不支持Qwen3的某些特性。

5.2 Clawdbot无法连接Ollama

问题：Clawdbot界面提示“后端不可用”或“连接失败”。
排查：
1. 检查Ollama服务：systemctl status ollama确保它是运行状态。
2. 检查端口：运行ss -tuln | grep 11434，看127.0.0.1:11434是否处于LISTEN状态。
3. 检查配置：确认config.yaml中的base_url确实是http://127.0.0.1:11434/v1，注意是http不是https，且端口和路径正确。
4. 手动测试API：在服务器上执行curl http://127.0.0.1:11434/api/tags，如果Ollama正常，会返回一个JSON（可能为空列表{}）。

5.3 中文回复异常或截断

问题：模型回复中出现乱码，或者话说到一半突然停止。
解决：
1. 编码问题：在Modelfile.qwen3中尝试添加PARAMETER encoding utf-8。
2. 输出长度限制：可能是默认的生成令牌数（num_predict）太小。在Modelfile中增加PARAMETER num_predict 4096（这个值不能超过num_ctx）。
3. 重建模型：修改Modelfile后，需要删除旧模型并重建：
```
ollama rm qwen3:32b ollama create qwen3:32b -f ~/Modelfile.qwen3
```

5.4 性能优化建议

GPU加速：如果服务器有GPU但Ollama没用上，可以尝试设置环境变量CUDA_VISIBLE_DEVICES=0（指定第一块GPU）来启动Ollama服务。
系统服务优化：为Ollama和Clawdbot的systemd服务文件（.service）增加资源限制和自动重启，让服务更稳定。
```
# 在 [Service] 部分添加 LimitNOFILE=65535 Restart=always RestartSec=3
```
网络访问控制：生产环境中，建议通过Nginx等反向代理来暴露Clawdbot的8080端口，并配置防火墙规则，只允许特定的内网IP段访问，进一步提升安全性。