当前位置：首页 > news >正文

离线大模型聊天机器人：Ollama+Docker+Open WebUI企业级部署实战

news 2026/6/9 13:01:35

1. 项目概述：为什么“离线大模型聊天机器人”不是噱头，而是刚需

我第一次在客户现场被要求部署一个“完全不连外网的AI助手”时，对方安全主管盯着我的眼睛说：“不是测试环境，是生产环境。所有数据必须留在内网，连DNS查询都不允许。”当时我手里的云服务方案直接作废。后来三个月里，我跑了七家不同行业的客户，从制造业的PLM系统集成，到金融行业的合规文档辅助生成，再到医疗影像报告初稿整理——几乎每一家都卡在同一个点上：AI能力想要落地，就必须过“空气隔离”这一关。所谓“air-gapped”，不是简单断开网线，而是指整个运行环境与任何外部网络（包括互联网、办公网、甚至管理网）物理或逻辑隔离，形成一道不可逾越的数据护城河。这背后不是技术洁癖，而是真实的风险控制逻辑：模型权重文件一旦泄露，等于把整套AI能力白送对手；用户输入的原始业务数据若经由公网API回传，轻则违反GDPR/等保要求，重则触发法律追责。所以，我们今天要做的，不是教你怎么“假装离线”，而是用容器化方式，构建一个真正能通过安全审计、可复现、可交付、可维护的本地大模型聊天系统。核心关键词就三个：Ollama、Docker、Open WebUI——它们不是随便拼凑的组合，而是经过上百次内网部署验证后，留下的最精简、最稳定、最易交接的技术栈。Ollama负责模型加载与推理层的极简封装，Docker提供环境一致性与资源隔离，Open WebUI则补足了企业级交互所需的会话管理、角色设定、历史归档等关键能力。这套方案不依赖GPU集群，一台16GB内存+8核CPU的普通服务器就能跑起来；不依赖公有云账户，所有组件二进制文件均可离线分发；更重要的是，它不碰任何需要联网认证的环节——模型文件、前端界面、后端服务，全部打包进镜像，一次构建，随处运行。如果你正面临“AI想用但不敢用”的困境，或者正在为内部知识库搭建一个安全可控的问答入口，那么接下来的内容，就是你真正能抄作业的完整施工图。

2. 整体架构设计与技术选型逻辑

2.1 为什么放弃Hugging Face Transformers + FastAPI这类“标准答案”

很多人第一反应是：用Transformers加载模型，写个FastAPI接口，再套个Gradio前端——听起来很“正统”。但我实测过12种组合，在真实离线环境中，这种方案失败率高达78%。根本原因在于“依赖爆炸”。以Llama-3-8B-Instruct为例，仅PyTorch+transformers+cudnn+flash-attn这几个核心依赖，就需要精确匹配CUDA版本、cuDNN小版本、PyTorch编译参数，稍有不慎就报Illegal instruction (core dumped)。更麻烦的是，这些库的wheel包往往没有预编译的离线安装包，你得在目标机器上从源码编译，而离线环境里连gcc的依赖链都凑不齐。我曾经在一个客户现场，为编译一个bitsandbytes模块，前后折腾了两天，最后发现是系统glibc版本太低，而升级glibc又会破坏现有ERP系统——这种连锁风险，一线工程师根本扛不住。Ollama之所以成为首选，是因为它把所有这些底层复杂性全吃掉了。它不是一个Python库，而是一个用Go写的独立守护进程，自带模型下载器、量化引擎、推理调度器。你执行ollama run llama3，它自动完成：检查本地是否有对应模型→若无则从内置镜像仓库拉取（注意：这个仓库是Ollama自己维护的，不是Hugging Face）→自动选择最优量化格式（Q4_K_M）→启动推理服务并监听本地端口。整个过程不依赖Python环境，不依赖CUDA驱动（CPU模式下），甚至不依赖root权限。我在某银行数据中心部署时，连sudo权限都没有，只给了普通用户home目录的读写权，照样跑起来了。这才是离线场景下最珍贵的“确定性”。

2.2 Docker不是为了“时髦”，而是解决“环境漂移”的唯一手段

有人问：既然Ollama本身就能跑，为啥还要套一层Docker？答案很现实：交付一致性。我曾接手一个项目，开发同事在Mac上用Ollama 0.1.32跑通了所有功能，交付给客户时，运维同事在CentOS 7上装了Ollama 0.1.29，结果模型加载失败，查日志发现是新版本默认启用了numactl绑定，而老内核不支持。这种“在我机器上好好的”问题，在离线环境中会被放大十倍——你没法让客户临时升级内核，也没法让开发重装旧版。Docker的价值，就在于把“Ollama二进制+模型文件+配置+Open WebUI前端”全部打包成一个不可变镜像。镜像构建时指定基础镜像（如ubuntu:22.04），所有依赖通过apt-get install明确定义，模型文件用COPY指令固化，启动命令用CMD锁定。最终交付的不是一堆脚本和文档，而是一个.tar包，客户只需docker load -i airbot.tar && docker run -p 3000:8080 airbot，端口一开，服务就活。更重要的是，Docker的资源限制（--memory=8g --cpus=4）能防止LLM推理意外吃光服务器内存，导致其他关键业务宕机。我在某制造企业部署时，就靠这个限制，避免了因员工误调用13B模型导致MES系统响应延迟的问题。

2.3 Open WebUI为何比Chatbox、LMStudio更适配企业场景

市面上有很多Ollama前端，比如Chatbox、LMStudio、Text Generation WebUI。但它们在离线企业环境里，都有明显短板。Chatbox是Electron应用，打包后体积超500MB，且依赖Node.js运行时，离线安装极其繁琐；LMStudio虽然轻量，但它的会话管理是纯前端localStorage，一旦浏览器缓存清空，所有对话记录全丢，这对需要审计留痕的场景是硬伤；Text Generation WebUI功能强大，但配置项太多，光是模型参数就有30多个开关，非技术人员根本不敢动。Open WebUI的优势在于“恰到好处的平衡”：它用Python+FastAPI做后端，但所有业务逻辑都围绕“企业级聊天”设计——每个会话自动打上时间戳、用户ID（可对接LDAP）、模型名称、温度值；所有消息存入SQLite数据库（可替换为PostgreSQL，满足高并发需求）；支持多用户角色（管理员/普通用户），管理员能看到所有会话历史；最关键的是，它的前端是纯静态文件，打包后只有12MB，COPY进Docker镜像毫无压力。我在某律所部署时，合伙人明确要求“所有咨询记录必须保留至少180天”，Open WebUI的SQLite自动轮转机制（每天一个db文件）完美满足，而不用额外搭一套日志系统。

3. 核心组件准备与离线环境适配

3.1 Ollama离线安装包的获取与验证

Ollama官方不提供离线安装包下载链接，这是很多人的第一道坎。正确做法是：在有网络的机器上，用curl -fsSL https://ollama.com/install.sh | sh下载安装脚本，然后手动解析脚本内容。你会发现，脚本实际是从https://github.com/ollama/ollama/releases/download/v0.1.32/ollama-linux-amd64（以v0.1.32为例）下载二进制。这个URL是公开的，你可以用wget或curl -O直接下载。重点来了：下载后必须校验SHA256。Ollama每个release页面都提供sha256sums.txt文件，里面包含所有平台二进制的哈希值。执行sha256sum ollama-linux-amd64 | cut -d' ' -f1，与官网文件比对，确保没被中间人篡改。我吃过亏——某次从第三方镜像站下载的Ollama，哈希值对不上，运行时在加载模型阶段随机崩溃，排查三天才发现是二进制被植入了挖矿代码。所以，离线部署的第一铁律：所有二进制必须来自官方Release，且哈希校验通过。对于ARM64架构（如苹果M系列芯片或国产鲲鹏服务器），要特别注意下载ollama-linux-arm64，别用x86_64版本强行运行，否则会报Exec format error。另外，Ollama的模型文件默认存在~/.ollama/models，这个路径在容器里要映射出来，否则每次重启容器，模型就没了。我的做法是：在宿主机创建/opt/airbot/models目录，chown 1001:1001 /opt/airbot/models（Ollama默认用UID 1001运行），然后在Docker run时用-v /opt/airbot/models:/root/.ollama/models挂载。这样模型文件永久保存，升级Ollama容器也不影响已有模型。

3.2 模型文件的离线获取与量化策略

Ollama模型不是“下载即用”，它需要先拉取再转换。在有网环境，ollama pull llama3会自动完成。但离线时，你得手动操作。正确流程是：在联网机器上，执行ollama pull llama3，然后进入~/.ollama/models目录，你会看到一堆以manifests/开头的文件和blobs/目录。其中blobs/里是真正的模型权重，按SHA256命名。把这些blobs/下的所有文件，连同manifests/目录一起打包，拷贝到离线机器。在离线机器上，Ollama启动后，会自动识别这些文件并注册为可用模型。但这里有个坑：Ollama默认拉取的是Q8量化版本（约5GB），对16GB内存机器压力很大。实测发现，Q4_K_M版本（约2.8GB）在CPU模式下推理速度只慢15%，但内存占用降低42%。所以，我推荐在联网机器上，先用ollama show llama3 --modelfile查看模型信息，然后用ollama create my-llama3 -f Modelfile自定义一个Modelfile，内容为：

FROM llama3 PARAMETER num_ctx 4096 PARAMETER temperature 0.7 # 强制使用Q4_K_M量化

再执行ollama run my-llama3，Ollama会自动下载Q4版本。这样导出的blobs文件，就是优化后的轻量版。对于中文场景，我强烈推荐qwen2:1.5b（1.5B参数）而非qwen2:7b。实测在同等硬件下，1.5B模型响应时间<800ms，7B则常超2.5秒，且1.5B对显存/内存压力小得多。更重要的是，1.5B模型在处理中文长文本摘要时，准确率反而更高——因为参数少，过拟合风险低，泛化能力更强。这不是玄学，是我们在某政务知识库项目中，用1000条真实工单测试得出的结论。

3.3 Open WebUI镜像的定制化构建

Open WebUI官方提供Docker镜像，但直接docker pull ghcr.io/open-webui/open-webui:main在离线环境行不通。必须自己构建。关键步骤有三：第一，基础镜像选python:3.11-slim-bookworm，而不是python:3.11。slim-bookworm基于Debian 12，glibc版本新，兼容性更好，且体积比python:3.11小300MB。第二，安装依赖时，用pip install --no-cache-dir --find-links ./packages --trusted-host None -r requirements.txt，其中./packages是你提前在联网机器上用pip download -r requirements.txt --no-deps --platform manylinux2014_x86_64 --only-binary=:all:下载的所有wheel包。这确保了所有Python依赖离线可用。第三，也是最容易被忽略的：Open WebUI默认用SQLite，但SQLite数据库文件必须放在容器可写目录。我在Dockerfile里加了VOLUME ["/app/backend/data"]，并在启动脚本里确保WEBUI_DATA_PATH=/app/backend/data。这样，即使容器重启，会话数据也不会丢失。另外，Open WebUI的webui.env配置文件，必须通过COPY webui.env /app/webui.env注入，不能用docker run --env-file，因为离线环境无法保证env文件一定存在。我的webui.env核心配置如下：

WEBUI_SECRET_KEY=your-32-byte-secret-here OPEN_WEBUI_BASE_URL=http://localhost:3000 OLLAMA_BASE_URL=http://host.docker.internal:11434 ENABLE_SIGNUP=False DEFAULT_MODEL=llama3

注意OLLAMA_BASE_URL的写法：host.docker.internal是Docker Desktop的特殊DNS，但在Linux服务器上不生效。此时必须用宿主机真实IP，比如http://192.168.1.100:11434，并在docker run时加--add-host=host.docker.internal:192.168.1.100。这个细节，我踩过两次坑，第一次没加，Open WebUI一直报“Connection refused”，第二次加了但IP写错，浪费半天。

4. 容器化部署全流程实操

4.1 构建Ollama服务容器镜像

Ollama本身不提供官方Docker镜像，必须自己构建。很多人直接FROM ubuntu:22.04，然后RUN apt-get update && apt-get install -y curl && curl ...，这会导致镜像体积膨胀到1.2GB。更优解是FROM scratch（空镜像），只拷贝Ollama二进制。Dockerfile如下：

FROM scratch COPY ollama-linux-amd64 /usr/bin/ollama COPY models/ /root/.ollama/models/ EXPOSE 11434 USER 1001:1001 CMD ["ollama", "serve"]

注意三点：第一，scratch镜像没有shell，所以CMD必须用数组格式，不能写CMD ollama serve；第二，models/目录必须提前准备好，包含所有blobs/和manifests/文件，且权限设为chown -R 1001:1001 models/；第三，USER 1001:1001必须写，否则Ollama启动时会因权限不足无法创建socket。构建命令：docker build -t airbot-ollama:0.1.32 .。构建后，用docker images确认镜像大小应<150MB。测试启动：docker run -d -p 11434:11434 --name ollama-test airbot-ollama:0.1.32，然后curl http://localhost:11434/api/tags，返回JSON说明服务正常。如果返回curl: (7) Failed to connect，大概率是USER没设对，换docker run -u 0 -d ...试试，但生产环境严禁用root。

4.2 构建Open WebUI容器镜像并打通Ollama通信

Open WebUI镜像构建更复杂，因为它依赖Python生态。我的Dockerfile精简后如下：

FROM python:3.11-slim-bookworm WORKDIR /app COPY requirements.txt . # 提前下载的wheel包放在这里 COPY packages/ ./packages/ RUN pip install --no-cache-dir --find-links ./packages --trusted-host None -r requirements.txt COPY . . # 复制定制化的webui.env COPY webui.env . # 创建数据卷目录 RUN mkdir -p /app/backend/data VOLUME ["/app/backend/data"] EXPOSE 8080 CMD ["python", "main.py"]

构建前，先在联网机器上生成requirements.txt：pip freeze > requirements.txt，然后用pip download -r requirements.txt --no-deps --platform manylinux2014_x86_64 --only-binary=:all: -d packages/下载所有wheel。注意--platform参数必须匹配目标服务器CPU架构。构建命令：docker build -t airbot-webui:0.3.10 .。构建成功后，启动命令是关键：

docker run -d \ --name open-webui \ -p 3000:8080 \ --add-host=host.docker.internal:192.168.1.100 \ -v /opt/airbot/data:/app/backend/data \ -e WEBUI_SECRET_KEY="your-secret" \ airbot-webui:0.3.10

这里--add-host是灵魂——它让容器内的host.docker.internal域名解析到宿主机IP，从而让Open WebUI能访问宿主机上运行的Ollama服务（监听11434端口）。如果不加，Open WebUI会尝试连接http://localhost:11434，但那是容器自己的localhost，不是宿主机。我曾因此调试了6小时，最后发现就差这一行。启动后，访问http://192.168.1.100:3000，应该能看到Open WebUI登录页。首次登录用admin/admin123，登录后立即修改密码，并在Settings里确认Default Model已设为llama3。

4.3 网络与存储的生产级配置

离线环境最怕“单点故障”。Ollama和Open WebUI现在是两个独立容器，如果Ollama容器挂了，WebUI会持续报错，用户体验极差。解决方案是用Docker Compose统一编排。docker-compose.yml内容如下：

version: '3.8' services: ollama: image: airbot-ollama:0.1.32 restart: unless-stopped ports: - "11434:11434" volumes: - "/opt/airbot/models:/root/.ollama/models" # 内存限制防OOM mem_limit: 8g mem_reservation: 4g webui: image: airbot-webui:0.3.10 restart: unless-stopped ports: - "3000:8080" environment: - WEBUI_SECRET_KEY=your-32-byte-secret - OLLAMA_BASE_URL=http://ollama:11434 volumes: - "/opt/airbot/data:/app/backend/data" # 依赖ollama启动后再启动 depends_on: - ollama # 健康检查，失败自动重启 healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8080/health"] interval: 30s timeout: 10s retries: 3

注意OLLAMA_BASE_URL设为http://ollama:11434，这是Docker内置DNS，容器间可通过服务名互访，比host.docker.internal更可靠。depends_on确保ollama先启动，healthcheck让Docker自动检测WebUI是否存活。部署命令：docker-compose up -d。查看状态：docker-compose ps，所有服务状态应为Up (healthy)。日志排查：docker-compose logs -f ollama看模型加载是否成功，docker-compose logs -f webui看是否有Connected to Ollama字样。如果WebUI日志出现Connection refused，先docker exec -it open-webui ping ollama，确认网络连通；再docker exec -it ollama netstat -tuln | grep 11434，确认Ollama确实在监听。

4.4 首次运行验证与性能基线测试

容器启动后，不要急着试聊天，先做三件事：第一，打开浏览器开发者工具（F12），切到Network标签，访问http://192.168.1.100:3000，观察所有请求是否200，特别关注/api/models和/api/chat。如果/api/models返回空数组，说明Ollama没连上；如果/api/chat返回500，说明模型加载失败。第二，用curl命令直连Ollama API测试：

curl -X POST http://192.168.1.100:11434/api/chat \ -H "Content-Type: application/json" \ -d '{ "model": "llama3", "messages": [{"role": "user", "content": "你好"}], "stream": false }'

正常应返回JSON，包含message.content字段。如果返回{"error":"model not found"}，说明模型文件没放对位置。第三，做性能压测：用ab（Apache Bench）模拟并发请求。ab -n 10 -c 2 http://192.168.1.100:3000/，观察平均响应时间。在我的测试环境（Intel i7-10700K, 32GB RAM, NVMe SSD），Q4_K_M量化版llama3，首字响应时间（TTFT）稳定在1.2~1.8秒，整个回复完成时间（TPOT）在3.5~5.2秒。如果TTFT>3秒，检查是否开启了numactl绑定，用docker exec ollama ps aux | grep numactl确认，如有，需在Ollama启动命令中加--numa=false参数。这个基线数据很重要，它是后续扩容的依据——比如客户要求支持50并发，当前配置显然不够，就得考虑升级CPU或上GPU。

5. 实战问题排查与独家避坑指南

5.1 “模型加载失败”的12种可能及速查表

现象	可能原因	快速验证命令	解决方案
`curl http://11434/api/tags`返回空JSON	Ollama未启动或端口被占	`docker ps \| grep ollama`	`docker kill ollama && docker start ollama`
`curl http://11434/api/tags`返回`{"models":[]}`	模型文件路径错误	`docker exec ollama ls -l /root/.ollama/models`	确认`blobs/`和`manifests/`在正确路径，且权限为1001
WebUI显示`Model not found: llama3`	Open WebUI配置的模型名与Ollama注册名不一致	`curl http://11434/api/tags \| jq '.models[].name'`	在WebUI Settings里将Default Model改为输出的精确名称（如`llama3:latest`）
Ollama日志出现`failed to load model`	模型文件损坏或架构不匹配	`docker exec ollama sha256sum /root/.ollama/models/blobs/sha256*`	重新下载模型文件，或换用`qwen2:1.5b`等轻量模型
`docker logs ollama`报`illegal instruction`	CPU不支持AVX2指令集	`docker exec ollama cat /proc/cpuinfo \| grep avx2`	换用`qwen2:0.5b`或编译Ollama时禁用AVX2

这个表格是我从23个真实故障案例中提炼的。最常被忽略的是最后一行：很多老服务器（如Intel Xeon E5-26xx v3）不支持AVX2，而Ollama默认编译启用了AVX2加速。此时cat /proc/cpuinfo | grep avx2无输出，必须换模型或重编译Ollama。我提供的qwen2:0.5b模型，专为这类老硬件优化，实测在E5-2650 v2上也能跑通。

5.2 Open WebUI登录后空白页的深度诊断

这个问题发生率极高，但原因五花八门。第一步，打开浏览器控制台（F12），看Console是否有Failed to load resource: net::ERR_CONNECTION_REFUSED。如果有，说明前端JS试图连接后端失败。此时看Network标签，找/api/config请求，如果状态码是0，说明浏览器无法访问http://192.168.1.100:3000/api/config。常见原因：客户防火墙拦截了3000端口，或Nginx反向代理配置错误。解决方案：在宿主机执行curl -v http://localhost:3000/api/config，如果返回200，说明服务正常，问题在客户端网络；如果返回Connection refused，说明Docker端口映射失败，检查docker ps输出的PORTS列是否真有0.0.0.0:3000->8080/tcp。第二步，如果Console无报错，但页面空白，看Network标签里/static/main.*.js是否404。这通常是因为Open WebUI构建时，前端静态文件没正确打包。我的修复方法是在Dockerfile里加：

RUN cd /app && npm ci && npm run build

前提是你的构建机已安装Node.js。如果不想装Node，直接用我打包好的dist/目录，COPY dist/ /app/static/。第三步，最隐蔽的坑：Open WebUI的webui.env里OPEN_WEBUI_BASE_URL设错了。比如设成了https://ai.company.com，但实际是HTTP访问，浏览器会因混合内容阻止加载。必须设为http://localhost:3000或http://192.168.1.100:3000，且与你访问的URL协议、域名、端口完全一致。

5.3 内存溢出（OOM）的预防与应急处理

LLM是内存黑洞，离线环境尤其危险。Ollama默认不限制内存，当加载多个模型或并发请求高时，Linux内核会触发OOM Killer，随机杀死进程。我的经验是：在docker-compose.yml里必须加mem_limit，且值要科学。计算公式：模型大小(GB) * 1.5 + 2GB。例如Q4_K_M版llama3约2.8GB，mem_limit应设为6g（2.8*1.5≈4.2，+2=6.2，向上取整）。同时加mem_reservation: 4g，告诉Docker预留4GB，避免内存争抢。如果已发生OOM，dmesg -T | grep -i "killed process"会显示被杀进程名。应急命令：docker update --memory=6g ollama动态调整。长期方案是启用Ollama的--gpu-layers参数，把部分计算卸载到GPU。即使只有NVIDIA T4（16GB显存），也能把内存占用压到3GB以内。命令：docker run -d --gpus all -e OLLAMA_NUM_GPU=20 airbot-ollama:0.1.32，其中20表示把前20层Transformer放到GPU，剩余层在CPU，实现性能与内存的最优平衡。

5.4 模型切换与多模型共存的工程实践

客户常提需求：“能不能同时跑llama3和qwen2，让用户自己选？”这看似简单，实则暗藏陷阱。Ollama原生支持多模型，但Open WebUI的Default Model只能设一个。我的方案是：在Open WebUI的Settings里，开启Show Model Selector，这样每个对话窗口右上角会出现模型下拉框。但要注意，这个功能依赖Ollama的/api/tags接口返回多个模型。所以，你必须在models/目录里放多个模型的blobs/和manifests/。比如：

models/ ├── blobs/ │ ├── sha256-abc... # llama3 │ └── sha256-def... # qwen2 └── manifests/ ├── registry.ollama.ai └── library ├── llama3 └── qwen2

关键是manifests/的目录结构必须严格匹配Ollama的预期。我写了个Python脚本自动生成，核心逻辑是：读取每个模型的Modelfile，用ollama create命令注册，然后docker cp导出blobs/和manifests/。这样保证结构100%正确。另外，多模型会显著增加磁盘占用。我的建议是：用ollama list定期清理不用的模型，ollama rm qwen2:0.5b，但注意rm只是删manifest，blobs/文件还在，需手动rm -rf ~/.ollama/models/blobs/sha256-*。为防误删，我在/opt/airbot/models下建了archive/目录，把旧模型mv进去，既节省空间，又保留恢复能力。

6. 安全加固与企业级运维要点

6.1 最小权限原则的落地执行

离线环境不等于安全环境。Ollama默认以UID 1001运行，但这个用户在宿主机上可能有过多权限。我的加固步骤：第一，创建专用系统用户airbot，UID设为1001，useradd -r -u 1001 -d /opt/airbot -s /bin/false airbot；第二，chown -R airbot:airbot /opt/airbot；第三，在Docker run时，用--user 1001:1001强制指定，而不是依赖镜像默认。这样，即使Ollama容器被攻破，攻击者也只能以airbot身份访问宿主机，且/opt/airbot以外的目录均不可写。更进一步，用--read-only挂载根文件系统：docker run --read-only --tmpfs /tmp:rw,size=100m ...，让容器内文件系统只读，所有临时文件只能写到/tmp内存盘。这能有效防御恶意脚本写入后门。Open WebUI的webui.env必须设为chmod 600，且WEBUI_SECRET_KEY要用openssl rand -base64 32生成，绝不能写死admin123。

6.2 日志审计与会话留存的合规方案

金融、政务客户必问：“聊天记录能存多久？谁能看到？”Open WebUI默认SQLite数据库，文件在/app/backend/data/webui.db。这个文件必须定期备份。我的方案是：在宿主机写个cron脚本，每天凌晨2点执行：

#!/bin/bash DATE=$(date +%Y%m%d) docker exec open-webui cp /app/backend/data/webui.db /app/backend/data/webui.db.$DATE docker cp open-webui:/app/backend/data/webui.db.$DATE /opt/airbot/backup/ gzip /opt/airbot/backup/webui.db.$DATE

同时，为满足“操作留痕”要求，我在Open WebUI的main.py里加了日志钩子：在chat_completion函数开头，加logging.info(f"User {user_id} asked: {messages[-1]['content'][:100]}")，日志输出到/app/backend/data/app.log，并用docker logs -f open-webui实时查看。对于高合规要求场景，我把SQLite换成PostgreSQL。在docker-compose.yml里加postgres服务，然后WEBUI_DATABASE_URL=postgresql://airbot:password@postgres:5432/airbot，这样所有会话自动存入PG，支持SQL审计和权限分级。

6.3 持续更新与版本灰度的离线策略

Ollama和Open WebUI都在快速迭代，但离线环境不能随便升级。我的策略是“双轨制”：主分支用稳定版（如Ollama 0.1.32 + Open WebUI 0.3.10），新功能分支用最新版。具体操作：在联网机器上，用git clone拉取Open WebUI最新代码，docker build生成airbot-webui:edge镜像，然后docker save airbot-webui:edge > webui-edge.tar。把这个tar包拷到离线环境，docker load -i webui-edge.tar。然后用docker-compose的profiles功能，在docker-compose.yml里定义：

services: webui: profiles: ["stable", "edge"] # ... 其他配置

上线新版本时，docker-compose --profile edge up -d，只启动edge服务，不影响stable。等测试一周无问题，再把stable镜像更新为edge。Ollama的模型更新同理：新模型先放/opt/airbot/models-new/，测试通过后，mv /opt/airbot/models /opt/airbot/models-old && mv /opt/airbot/models-new /opt/airbot/models，原子切换。这种灰度策略，让我在过去18个月的37次升级中，保持了100%的零故障上线记录。

我个人在实际操作中的体会是：离线AI不是技术炫技，而是工程定力的体现。每一个看似简单的docker run命令背后，都是对CPU指令集、内存管理、网络栈、文件权限的深刻理解。当你在客户机房里，看着屏幕上跳出“Hello, I am Llama3”，而整个机柜的光纤交换机指示灯全灭着，那一刻的踏实感，是任何云服务都无法替代的。最后再分享一个小技巧：把所有构建脚本、Dockerfile

查看全文

http://www.jsqmd.com/news/981235/