当前位置：首页 > news >正文

在 Kubernetes 上部署 Ollama3

news 2026/7/23 5:30:28

Ollama 与 OpenWebUI 介绍
Ollama 是一个运行大模型的工具，可以看成是大模型领域的 Docker，可以下载所需的大模型并暴露 API。
OpenWebUI 是一个大模型的 Web UI 交互工具，支持 Ollama，即调用 Ollama 暴露的 API 实现与大模型交互：
部署方案选型
OpenWebUI 的仓库中自带 Ollawma + OpenWebUI 的部署方式，主要是 kustomize 和 helm 这两种方式，参考 open-webui 仓库的 kubernetes 目录。

但我更推荐直接写 YAML 进行部署，原因如下：

Ollama + OpenWebUI 所需 YAML 相对较少，直接根据需要写 YAML 更直接和灵活。
不需要研究 OpenWebUI 提供的 kustomize 和 helm 方式的用法。
选择模型
Llama3 目前主要有 8b 和 70b 两个模型，分别对应 80 亿和 700 亿规模的参数模型，CPU 和 GPU 都支持，8b 是小模型，对配置要求不高，一般处于成本考虑，可以直接使用 CPU 运行，而 70b 则是大模型， CPU 肯定吃不消，GPU 的配置低也几乎跑不起来，主要是显存要大才行，经实测，24G 显存跑起来会非常非常慢，32G 的也有点吃力，40G 的相对流畅（比如 Nvdia A100）。

准备 Namespace
准备一个 namespace，用于部署运行 llama3 所需的服务，这里使用 llama namespace：

kubectl create ns llama

部署 Ollama

apiVersion: apps/v1 kind: StatefulSet metadata: name: ollama namespace: llama spec: serviceName:"ollama"replicas:1selector: matchLabels: app: ollama template: metadata: labels: app: ollama spec: containers: - name: ollama image: ollama/ollama:latest ports: - containerPort:11434resources: requests: cpu:"2000m"memory:"2Gi"nvidia.com/gpu:"0"# 如果要用 Nvidia GPU，这里声明下 GPU 卡limits: cpu:"4000m"memory:

查看全文

http://www.jsqmd.com/news/618981/