当前位置: 首页 > news >正文

在 Kubernetes 上部署 Ollama3

Ollama 与 OpenWebUI 介绍
Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API。
OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互:
部署方案选型
OpenWebUI 的仓库中自带 Ollawma + OpenWebUI 的部署方式,主要是 kustomize 和 helm 这两种方式,参考 open-webui 仓库的 kubernetes 目录。

但我更推荐直接写 YAML 进行部署,原因如下:

Ollama + OpenWebUI 所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。
不需要研究 OpenWebUI 提供的 kustomize 和 helm 方式的用法。
选择模型
Llama3 目前主要有 8b 和 70b 两个模型,分别对应 80 亿和 700 亿规模的参数模型,CPU 和 GPU 都支持,8b 是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行,而 70b 则是大模型, CPU 肯定吃不消,GPU 的配置低也几乎跑不起来,主要是显存要大才行,经实测,24G 显存跑起来会非常非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvdia A100)。

准备 Namespace
准备一个 namespace,用于部署运行 llama3 所需的服务,这里使用 llama namespace:

kubectl create ns llama
部署 Ollama
apiVersion: apps/v1 kind: StatefulSet metadata: name: ollama namespace: llama spec: serviceName:"ollama"replicas:1selector: matchLabels: app: ollama template: metadata: labels: app: ollama spec: containers: - name: ollama image: ollama/ollama:latest ports: - containerPort:11434resources: requests: cpu:"2000m"memory:"2Gi"nvidia.com/gpu:"0"# 如果要用 Nvidia GPU,这里声明下 GPU 卡limits: cpu:"4000m"memory:
http://www.jsqmd.com/news/618981/

相关文章:

  • 【芯片可靠性实战】Bhast测试:从标准解读到硬件执行的完整指南
  • VoxelMorph核心模型解析:从VxmPairwise到SynthMorph的完整架构
  • Zip框架核心原理解析:从minizip到Swift封装的技术内幕
  • 如何在5分钟内开始使用EmulatorJS:新手完整入门教程
  • 别再下错包了!手把手教你获取ROS2 Humble可用的gazebo_grasp_plugin正确分支
  • 论文阅读:arxiv 2026 A Systematic Security Evaluation of OpenClaw and Its Variants
  • FreeRTOS(实时操作系统)
  • React Native Safe Area Context 终极指南:Android、iOS、Web 跨平台适配解决方案
  • 【AI原生系统容灾黄金标准】:20年架构师亲授3层冗余+5分钟RTO实战设计法
  • 【独家首发】2026奇点大会闭门报告流出:全球TOP20 AI原生开源项目活跃度、许可证风险与国产替代窗口期(仅限72小时可查)
  • 革命性AI搜索平台Trieve:一站式解决语义搜索与RAG所有难题
  • 手把手教你用Multisim和Matlab复现《开关电源控制环路设计》第一章的所有仿真案例
  • 终极指南:如何用VideoSrt为视频快速生成专业字幕
  • Ion.RangeSlider跨浏览器兼容性深度解析与优化方案
  • 安全信息和事件管理(SIEM):定义、工作原理、核心功能与应用场景
  • 大模型应用开发面试题(来自牛客网)
  • QmlBook深度解析:Qt5与QML的核心概念与架构设计
  • 【GUI-Agent】阶跃星辰 GUI-MCP 解读---()---命令解析和工具映射聪
  • MIST:如何用开源工具解决显微图像拼接的常见困扰?
  • Qwen-Image-Edit-F2P与计算机网络:分布式推理系统设计
  • 使用小龙虾来操作猿编程的遥控车顺
  • STC8H单片机学习-GPIO的四种模式
  • 如何高效使用awesome-italia-remote进行职业规划:5步策略指南
  • STM32 MODBUS-RTU通讯调试避坑指南:从串口助手数据帧分析到CRC校验失败排查
  • JW Player播放列表管理完全手册:实现智能视频序列播放
  • RAG 索引优化:让检索又准又快的两把钥匙
  • 2026全国大型军事模型厂家名录:合规定制实力大盘点 - 资讯焦点
  • Apache Superset实战指南:从零构建企业级数据可视化平台
  • 社交工程攻击:定义、常见类型及防范措施
  • include-media在大型项目中的应用:架构设计和最佳实践