当前位置：首页 > news >正文

HoRain云--快速部署本地大模型：Ollama与vLLM方案详解

news 2026/3/26 17:35:57

🎬 HoRain云小助手：个人主页

🔥 个人专栏: 《Linux 系列教程》《c语言教程》

⛺️生活的理想，就是为了理想的生活!

⛳️ 推荐

前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。

专栏介绍

专栏名称	专栏介绍
《C语言》	本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。
《网络协议》	本专栏主要是注重从底层来给大家一步步剖析网络协议的奥秘，一起解密网络协议在运行中协议的基本运行机制！
《docker容器精解篇》	全面深入解析 docker 容器，从基础到进阶，涵盖原理、操作、实践案例，助您精通 docker。
《linux系列》	本专栏主要撰写Linux干货内容，从基础到进阶，知识由抽象到简单通俗易懂，帮你从新手小白到扫地僧。
《python 系列》	本专栏着重撰写Python相关的干货内容与编程技巧，助力大家从底层去认识Python，将更多复杂的知识由抽象转化为简单易懂的内容。
《试题库》	本专栏主要是发布一些考试和练习题库（涵盖软考、HCIE、HRCE、CCNA等）

✅ 方案A：Ollama + Open WebUI（新手首选｜快速上手）

✅ 方案B：vLLM + Open WebUI（高性能场景｜生产级）

❓ 常见问题解答

💡 选择建议

您提到的“open-wenUI”应为Open WebUI（开源Web界面，GitHub: open-webui/open-webui）。下面为您清晰梳理vLLM、Ollama 与 Open WebUI 的关系、部署方案及选择建议，避免常见误区：

🔑 核心概念澄清

工具	角色	特点	与 Open WebUI 关系
Ollama	轻量级模型运行时	一键拉取/运行模型（`ollama pull`），内置API（`http://localhost:11434`），CPU/GPU均支持	Open WebUI原生深度集成，配置最简单
vLLM	高性能推理引擎	PagedAttention技术，高吞吐/低延迟，需Hugging Face格式模型，强依赖NVIDIA GPU+CUDA	通过OpenAI兼容API接入 Open WebUI
Open WebUI	前端交互界面	提供聊天界面、模型管理、多用户支持等	仅作为前端，需连接后端（二选一）

⚠️重要提醒：
vLLM 与 Ollama 是“二选一”的后端方案，二者功能重叠（均提供推理服务），无需同时部署同一模型。
“同时使用”仅适用于：用 Ollama 跑小模型（如 Phi-3），vLLM 跑大模型（如 Qwen-Max），并在 Open WebUI 中分别配置（需高级设置，见下文）。

🚀 推荐部署方案（二选一）

✅ 方案A：Ollama + Open WebUI（新手首选｜快速上手）

# 1. 安装 Ollama（Linux/macOS/Windows 均支持） curl -fsSL https://ollama.com/install.sh | sh ollama pull llama3:8b # 示例：拉取模型 # 2. 启动 Open WebUI（Docker 方式最简） docker run -d -p 3000:8080 \ -v open-webui:/app/backend/data \ -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \ # Docker内访问宿主机Ollama --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main # 3. 访问 http://localhost:3000 → 自动识别Ollama模型

✅ 优势：5分钟部署完成，自动同步模型列表，适合个人/测试场景
✅ 适用：无高端GPU、追求简洁、快速体验

✅ 方案B：vLLM + Open WebUI（高性能场景｜生产级）

# 1. 安装 vLLM（需Python 3.10+、CUDA 12.x、NVIDIA驱动） pip install vllm # 启动服务（示例：加载Qwen模型） python -m vllm.entrypoints.openai.api_server \ --model /path/to/qwen-7b-chat \ # Hugging Face格式模型路径 --port 8000 \ --tensor-parallel-size 1 # 多卡调整 # 2. 启动 Open WebUI（连接vLLM） docker run -d -p 3000:8080 \ -e OPENAI_API_BASE=http://宿主机IP:8000 \ # 非Docker环境填localhost -e OPENAI_API_KEY=sk-xxx \ # vLLM默认无需key，但Open WebUI需填占位符 --name open-webui \ ghcr.io/open-webui/open-webui:main # 3. Open WebUI设置：模型管理 → 添加模型 → 选择"OpenAI" → 填写API地址

✅ 优势：推理速度提升3-5倍，支持连续批处理、高并发
✅ 适用：有A10/A100/H100等GPU、需服务多用户/高流量场景

❓ 常见问题解答

Q：能同时用 Ollama 和 vLLM 吗？
A：可以，但需在 Open WebUI 中为不同模型指定不同后端（设置 → 模型 → 自定义提供者）。例如：
模型A→ Ollama API (http://:11434)，模型B→ vLLM API (http://:8000)。操作较复杂，非必要不推荐。
Q：模型格式要求？
- Ollama：用ollama pull自动下载转换（或自定义 Modelfile）
- vLLM：需 Hugging Face 格式（model.safetensors+config.json），从 HF Hub 下载
Q：无GPU怎么办？
- Ollama 可纯CPU运行（速度慢，小模型可行）
- vLLM必须GPU，无GPU请选 Ollama 方案
拼写纠正：项目名为Open WebUI（非 open-wenUI），部署时注意环境变量名（如OLLAMA_BASE_URL）

💡 选择建议

需求场景	推荐方案
个人学习/快速体验	✅ Ollama + Open WebUI
有消费级GPU（RTX 3090/4090）	✅ Ollama（简单）或 vLLM（榨干性能）
企业级高并发服务	✅ vLLM + Open WebUI + 负载均衡
多模型混合调度	⚠️ 分别部署 Ollama/vLLM，Open WebUI 高级配置（需技术储备）