当前位置：首页 > news >正文

Docker 部署 Ollama 实战指南：从镜像拉取到 API 调用的全流程解析

news 2026/6/4 3:00:30

1. 为什么选择 Docker 部署 Ollama？

在开始之前，我们先聊聊为什么要把 Ollama 装进 Docker。我刚开始接触大语言模型时，最头疼的就是环境配置问题。不同模型需要不同版本的依赖库，系统里各种 Python 环境经常打架。直到用了 Docker，这些问题才真正解决。

Docker 就像给你的应用准备了一个随身行李箱。想象你要去旅行，与其每到一个酒店都重新买洗漱用品，不如把所有必需品装进行李箱带着走。Ollama 在 Docker 里运行就是这个道理 - 所有依赖项都打包好了，换个机器也能一键运行，完全不用担心环境冲突。

实测下来，Docker 部署还有几个实在的好处：

隔离性：模型运行不会干扰主机环境
便携性：开发机训练好的模型可以直接搬到生产环境
资源控制：能限制 CPU/内存用量，避免模型吃光系统资源
版本管理：可以保存不同版本的镜像，随时回滚

2. 环境准备：Docker 安装与配置

2.1 安装 Docker 引擎

先确认你的系统是否已经安装了 Docker。打开终端输入：

docker --version

如果看到版本号（比如Docker version 24.0.7），说明已经安装。如果没有，按下面步骤操作：

Ubuntu/Debian 系统：

# 卸载旧版本 sudo apt-get remove docker docker-engine docker.io containerd runc # 安装依赖 sudo apt-get update sudo apt-get install ca-certificates curl gnupg # 添加官方GPG密钥 sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg sudo chmod a+r /etc/apt/keyrings/docker.gpg # 设置仓库 echo \ "deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \ "$(. /etc/os-release && echo "$VERSION_CODENAME")" stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null # 安装Docker sudo apt-get update sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

CentOS/RHEL 系统：

sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo yum install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin sudo systemctl start docker

安装完成后，建议把当前用户加入 docker 组，避免每次都要 sudo：

sudo usermod -aG docker $USER newgrp docker # 立即生效

2.2 配置 Docker 镜像加速

国内拉取镜像可能会很慢，建议配置镜像加速器。创建或修改/etc/docker/daemon.json：

{ "registry-mirrors": [ "https://registry.cn-hangzhou.aliyuncs.com", "https://docker.mirrors.ustc.edu.cn" ] }

然后重启服务：

sudo systemctl daemon-reload sudo systemctl restart docker

3. 获取 Ollama 镜像

3.1 官方镜像拉取

Ollama 官方提供了现成的 Docker 镜像，直接拉取即可：

docker pull ollama/ollama

这个命令会从 Docker Hub 下载最新版本的镜像。我实测下载速度大约 2MB/s，完整镜像大小约 1.2GB。

如果下载速度不理想，可以尝试以下方法：

更换 Docker 镜像源（见 2.2 节）
使用离线下载方式（见 3.2 节）

3.2 离线镜像方案

对于网络环境受限的情况，可以使用离线镜像包。这里提供一个实测可用的方案：

下载离线镜像包（约 3GB）
导入本地 Docker：

docker load < ollama-offline.tar

导入后可以用以下命令查看：

docker images | grep ollama

应该能看到类似输出：

ollama/ollama latest 1a2b3c4d5e6f 2 weeks ago 1.21GB

4. 运行 Ollama 容器

4.1 基础运行命令

启动容器的标准命令如下：

docker run -d \ --name ollama \ -p 11434:11434 \ -v ollama_data:/root/.ollama \ --restart always \ ollama/ollama

参数解释：

-d：后台运行
--name：指定容器名称
-p：端口映射（主机端口:容器端口）
-v：数据卷挂载，持久化模型数据
--restart：自动重启策略

4.2 GPU 加速配置

如果你有 NVIDIA 显卡，可以启用 GPU 加速：

先安装 NVIDIA Container Toolkit：

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker

运行容器时添加 GPU 参数：

docker run -d \ --name ollama \ --gpus all \ -p 11434:11434 \ -v ollama_data:/root/.ollama \ --restart always \ ollama/ollama

可以用以下命令检查 GPU 是否生效：

docker exec ollama nvidia-smi

5. 模型管理与使用

5.1 拉取模型

进入容器操作：

docker exec -it ollama bash

在容器内拉取模型（以 llama3 为例）：

ollama pull llama3

这个命令会下载约 4GB 的模型文件。下载进度可以在终端看到，速度取决于你的网络。

5.2 运行模型

拉取完成后直接运行：

ollama run llama3

你会进入交互模式，可以直接输入问题与模型对话。试试输入：

>>> 用简单的话解释 Docker 是什么

模型会返回类似这样的回答：

Docker 就像是一个标准化的集装箱系统，但装的是软件而不是货物。它把应用程序和它需要的所有东西（代码、运行环境、工具等）打包在一起，这样就能在任何支持Docker的电脑上运行，不会因为环境不同而出问题。

5.3 模型管理常用命令

查看已安装模型：ollama list
删除模型：ollama rm 模型名
创建自定义模型：ollama create 模型名 -f Modelfile

6. API 调用实战

6.1 基础 API 调用

Ollama 提供了 RESTful API，可以通过 HTTP 访问。最基本的生成接口：

curl http://localhost:11434/api/generate -d '{ "model": "llama3", "prompt": "为什么天空是蓝色的？", "stream": false }'

参数说明：

model：使用的模型名称
prompt：输入的提示词
stream：是否流式输出

6.2 高级 API 使用

对话模式：

curl http://localhost:11434/api/chat -d '{ "model": "llama3", "messages": [ {"role": "user", "content": "你好！"}, {"role": "assistant", "content": "你好！有什么我可以帮助你的吗？"}, {"role": "user", "content": "请用简单的语言解释AI是什么"} ] }'

嵌入向量生成：

curl http://localhost:11434/api/embeddings -d '{ "model": "llama3", "prompt": "机器学习的基本概念" }'

6.3 Python 客户端示例

安装官方 Python 客户端：

pip install ollama

示例代码：

import ollama response = ollama.generate( model="llama3", prompt="用三句话解释神经网络", stream=False ) print(response["response"])

流式输出示例：

stream = ollama.generate( model="llama3", prompt="写一篇关于Docker的短文", stream=True ) for chunk in stream: print(chunk["response"], end="", flush=True)

7. 常见问题排查

7.1 端口冲突问题

如果 11434 端口被占用，可以修改映射端口：

docker run -d -p 11435:11434 --name ollama ollama/ollama

然后 API 地址改为http://localhost:11435

7.2 模型下载失败

如果模型下载中途失败，可以尝试：

清理缓存：docker exec ollama rm -rf /root/.ollama/models
重新拉取：ollama pull 模型名

7.3 内存不足问题

大模型需要足够内存，如果遇到崩溃：

检查可用内存：free -h
运行容器时限制内存：

docker run -d --memory="16g" --name ollama ollama/ollama

8. 生产环境建议

8.1 安全配置

修改默认端口
设置 API 密钥验证
启用 HTTPS
配置防火墙规则

8.2 性能优化

使用 SSD 存储
为数据卷挂载单独的高性能磁盘
调整 Docker 的 CPU 和内存限制
定期清理无用镜像和容器

8.3 监控与日志

查看容器日志：

docker logs -f ollama

资源监控：

docker stats ollama

设置日志轮转：

docker run -d \ --log-driver json-file \ --log-opt max-size=10m \ --log-opt max-file=3 \ --name ollama \ ollama/ollama

查看全文

http://www.jsqmd.com/news/556785/

Carla 0.9.13编译安装失败？别急，这可能是你的Python环境和网络镜像没设对

S32的进阶之路-＞7，S32DS中FTM中断与PWM结合的实战应用

CVAT计算机视觉标注工具深度解析：从数据标注到模型训练的全流程实战

OpenClaw+GLM-4.7-Flash：智能客服机器人搭建指南

实时手机检测模型应用场景：打电话检测、安防监控实战案例

告别黑苹果配置噩梦：5大核心优势让开源工具OpCore-Simplify成为新手救星

无刷电机S型与梯形加减速曲线实战：从算法到代码的平滑运动实现

从踩坑到填坑：记录我封装uView Picker多选组件时遇到的3个典型问题及解决方案

避坑指南：TDengine开源版taosdump备份恢复，这些性能问题和‘缺口’你得知道

保姆级教程：用MBD方法搞定纯电动汽车BMS开发，告别手写代码的坑

5个痛点解决：ComfyUI-KJNodes让工作流效率提升60%的实战指南

Mellanox ASAP2技术揭秘：如何通过硬件卸载提升OVS性能？

用OpenClaw批量生成博客TDK，轻松提升文章曝光率（万字实操教程）

Claude/Codex CLI 搞定！世界级 Agent 工程师只用这几招，效率翻倍！

51单片机外部中断实战：电平与边沿触发的按键检测优化方案

Flowable28实战：多实例任务加签减签的5个常见坑点及解决方案

COMSOL模拟实验室中CO2驱替甲烷的规律

SpringBoot+Netty+WebSocket实战：如何用心跳检测避免百万级连接掉线？

Bili2Text：B站视频转文字的智能革命

TrafficMonitor插件系统终极指南：构建Windows系统监控中心的完整解决方案

YimMenu：GTA V体验增强与安全防护工具

ABAP SQL动态条件构建：字符串转义与安全拼接实践

避开这些坑！TCGA临床数据合并的3个隐藏陷阱及解决方案

终极指南：如何在普通电脑上轻松部署LocalAI，实现完全本地化的AI应用

如何用Mermaid快速绘制专业图表：5个实用技巧提升文档质量

B站成分检测器：5分钟快速识别用户背景的终极指南

ArduPilot EKF3实战：如何配置多IMU冗余系统提升飞行安全（附参数调优指南）

移远EC20二次开发实战：AT指令与Socket双模式图像传输解析

一文掌握Simulink模型加密：从S-Function到受保护模型的实战选择