当前位置：首页 > news >正文

本地部署 Ollama 完整指南：3 分钟让大模型在你电脑上跑起来

news 2026/3/27 0:21:43

本地部署 Ollama 指南：3 分钟让大模型在你电脑上跑起来

Ollama —— 不用配置复杂的环境，不用折腾 Docker，一条命令就能让 Llama 3、Qwen 这些大模型在你电脑上跑起来。

今天这篇教程，我就把完整的部署流程、使用技巧、还有我踩过的坑，一次性讲清楚。

Ollama 是什么？

简单说，Ollama 是一个本地运行大语言模型的工具。

旨在简化大型语言模型本地部署和运行过程的开源软件
提供了一个轻量级、易于扩展的框架，让开发者能够在本地机器上轻松构建和管理LLMs(大型语言模型)
开发者可以导入和定制自己的模型，无需关注复杂的底层实现细节
由自己电脑的硬件提供算力支撑模型运行

现在大家用 Ollama，主要是为了这几个场景：

隐私敏感的场景：数据不出本地，适合企业内部使用
离线环境：没有网络也能用大模型
开发测试：本地快速迭代，不用每次调 API 都等响应
成本控制：一次部署，无限调用，没有 token 费用
学习和研究：想深入理解大模型怎么工作的

Ollama 的优点

1. 极简的命令行体验

ollama run llama3.2

就这一条命令，模型自动下载、自动运行。用完退出，就这么简单。

2. 模型库丰富

官方库里有 Llama 3、Qwen2.5、Gemma2、Mistral、DeepSeek 等主流模型，从 1B 到 70B 参数都有。还能自己导入自定义模型。

3. 资源占用可控

小模型（如 Qwen2.5-1.5B）只要 2GB 内存就能跑，老笔记本也能用。大模型支持量化，70B 模型量化后 40GB 显存就能跑。

4. API 兼容 OpenAI

Ollama 的 API 跟 OpenAI 格式兼容，现有代码改个 base_url 就能用：

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:11434/v1",api_key="ollama"# 随便填)response=client.chat.completions.create(model="llama3.2",messages=[{"role":"user","content":"你好"}])

5. 支持 GPU 加速

NVIDIA 显卡自动调用 CUDA，AMD 显卡支持 ROCm，Mac 用 M 系列芯片的 Metal 加速。有显卡和没显卡，速度差好几倍。

部署前准备

先确认你的设备能不能跑：

最低配置：

内存：4GB（跑 1B-3B 小模型）
存储：10GB 空闲空间
系统：Linux / macOS 12+ / Windows 10+

推荐配置：

内存：16GB+（跑 7B-14B 模型）
显卡：NVIDIA 8GB+ 显存（GPU 加速）
存储：50GB+ SSD

检查 NVIDIA 显卡驱动：

nvidia-smi

能看到显卡信息就说明驱动没问题。

Linux 部署（Ubuntu/Debian/CentOS）

Step 1：一键安装

官方提供了一键安装脚本，直接运行：

curl-fsSLhttps://ollama.com/install.sh|sh

脚本会自动：

下载最新版本的 Ollama
创建系统服务
启动后台进程

Step 2：验证安装

ollama--version

看到版本号就说明安装成功了。

Step 3：启动服务

安装脚本会自动启动服务。如果没有，手动启动：

sudosystemctl start ollamasudosystemctlenableollama# 开机自启

Step 4：下载并运行模型

ollama run llama3.2

第一次运行会自动下载模型（约 2GB）。下载完成后直接进入对话界面。

Step 5：查看服务状态

sudosystemctl status ollama

看到active (running)就说明服务正常。

macOS 部署

Step 1：下载安装

有两种方式：

方式一：Homebrew（推荐）

brewinstallollama

方式二：官网下载

访问 https://ollama.com/download，下载 macOS 安装包，双击安装。

Step 2：运行模型

ollama run llama3.2

Mac M 系列芯片会自动用 Metal 加速，速度很快。

Step 3：后台运行（可选）

如果想让 Ollama 一直在后台运行：

ollama serve&

Windows 部署

Step 1：下载安装包

访问 Ollama 下载OllamaSetup.exe。

Step 2：安装

按提示完成安装。

Step 3：验证安装

打开 PowerShell 或命令提示符：

ollama--version

Step 4：运行模型

ollama run llama3.2

Windows 版本会自动配置环境变量，可以直接在任何目录运行。

Docker 部署（可选）

如果你习惯用 Docker：

dockerrun-d-vollama:/root/.ollama-p11434:11434--nameollama ollama/ollama

带 GPU 支持：

dockerrun-d--gpus=all-vollama:/root/.ollama-p11434:11434--nameollama ollama/ollama

验证容器运行：

dockerexec-itollama ollama run llama3.2

常用模型推荐

Ollama 官方库里的模型，我推荐这几个：

模型	大小	适用场景	最低内存
Qwen2.5-1.5B	1.5B	轻量任务、老设备	2GB
Llama3.2-3B	3B	日常对话、代码	4GB
Qwen2.5-7B	7B	综合性能最佳	8GB
Llama3.1-8B	8B	通用场景	8GB
Qwen2.5-14B	14B	复杂任务、推理	16GB
Llama3.1-70B	70B	高精度任务	40GB+

下载模型：

ollama pull qwen2.5:7b ollama pull llama3.2 ollama pull deepseek-r1:8b

查看已下载模型：

ollama list

删除模型：

ollamarm模型名

API 使用示例

Ollama 启动后，默认在http://localhost:11434提供 API 服务。

1. 对话接口

curlhttp://localhost:11434/api/chat-d'{ "model": "llama3.2", "messages": [ {"role": "user", "content": "你好，介绍一下你自己"} ] }'

2. 流式输出

curlhttp://localhost:11434/api/chat-d'{ "model": "llama3.2", "messages": [{"role": "user", "content": "讲个笑话"}], "stream": true }'

3. Python 调用

importrequests response=requests.post("http://localhost:11434/api/chat",json={"model":"llama3.2","messages":[{"role":"user","content":"用 Python 写个快速排序"}]})print(response.json()["message"]["content"])

4. OpenAI 兼容接口

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:11434/v1",api_key="ollama")response=client.chat.completions.create(model="llama3.2",messages=[{"role":"system","content":"你是一个 Python 专家"},{"role":"user","content":"解释一下装饰器"}])print(response.choices[0].message.content)

我踩过的坑（血泪教训）

坑 1：模型下载太慢

国内下载 HuggingFace 的模型经常超时。解决方法：

# 设置国内镜像exportOLLAMA_MODELS=/path/to/local/models# 或者用代理exportHTTP_PROXY=http://127.0.0.1:7890exportHTTPS_PROXY=http://127.0.0.1:7890

坑 2：显存不足

跑大模型时显存爆了。解决：

# 使用量化版本ollama run llama3.2:q4_0# 4bit 量化，显存减半# 或者限制 GPU 使用exportOLLAMA_NUM_GPU=1# 只用 1 张卡

坑 3：服务启动失败

端口被占用或者权限问题：

# 检查端口sudolsof-i:11434# 重启服务sudosystemctl restart ollama# 查看日志sudojournalctl-uollama-f

坑 4：模型响应慢

没有用 GPU 加速。检查：

# Linux 查看 GPU 使用情况nvidia-smi# Ollama 服务日志ollama serve2>&1|grep-igpu

看到CUDA或Metal字样说明加速已启用。

进阶技巧

1. 自定义模型

创建Modelfile：

FROM llama3.2 SYSTEM """ 你是一个专业的 Python 程序员。 回答要简洁，直接给代码示例。 """ PARAMETER temperature 0.7 PARAMETER top_p 0.9

创建模型：

ollama create my-coder-fModelfile ollama run my-coder

2. 多模型切换

# 列出所有模型ollama list# 切换到另一个模型ollama run qwen2.5:7b

3. 模型导出

ollamacpllama3.2 backup-llama3.2

4. 网页界面

配合 Open WebUI 使用：

dockerrun-d-p3000:8080\-eOLLAMA_BASE_URL=http://host.docker.internal:11434\--nameopen-webui\ghcr.io/open-webui/open-webui:main

然后访问http://localhost:3000就有网页版界面了。

参考链接：

Ollama 官网：https://ollama.com
模型库：https://ollama.com/library
GitHub：https://github.com/ollama/ollama
文档：https://github.com/ollama/ollama/tree/main/docs

查看全文

http://www.jsqmd.com/news/458206/

文献检索关键词用几个最合适？给你一个可操作的范围

Next 10 TCP并发，数据库

排序算法的终极博弈：从复杂度推导到工程选型实战

keil破解时报TOOLS.INI_TOOLCHAIN NOT INSTALLED解决

全维度测评主流视频会议软件，精选高效协作之选

【稳健之道】第二篇：Mock 的艺术 —— 隔离外部世界的“混沌”

Python部署卡壳工业MES？Java+YOLOv11+Spring Boot 3.4完美对接PLC！

搭了个AI快讯自动化系统，每天花15分钟看全球AI动态，竟遭Claude封号了

MetaNovas两轮融资，AI改写材料研发格局

讲讲2026年学校制冷设备一站式采购批发，如何选择靠谱厂家 - 工业推荐榜

一文吃透AI合规：算法备案、大模型备案、大模型登记！

口碑好的中央空调厂家排名，浙江省有哪些值得选 - mypinpai

KIHU快狐｜75寸落地全面屏广告机高清展示教学会议信息发布终端

大数据基于Python的大模型岗位人才需求可视化分析

什么是 Java 的 Timer？

写给技术管理者的低代码手册系列文章（8）——第二部分：低代码的概念、价值与发展现状（第四章）

别等着被优化：DevOps 工程师转型 AI 工程师，为什么反而更有优势？

上海理查德米勒机芯异响、震动问题测评解析 - 时光修表匠

2026年3月安徽四柱液压机/压力机/折弯机/液压机/冲床公司推荐：行业变局下的选型逻辑与头部企业解码 - 2026年企业推荐榜

永磁同步电机滑膜观测器参数识别Matlab/simulink仿真包括转动惯量阻尼系数负...

2026澳洲最好的证券公司求职笔试辅导在哪里：独家面经（必看） - Matthewmx

成套电力接地线，一站式配齐施工检修更高效 - 非研科技

政府创新采购数据库（2016-2024）

2026陕西西安AI人工智能培训+视频剪辑培训哪家强？达内优创综合实力稳居第一（附数据分析/Java/云计算运维课程） - 深度智识库

天虹提货券回收避坑指南：教你快速辨别正规平台 - 可可收

直流变频冷干机工厂

HoRain云--二叉树遍历全解析：数据结构核心指南

苹果CMSV10 花心视频二开模板视频网站源码可封装双端 APP-ym7K

太强了！Python+Excel真的是神仙组合，值得你通宵看完！