当前位置: 首页 > news >正文

本地部署 Ollama 完整指南:3 分钟让大模型在你电脑上跑起来

本地部署 Ollama 指南:3 分钟让大模型在你电脑上跑起来

Ollama —— 不用配置复杂的环境,不用折腾 Docker,一条命令就能让 Llama 3、Qwen 这些大模型在你电脑上跑起来。

今天这篇教程,我就把完整的部署流程、使用技巧、还有我踩过的坑,一次性讲清楚。


Ollama 是什么?

简单说,Ollama 是一个本地运行大语言模型的工具

  • 旨在简化大型语言模型本地部署和运行过程的开源软件
  • 提供了一个轻量级、易于扩展的框架,让开发者能够在本地机器上轻松构建和管理LLMs(大型语言模型)
  • 开发者可以导入和定制自己的模型,无需关注复杂的底层实现细节
  • 由自己电脑的硬件提供算力支撑模型运行

现在大家用 Ollama,主要是为了这几个场景:

  1. 隐私敏感的场景:数据不出本地,适合企业内部使用
  2. 离线环境:没有网络也能用大模型
  3. 开发测试:本地快速迭代,不用每次调 API 都等响应
  4. 成本控制:一次部署,无限调用,没有 token 费用
  5. 学习和研究:想深入理解大模型怎么工作的

Ollama 的优点

1. 极简的命令行体验

ollama run llama3.2

就这一条命令,模型自动下载、自动运行。用完退出,就这么简单。

2. 模型库丰富

官方库里有 Llama 3、Qwen2.5、Gemma2、Mistral、DeepSeek 等主流模型,从 1B 到 70B 参数都有。还能自己导入自定义模型。

3. 资源占用可控

小模型(如 Qwen2.5-1.5B)只要 2GB 内存就能跑,老笔记本也能用。大模型支持量化,70B 模型量化后 40GB 显存就能跑。

4. API 兼容 OpenAI

Ollama 的 API 跟 OpenAI 格式兼容,现有代码改个 base_url 就能用:

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:11434/v1",api_key="ollama"# 随便填)response=client.chat.completions.create(model="llama3.2",messages=[{"role":"user","content":"你好"}])

5. 支持 GPU 加速

NVIDIA 显卡自动调用 CUDA,AMD 显卡支持 ROCm,Mac 用 M 系列芯片的 Metal 加速。有显卡和没显卡,速度差好几倍。


部署前准备

先确认你的设备能不能跑:

最低配置:

  • 内存:4GB(跑 1B-3B 小模型)
  • 存储:10GB 空闲空间
  • 系统:Linux / macOS 12+ / Windows 10+

推荐配置:

  • 内存:16GB+(跑 7B-14B 模型)
  • 显卡:NVIDIA 8GB+ 显存(GPU 加速)
  • 存储:50GB+ SSD

检查 NVIDIA 显卡驱动:

nvidia-smi

能看到显卡信息就说明驱动没问题。


Linux 部署(Ubuntu/Debian/CentOS)

Step 1:一键安装

官方提供了一键安装脚本,直接运行:

curl-fsSLhttps://ollama.com/install.sh|sh

脚本会自动:

  • 下载最新版本的 Ollama
  • 创建系统服务
  • 启动后台进程

Step 2:验证安装

ollama--version

看到版本号就说明安装成功了。

Step 3:启动服务

安装脚本会自动启动服务。如果没有,手动启动:

sudosystemctl start ollamasudosystemctlenableollama# 开机自启

Step 4:下载并运行模型

ollama run llama3.2

第一次运行会自动下载模型(约 2GB)。下载完成后直接进入对话界面。

Step 5:查看服务状态

sudosystemctl status ollama

看到active (running)就说明服务正常。


macOS 部署

Step 1:下载安装

有两种方式:

方式一:Homebrew(推荐)

brewinstallollama

方式二:官网下载

访问 https://ollama.com/download,下载 macOS 安装包,双击安装。

Step 2:运行模型

ollama run llama3.2

Mac M 系列芯片会自动用 Metal 加速,速度很快。

Step 3:后台运行(可选)

如果想让 Ollama 一直在后台运行:

ollama serve&

Windows 部署

Step 1:下载安装包

访问 Ollama 下载OllamaSetup.exe

Step 2:安装

按提示完成安装。

Step 3:验证安装

打开 PowerShell 或命令提示符:

ollama--version

Step 4:运行模型

ollama run llama3.2

Windows 版本会自动配置环境变量,可以直接在任何目录运行。


Docker 部署(可选)

如果你习惯用 Docker:

dockerrun-d-vollama:/root/.ollama-p11434:11434--nameollama ollama/ollama

带 GPU 支持:

dockerrun-d--gpus=all-vollama:/root/.ollama-p11434:11434--nameollama ollama/ollama

验证容器运行:

dockerexec-itollama ollama run llama3.2

常用模型推荐

Ollama 官方库里的模型,我推荐这几个:

模型大小适用场景最低内存
Qwen2.5-1.5B1.5B轻量任务、老设备2GB
Llama3.2-3B3B日常对话、代码4GB
Qwen2.5-7B7B综合性能最佳8GB
Llama3.1-8B8B通用场景8GB
Qwen2.5-14B14B复杂任务、推理16GB
Llama3.1-70B70B高精度任务40GB+

下载模型:

ollama pull qwen2.5:7b ollama pull llama3.2 ollama pull deepseek-r1:8b

查看已下载模型:

ollama list

删除模型:

ollamarm模型名

API 使用示例

Ollama 启动后,默认在http://localhost:11434提供 API 服务。

1. 对话接口

curlhttp://localhost:11434/api/chat-d'{ "model": "llama3.2", "messages": [ {"role": "user", "content": "你好,介绍一下你自己"} ] }'

2. 流式输出

curlhttp://localhost:11434/api/chat-d'{ "model": "llama3.2", "messages": [{"role": "user", "content": "讲个笑话"}], "stream": true }'

3. Python 调用

importrequests response=requests.post("http://localhost:11434/api/chat",json={"model":"llama3.2","messages":[{"role":"user","content":"用 Python 写个快速排序"}]})print(response.json()["message"]["content"])

4. OpenAI 兼容接口

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:11434/v1",api_key="ollama")response=client.chat.completions.create(model="llama3.2",messages=[{"role":"system","content":"你是一个 Python 专家"},{"role":"user","content":"解释一下装饰器"}])print(response.choices[0].message.content)

我踩过的坑(血泪教训)

坑 1:模型下载太慢

国内下载 HuggingFace 的模型经常超时。解决方法:

# 设置国内镜像exportOLLAMA_MODELS=/path/to/local/models# 或者用代理exportHTTP_PROXY=http://127.0.0.1:7890exportHTTPS_PROXY=http://127.0.0.1:7890

坑 2:显存不足

跑大模型时显存爆了。解决:

# 使用量化版本ollama run llama3.2:q4_0# 4bit 量化,显存减半# 或者限制 GPU 使用exportOLLAMA_NUM_GPU=1# 只用 1 张卡

坑 3:服务启动失败

端口被占用或者权限问题:

# 检查端口sudolsof-i:11434# 重启服务sudosystemctl restart ollama# 查看日志sudojournalctl-uollama-f

坑 4:模型响应慢

没有用 GPU 加速。检查:

# Linux 查看 GPU 使用情况nvidia-smi# Ollama 服务日志ollama serve2>&1|grep-igpu

看到CUDAMetal字样说明加速已启用。


进阶技巧

1. 自定义模型

创建Modelfile

FROM llama3.2 SYSTEM """ 你是一个专业的 Python 程序员。 回答要简洁,直接给代码示例。 """ PARAMETER temperature 0.7 PARAMETER top_p 0.9

创建模型:

ollama create my-coder-fModelfile ollama run my-coder

2. 多模型切换

# 列出所有模型ollama list# 切换到另一个模型ollama run qwen2.5:7b

3. 模型导出

ollamacpllama3.2 backup-llama3.2

4. 网页界面

配合 Open WebUI 使用:

dockerrun-d-p3000:8080\-eOLLAMA_BASE_URL=http://host.docker.internal:11434\--nameopen-webui\ghcr.io/open-webui/open-webui:main

然后访问http://localhost:3000就有网页版界面了。


参考链接:

  • Ollama 官网:https://ollama.com
  • 模型库:https://ollama.com/library
  • GitHub:https://github.com/ollama/ollama
  • 文档:https://github.com/ollama/ollama/tree/main/docs
http://www.jsqmd.com/news/458206/

相关文章:

  • 文献检索关键词用几个最合适?给你一个可操作的范围
  • Next 10 TCP并发,数据库
  • 排序算法的终极博弈:从复杂度推导到工程选型实战
  • keil破解时报TOOLS.INI_TOOLCHAIN NOT INSTALLED解决
  • 全维度测评主流视频会议软件,精选高效协作之选
  • 【稳健之道】第二篇:Mock 的艺术 —— 隔离外部世界的“混沌”
  • Python部署卡壳工业MES?Java+YOLOv11+Spring Boot 3.4完美对接PLC!
  • 搭了个AI快讯自动化系统,每天花15分钟看全球AI动态,竟遭Claude封号了
  • MetaNovas两轮融资,AI改写材料研发格局
  • 讲讲2026年学校制冷设备一站式采购批发,如何选择靠谱厂家 - 工业推荐榜
  • 一文吃透AI合规:算法备案、大模型备案、大模型登记!
  • 口碑好的中央空调厂家排名,浙江省有哪些值得选 - mypinpai
  • KIHU快狐|75寸落地全面屏广告机高清展示教学会议信息发布终端
  • 大数据基于Python的大模型岗位人才需求可视化分析
  • 什么是 Java 的 Timer?
  • 写给技术管理者的低代码手册系列文章(8)——第二部分:低代码的概念、价值与发展现状(第四章)
  • 别等着被优化:DevOps 工程师转型 AI 工程师,为什么反而更有优势?
  • 上海理查德米勒机芯异响、震动问题测评解析 - 时光修表匠
  • 2026年3月安徽四柱液压机/压力机/折弯机/液压机/冲床公司推荐:行业变局下的选型逻辑与头部企业解码 - 2026年企业推荐榜
  • 永磁同步电机 滑膜观测器参数识别Matlab/simulink仿真 包括转动惯量 阻尼系数 负...
  • 2026澳洲最好的证券公司求职笔试辅导在哪里:独家面经(必看) - Matthewmx
  • 成套电力接地线,一站式配齐施工检修更高效 - 非研科技
  • 政府创新采购数据库(2016-2024)
  • 2026陕西西安AI人工智能培训+视频剪辑培训哪家强?达内优创综合实力稳居第一(附数据分析/Java/云计算运维课程) - 深度智识库
  • 天虹提货券回收避坑指南:教你快速辨别正规平台 - 可可收
  • 直流变频冷干机工厂
  • HoRain云--二叉树遍历全解析:数据结构核心指南
  • 2026年热门的氨基酸洗面奶厂家推荐:氨基酸洗面奶实力工厂推荐 - 品牌宣传支持者
  • 苹果CMSV10 花心视频二开模板 视频网站源码可封装双端 APP-ym7K
  • 太强了!Python+Excel真的是神仙组合,值得你通宵看完!