当前位置：首页 > news >正文

本地部署大模型实战，用 Ollama 给 VS Code 装上免费 Copilot

news 2026/6/30 11:16:19

把大模型装进本地：打造零延迟的 VS Code 编程搭档

对于程序员来说，代码隐私和响应速度永远是两个绕不开的痛点。云端的 Copilot 虽然方便，但把核心业务逻辑上传到第三方服务器总让人心里打鼓；而本地部署大模型又常常因为配置繁琐、显存不足而劝退。如果你手头有一台搭载 AMD Ryzen AI（Strix Halo 架构）的笔记本，或者任何配备 Radeon GPU 的设备，那么这套“本地化 + 自动化”的工作流绝对是为你量身定做的。

今天不聊虚的理论参数，直接上手实操。我们将利用Ollama作为轻量级后端服务，配合VS Code的Continue插件，搭建一个完全离线、数据不出本机、且能充分利用 GPU 算力的智能编程环境。

第一步：让 Ollama 在后台“静默”运行

很多初学者习惯在终端里直接敲ollama run来对话，但这对于集成到 IDE 中来说并不是最佳方案。我们需要的是 Ollama 作为一个稳定的后台服务（Daemon）一直运行，随时等待 VS Code 的调用。

在 Windows 环境下，安装好 Ollama 后，它通常会自动注册为系统服务。但为了确保它能正确识别并调用你的Radeon GPU进行加速，我们需要手动检查一下环境变量配置。Strix Halo 架构的统一内存优势巨大，但如果配置不当，模型可能会错误地跑在 CPU 上，导致速度慢如蜗牛。

打开 PowerShell（以管理员身份），输入以下命令检查当前服务状态：

Get-Serviceollama

如果服务正在运行，我们先停止它以进行配置调整：

Stop-Serviceollama

接下来是关键的一步：设置环境变量以强制启用 GPU 加速。虽然新版 Ollama 对 AMD 的支持已经很好，但在某些特定驱动版本下，显式指定监听地址和确保 GPU 可见性是更稳妥的做法。在 PowerShell 中执行：

# 设置 Ollama 监听所有本地请求$env:OLLAMA_HOST ="127.0.0.1:11434"# 确保没有禁用 GPU 的变量（如有 OLLAMA_NO_GPU 需移除）# 对于部分 AMD 显卡，可能需要指定可见设备，通常默认即可识别# 启动服务ollama serve

注：如果你希望它开机自启且无需每次手动敲命令，可以在系统环境变量中永久添加OLLAMA_HOST，或者直接依赖安装程序自带的服务配置，通常默认配置已能良好支持 Radeon 显卡。

此时，Ollama 已经在后台静默运行了。你可以打开浏览器访问http://127.0.0.1:11434，看到 “Ollama is running” 的字样，就说明服务就绪。

第二步：拉取适合编程的模型

既然是写代码，模型的选择至关重要。通用的聊天模型在代码逻辑上往往不够严谨。推荐尝试Qwen2.5-Coder系列或Llama 3系列，它们在代码生成和理解上表现优异。

在终端中输入以下命令拉取一个 7B 参数的 coder 模型（兼顾速度与智能，适合大多数开发场景）：

ollama pull qwen2.5-coder:7b

如果你的内存充裕（32GB 及以上），完全可以尝试 14B 甚至 32B 的版本，Strix Halo 架构的大内存带宽能让这些大模型跑得相当流畅。

第三步：VS Code 无缝接入 Continue 插件

服务搭好了，模型有了，现在要让它们在你的编辑器里“活”过来。

打开 VS Code，进入扩展商店（Ctrl+Shift+X）。
搜索Continue并安装。这是一个开源的 AI 编程助手插件，完美支持本地模型。
安装完成后，点击左侧侧边栏的 Continue 图标。
首次使用时，它会引导你选择模型提供商。请选择Ollama。
在下拉菜单中，你应该能看到刚才拉取的qwen2.5-coder:7b。如果没有，点击“刷新”或手动输入模型名称。

此时，试着在对话框里问它：“如何用 Python 实现一个线程安全的单例模式？”如果它能秒回且代码规范，恭喜你，本地 Copilot 已经成型了。

第四步：精细化配置：平衡速度与上下文

默认的配置文件可能无法满足所有需求。比如，处理大型遗留代码文件时，我们需要更大的上下文窗口（Context Window）；而在日常补全时，我们更看重低延迟。

点击 Continue 插件右上角的齿轮图标，打开config.json配置文件。我们可以手动微调参数，以获得最佳体验。以下是一份针对本地开发的推荐配置示例：

{"models":[{"title":"Qwen Coder Local","provider":"ollama","model":"qwen2.5-coder:7b","apiBase":"http://127.0.0.1:11434","contextLength":8192,"maxTokens":2048,"template":{"chat":"{{system}}\n{{history}}\n{{user}}","completion":"{{prompt}}"}}],"tabAutocompleteModel":{"title":"Qwen Coder Autocomplete","provider":"ollama","model":"qwen2.5-coder:7b","apiBase":"http://127.0.0.1:11434","contextLength":4096},"embeddings":[]}

在这个配置中，我们做了几个关键设定：

contextLength: 设置为 8192。这意味着模型可以“记住”约 8000 个 token 的对话历史或代码上下文。对于大多数函数级的重构和解释，这个长度绰绰有余，且不会显著增加首字延迟。如果你需要分析整个项目的架构，可以将其调大到 16384 或更高，前提是显存足够。
tabAutocompleteModel: 单独配置了一个用于 Tab 键自动补全的模型实例。这里将上下文长度设为 4096，以保证在敲击键盘时能获得毫秒级的响应速度，避免打断心流。

保存文件后，插件会自动重载配置。现在，当你编写代码时，Continue 会根据当前文件内容提供行内补全；选中一段复杂代码右键选择"Explain"，它也能立刻给出清晰的逻辑解析。