当前位置：首页 > news >正文

无GPU本地运行Qwen3.5：OpenClaw+Ollama轻量部署实战

news 2026/6/21 20:45:28

1. 项目概述：为什么“无GPU本地跑Qwen3.5”这件事值得认真对待

你有没有过这种体验：想在自己笔记本上试试最新发布的Qwen3.5模型，但点开Hugging Face页面一看——显存要求24GB VRAM起步，模型权重动辄8GB+，下载要等两小时，加载报错“CUDA out of memory”？或者更现实一点：公司内网完全断外网，连HF都打不开，更别说调用API；又或者你只是个普通用户，手头只有台i5-1135G7 + 16GB内存的轻薄本，连独立显卡都没有。这时候，“本地离线部署AI大模型”就不是一句技术口号，而是刚需——它意味着你能真正把模型握在自己手里：数据不上传、响应不依赖网络、推理过程全程可控、调试成本趋近于零。

而标题里这串组合——OpenClaw + Ollama + Qwen3.5:cloud / Qwen3:0.6b——不是随意堆砌的关键词，它代表了一条已被反复验证、真正落地可行的“零GPU轻量级本地大模型工作流”。我从去年底开始在三类典型设备上实测这条链路：一台2021款MacBook Air（M1芯片，8GB统一内存）、一台群晖DS923+（Intel Celeron J4125，8GB RAM）、还有一台Windows 11台式机（i5-10400，16GB DDR4，核显UHD630）。三台设备均未配备任何独立GPU，全部靠CPU+内存完成模型加载与推理，且Qwen3:0.6b在M1 Air上实测token生成速度稳定在3.2 token/s，Qwen3.5:cloud在群晖上也能完成完整对话轮次（非流式），延迟控制在8秒内。这不是理论值，是每天真实跑着写周报、整理会议纪要、辅助代码补全的实际产出。

这里需要立刻划清一个关键认知边界：“无需GPU”不等于“性能妥协到不可用”，而是通过模型量化、运行时优化、内存调度策略三重压缩，在CPU资源约束下找到可用性与响应速度的平衡点。Qwen3:0.6b本质是Qwen3系列中专为边缘端精简的版本，参数量仅约6亿，FP16精度下模型文件仅1.2GB；而Qwen3.5:cloud则是阿里官方发布的云优化版，针对Ollama做了原生适配，支持GGUF量化格式，可直接加载Q4_K_M级别量化模型（体积压缩至480MB，精度损失<1.2%）。OpenClaw则扮演“智能代理层”角色——它不参与模型推理，而是将用户自然语言指令解析为结构化动作（比如“查本地PDF里的合同金额”“从Excel第3列提取邮箱”），再调用Ollama提供的本地API完成语义理解，最后把结果组装成可执行操作。整套流程绕开了GPU依赖，也避开了云端API的隐私与成本陷阱。

所以这篇教程的核心价值，不是教你“怎么装软件”，而是帮你建立一套可复用、可审计、可嵌入日常工作的本地AI生产力闭环。它适合三类人：第一类是IT运维/数据工程师，需要在隔离网络中快速验证大模型能力；第二类是内容创作者/研究员，追求数据主权与响应确定性；第三类是开发者，想基于本地模型构建私有Agent应用，但受限于硬件预算。接下来所有内容，都围绕这个目标展开——每一步配置都有明确意图，每个参数选择都有实测依据，每一处坑我都替你踩过，且记录了完整回溯路径。

2. 技术栈选型逻辑与底层原理拆解

2.1 为什么是Ollama而不是Llama.cpp或Text Generation WebUI？

很多人看到“无GPU部署”，第一反应是Llama.cpp——毕竟它以CPU推理高效著称。但实际落地时，Llama.cpp存在三个硬伤：一是模型加载需手动转换GGUF格式，Qwen3.5官方未提供现成GGUF包，自行转换需额外安装Python环境+transformers+llama-cpp-python，对新手极不友好；二是缺乏统一模型管理机制，每次换模型都要重新指定路径、参数、context length，配置分散难维护；三是没有标准化API接口，想让OpenClaw调用它，得自己写一层HTTP wrapper，增加故障点。

Ollama的优势恰恰卡在这些痛点上：它内置了完整的模型拉取、存储、加载、API服务一体化流程。你执行ollama run qwen3:0.6b，它会自动从官方仓库（或你配置的镜像源）下载预量化模型，解压到~/.ollama/models，启动一个监听127.0.0.1:11434的REST API服务，所有交互通过标准HTTP POST完成。更重要的是，Ollama原生支持Qwen系列模型的tokenizer对齐——Qwen3使用的是QwenTokenizer，与LlamaTokenizer存在分词差异，Ollama已内置适配，而Llama.cpp需手动patch tokenizer文件，稍有不慎就会导致中文乱码或输出截断。

我们实测对比过同一台MacBook Air上Qwen3:0.6b的加载耗时：

Llama.cpp（手动GGUF转换+自建API）：首次加载47秒，后续热加载22秒，API响应平均延迟1.8秒
Ollama（官方qwen3:0.6b镜像）：首次加载31秒，后续热加载14秒，API响应平均延迟1.3秒

差距看似不大，但Ollama省去了模型转换、API封装、错误重试等至少5个手动环节。对非专业开发者而言，这节省的是数小时调试时间，而非单纯几秒延迟。

2.2 OpenClaw为何不可替代？它和LangChain、Dify的本质区别

OpenClaw常被误认为是“另一个LangChain”，这是最大误区。LangChain是开发框架，核心价值在于连接各种LLM、工具、记忆模块，但它本身不解决“如何让模型理解并执行具体任务”——你需要自己写Prompt Engineering、定义Tool Schema、处理function calling返回格式。Dify则定位为低代码平台，适合快速搭建Web界面，但所有逻辑运行在服务端，无法满足“纯离线”需求。

OpenClaw的设计哲学完全不同：它是一个面向终端用户的技能执行引擎。它的输入不是原始Prompt，而是用户自然语言指令（如“把桌面上‘销售报表.xlsx’里B列所有数字加5%”）；输出不是文本，而是可执行的操作指令（如{"action": "excel_modify", "file": "销售报表.xlsx", "column": "B", "operation": "multiply", "factor": 1.05}）。这个过程依赖两个核心技术：

Skill Registry机制：OpenClaw预置了37个常用技能（excel_modify、pdf_extract、web_search、code_debug等），每个技能对应一个Python函数，函数内部封装了pandas、PyPDF2、requests等库的具体调用逻辑；
LLM-as-a-Judge范式：它不把LLM当生成器，而是当“决策裁判”。用户指令先被送入本地Qwen模型，模型只输出JSON格式的技能调用请求（严格限定schema），OpenClaw校验JSON合法性后，才执行对应函数。这彻底规避了幻觉风险——模型永远不能直接操作文件系统，只能“提议”操作。

我们曾用同一份测试集（50条含多步骤的办公指令）对比效果：

LangChain+Qwen3:0.6b：准确率68%，主要失败在分步指令混淆（如“先筛选再排序”被合并为单步）；
Dify（本地部署版）：准确率72%，但需额外配置PostgreSQL+Redis，启动服务耗时2分17秒；
OpenClaw+Ollama：准确率91%，且从指令输入到结果返回全程在本地完成，无外部依赖。

这个差距源于设计目标的根本不同：LangChain/Dify服务于“构建AI应用”，OpenClaw服务于“执行AI任务”。

2.3 Qwen3.5:cloud与Qwen3:0.6b的定位差异与协同逻辑

标题中同时出现Qwen3.5:cloud和Qwen3:0.6b，容易让人困惑“到底该用哪个”。其实它们是互补关系，而非替代关系：

Qwen3:0.6b是基础能力层，主打“快、小、稳”。它在CPU上加载速度快（MacBook Air实测12秒完成warmup），内存占用峰值仅3.2GB，适合高频调用、低延迟场景，比如实时代码补全、会议语音转文字摘要。但它对长文档理解、复杂逻辑推理能力有限，context length仅4K tokens；
Qwen3.5:cloud是增强能力层，主打“准、深、广”。它是Qwen3.5的云优化版本，context length提升至32K tokens，且针对Ollama做了指令微调（instruction-tuned），对“请按以下格式输出JSON”这类指令遵循率高达99.2%（我们用1000条结构化输出测试集验证）。但它体积更大（Q4_K_M量化后480MB vs 0.6b的1.2GB），加载耗时多8秒，内存占用峰值达5.1GB。

实际工作流中，我们采用双模型协同策略：

日常轻量任务（如邮件草稿润色、待办事项提取）默认调用Qwen3:0.6b，响应快、资源省；
遇到复杂任务（如分析10页PDF合同条款、对比3个Excel表格差异）时，OpenClaw自动触发模型切换协议，向Ollama发送/api/chat请求时指定model=qwen3.5:cloud，并附带keep_alive=5m参数防止模型被自动卸载。

这种策略让单台设备既能享受小模型的敏捷性，又能获得大模型的深度能力，且切换过程对用户完全透明——你只需说“帮我分析这份合同”，OpenClaw会根据指令复杂度自动选择最优模型。

3. 全流程实操：从零开始搭建可运行环境

3.1 环境准备与基础依赖安装（Windows/macOS/Linux通用）

无论你用什么系统，第一步必须确认内存容量与交换空间配置。Qwen3:0.6b最低需8GB物理内存，Qwen3.5:cloud建议12GB以上。很多用户卡在第一步，不是软件装不上，而是系统没给足“呼吸空间”。

Windows用户重点操作：

关闭Windows Defender实时防护（临时）：设置→更新与安全→Windows安全中心→病毒和威胁防护→管理设置→关闭“实时保护”。Ollama加载模型时会产生大量磁盘读写，Defender会误判为恶意行为并拦截；
扩展页面文件（虚拟内存）：右键“此电脑”→属性→高级系统设置→性能→设置→高级→虚拟内存→更改→取消勾选“自动管理”，选择C盘→自定义大小→初始大小设为10240MB，最大值设为20480MB→设置→确定。重启生效。这是Windows下CPU推理最易被忽略的关键步骤，缺此一步，Qwen3.5:cloud加载到90%会因内存不足崩溃；
安装Visual C++ Redistributable for Visual Studio 2015-2022（x64版），Ollama Windows版依赖此运行库，缺失会导致ollama.exe启动即退出。

macOS用户重点操作：

检查Rosetta 2状态：M1/M2芯片需确保Rosetta 2已安装。打开终端执行softwareupdate --install-rosetta，若提示已安装则跳过；
调整内存映射限制：macOS默认vm.max_map_count较低，影响Ollama内存分配。执行sudo sysctl -w vm.max_map_count=262144，并写入/etc/sysctl.conf永久生效（需创建该文件）；
关闭SIP（系统完整性保护）非必需，但若遇到Operation not permitted错误，需重启进恢复模式，执行csrutil disable，完成后重启。注意：仅在必要时操作，日常使用建议保持SIP开启。

Linux用户（以Ubuntu 22.04为例）重点操作：

更新内核参数：编辑/etc/sysctl.conf，添加三行：
```
vm.swappiness=10 vm.vfs_cache_pressure=50 kernel.pid_max=65536
```
执行sudo sysctl -p生效。其中swappiness=10强制系统优先使用物理内存而非swap，避免模型加载时频繁换页拖慢速度；
安装libglib2.0-0：sudo apt install libglib2.0-0，Ollama Linux版依赖此库，缺失会导致libglib-2.0.so.0: cannot open shared object file错误；
创建专用用户（推荐）：sudo adduser ollama-user，并加入docker组（若用Docker部署），避免root权限运行带来的安全风险。

提示：所有系统均需确保时间同步。执行timedatectl status检查NTP是否启用，若显示NTP service: inactive，则运行sudo timedatectl set-ntp true。时间偏差超过5分钟会导致Ollama证书验证失败，表现为x509: certificate has expired or is not yet valid错误。

3.2 Ollama安装与国内镜像源配置（解决下载慢的核心方案）

Ollama官方下载源位于美国，国内直连速度普遍低于100KB/s，下载一个480MB的Qwen3.5:cloud模型需4小时以上。这不是网络问题，而是CDN节点缺失导致的路由绕行。解决方案是双轨制镜像配置：既更换Ollama自身的模型拉取源，又替换其底层依赖的容器镜像源。

第一步：安装Ollama客户端

Windows：访问https://ollama.com/download 下载OllamaSetup.exe，务必选择“Custom Install”，在安装路径选择框中手动输入D:\ollama（或其他非系统盘路径）。原因：Ollama默认装在C:\Users\XXX\AppData\Local\Programs\Ollama，路径含空格和特殊字符，后续OpenClaw调用时易出错；
macOS：终端执行curl -fsSL https://ollama.com/install.sh | sh，安装后执行ollama --version验证；
Linux：执行curl -fsSL https://ollama.com/install.sh | sh，安装后执行sudo usermod -a -G docker $USER，然后重启系统使组生效。

第二步：配置国内模型镜像源
Ollama 0.3.0+版本支持OLLAMA_HOST环境变量覆盖默认API地址，但更稳妥的方式是修改其配置文件。找到Ollama配置目录：

Windows：%USERPROFILE%\AppData\Local\Ollama\config.json
macOS：~/Library/Application Support/Ollama/config.json
Linux：~/.ollama/config.json

用文本编辑器打开，将内容替换为：

{ "mode": "ollama", "host": "127.0.0.1:11434", "models": { "qwen3:0.6b": "https://mirrors.tuna.tsinghua.edu.cn/ollama/qwen3:0.6b", "qwen3.5:cloud": "https://mirrors.tuna.tsinghua.edu.cn/ollama/qwen3.5:cloud" } }

注意：清华镜像站已同步Ollama官方模型库，qwen3:0.6b和qwen3.5:cloud均为官方认证镜像，SHA256校验值与原站一致（我们已比对）。

第三步：加速底层容器镜像（关键！）
Ollama运行时会拉取ollama/ollama基础镜像，此镜像默认从Docker Hub拉取，同样受网络限制。需配置Docker国内镜像加速器：

Windows/macOS：Docker Desktop → Settings → Docker Engine → 在JSON中添加：
```
{ "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"] }
```
Linux：编辑/etc/docker/daemon.json，添加相同内容，然后执行sudo systemctl daemon-reload && sudo systemctl restart docker。

完成上述配置后，执行ollama run qwen3:0.6b，实测下载速度从86KB/s提升至12MB/s，480MB模型38秒完成下载。

注意：若执行ollama list显示模型状态为pulling但长时间不动，大概率是DNS污染。此时需手动刷新DNS缓存：Windows执行ipconfig /flushdns，macOS执行sudo dscacheutil -flushcache; sudo killall -HUP mDNSResponder，Linux执行sudo systemd-resolve --flush-caches。

3.3 模型拉取、量化与本地加载验证

Ollama支持多种量化级别，但并非所有级别都适配Qwen系列。我们经过23轮实测（覆盖Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q6_K, Q8_0共6种量化），得出以下结论：

量化级别	模型体积	加载耗时（MacBook Air）	内存峰值	中文理解准确率*	推理速度（token/s）
Q2_K	290MB	8.2s	2.1GB	83.6%	4.1
Q3_K_M	360MB	10.5s	2.6GB	88.2%	3.8
Q4_K_M	480MB	12.3s	3.2GB	92.7%	3.2
Q5_K_M	590MB	14.7s	3.8GB	94.1%	2.9
Q6_K	710MB	17.1s	4.5GB	95.3%	2.5
Q8_0	1.2GB	22.4s	5.8GB	96.8%	1.8

*注：准确率测试基于CLUEbenchmark中文任务集子集，包含阅读理解、情感分析、命名实体识别三类任务，每类100题。

Q4_K_M是黄金平衡点：它在体积、速度、精度三者间取得最佳折衷。Q5_K_M精度提升1.4%，但速度下降10.3%，对日常办公场景收益有限；Q8_0精度最高，但加载耗时翻倍，且内存占用超5GB，对8GB内存设备不友好。因此，教程默认采用Q4_K_M量化。

执行拉取命令：

# 拉取Qwen3:0.6b（Q4_K_M量化） ollama pull qwen3:0.6b # 拉取Qwen3.5:cloud（官方已提供Q4_K_M版本） ollama pull qwen3.5:cloud

验证模型是否正常加载：

# 查看已安装模型 ollama list # 启动交互式会话（测试Qwen3:0.6b） ollama run qwen3:0.6b # 在交互界面输入测试指令 >>> 你好，我是程序员，请用Python写一个计算斐波那契数列前10项的函数。

若返回正确Python代码，说明模型加载成功。若卡住或报错failed to load model，请检查：

是否已按3.1节配置虚拟内存（Windows）或vm.max_map_count（macOS）；
模型文件是否完整：进入~/.ollama/models/blobs/，查找以sha256-开头的文件，用sha256sum校验其哈希值是否与Ollama官网公布的值一致（官网模型页有“Verify”按钮可查看）；
防火墙是否阻止11434端口：临时关闭防火墙测试，若恢复正常，则需在防火墙中放行该端口。

3.4 OpenClaw安装与技能配置（让模型真正“干活”）

OpenClaw的安装核心在于技能（Skill）的注册与权限配置。它不像普通软件装完就能用，必须告诉它“你能操作哪些文件”“能访问哪些目录”。

安装步骤：

访问GitHub Releases页面（https://github.com/openclaw/openclaw/releases），下载最新版openclaw-vX.X.X.zip（截至2024年6月最新为v0.8.3）；
解压到非系统盘路径，如D:\openclaw（Windows）或~/openclaw（macOS/Linux）；

进入解压目录，编辑config.yaml文件，重点配置以下字段：

# 指定Ollama API地址（必须与Ollama实际监听地址一致） ollama_api_url: "http://127.0.0.1:11434/api/chat" # 设置工作目录白名单（OpenClaw只允许在此目录下操作文件） allowed_directories: - "D:/Documents" # Windows示例 - "D:/Projects" # Windows示例 - "/Users/yourname/Documents" # macOS示例 - "/home/yourname/Downloads" # Linux示例 # 启用技能（取消注释需要的技能） skills: excel_modify: true pdf_extract: true web_search: false # 离线环境禁用 code_debug: true

关键细节：allowed_directories必须是绝对路径，且路径末尾不能加斜杠。若写成D:/Documents/，OpenClaw会拒绝访问该目录，报错Directory not in allowed list。

启动OpenClaw：
- Windows：双击start.bat（会自动启动命令行窗口）；
- macOS/Linux：终端进入openclaw目录，执行./start.sh；

启动后，你会看到类似日志：

[INFO] OpenClaw v0.8.3 started on http://127.0.0.1:8000 [INFO] Loaded 37 skills from ./skills/ [INFO] Ollama API connected: http://127.0.0.1:11434 [INFO] Allowed directories: ['D:/Documents', 'D:/Projects']

此时访问http://127.0.0.1:8000，即可打开OpenClaw Web界面。

技能权限实操验证：
在Web界面输入指令：“把D:\Documents\test.xlsx里A列所有单元格值乘以2”，OpenClaw会返回：

{ "action": "excel_modify", "file": "D:/Documents/test.xlsx", "column": "A", "operation": "multiply", "factor": 2 }

然后自动执行pandas操作，生成新文件test_modified.xlsx。若提示File not found，请确认：

test.xlsx确实在D:\Documents目录下；
config.yaml中allowed_directories已包含D:/Documents（注意斜杠方向）；
文件未被其他程序（如Excel）独占锁定。

4. 核心功能实现与进阶技巧

4.1 双模型动态切换：让轻量与深度能力无缝衔接

OpenClaw默认只调用一个模型，但实际工作中，我们需要根据任务复杂度智能切换。这需要修改OpenClaw的router.py文件（位于./src/core/目录），注入模型选择逻辑。

修改步骤：

备份原文件：cp ./src/core/router.py ./src/core/router.py.bak；
编辑./src/core/router.py，找到def route_to_model(self, query: str) -> str:函数；

替换其内部逻辑为：

def route_to_model(self, query: str) -> str: # 简单规则：指令长度<50字且不含“分析”“对比”“总结”等关键词，用小模型 if len(query) < 50 and not any(word in query for word in ["分析", "对比", "总结", "详细", "全面", "深度"]): return "qwen3:0.6b" # 含PDF/Excel/Word等文件操作关键词，且指令长度>50字，用大模型 if ("pdf" in query.lower() or "excel" in query.lower() or "word" in query.lower()) and len(query) > 50: return "qwen3.5:cloud" # 默认用小模型 return "qwen3:0.6b"

重启OpenClaw服务。

效果验证：

输入“写个hello world”，OpenClaw调用qwen3:0.6b，响应时间1.2秒；
输入“分析D:\Documents\contract.pdf里的违约责任条款，并对比附件2中的赔偿标准”，OpenClaw自动切换至qwen3.5:cloud，先调用pdf_extract技能提取文本，再送入大模型分析，全程耗时7.8秒。

实操心得：我们曾尝试用LLM自身判断复杂度（即让Qwen3:0.6b先输出“此任务需大模型处理”），但准确率仅76%。规则引擎虽显笨拙，但在离线环境下更可靠——它不依赖模型推理，只做字符串匹配，100%可预测。

4.2 离线Web搜索技能改造（无网络时的“伪联网”方案）

标题中提到“Qwen3.5:cloud”，其名称中的“cloud”易被误解为需联网。实际上，这是指该版本在云环境中训练时强化了联网搜索指令的理解能力。但在纯离线环境，我们可以改造web_search技能，使其变为“本地知识库检索”。

改造步骤：

在./skills/目录下新建local_search.py文件；

编写代码：

import os import re from typing import Dict, Any def execute(params: Dict[str, Any]) -> Dict[str, Any]: # 从allowed_directories中读取所有txt/md文件 docs = [] for directory in params.get("allowed_dirs", []): for root, _, files in os.walk(directory): for file in files: if file.endswith(('.txt', '.md')): with open(os.path.join(root, file), 'r', encoding='utf-8') as f: content = f.read()[:2000] # 截取前2000字符防爆内存 docs.append(f"文件:{file}\n内容:{content}") # 简单关键词匹配（生产环境建议替换为BM25或Sentence-BERT） query = params.get("query", "") results = [] for doc in docs: if re.search(query, doc, re.IGNORECASE): results.append(doc[:500] + "...") return {"results": results[:3]}

在config.yaml中启用该技能：
```
skills: local_search: true
```
在Web界面输入“查找合同模板中的付款方式”，OpenClaw会自动扫描allowed_directories下所有txt/md文件，返回匹配片段。

此方案虽不如Elasticsearch强大，但零依赖、零配置，完美契合离线场景。我们实测在10GB文本库（约2万份文档）中，平均检索耗时2.3秒。

4.3 性能调优：CPU推理速度提升37%的实操参数

Ollama默认参数为通用场景优化，但针对Qwen系列，我们通过/api/chat请求体中的options字段可深度调优。以下是经216次AB测试验证的有效参数组合：

{ "model": "qwen3:0.6b", "messages": [{"role": "user", "content": "你的指令"}], "options": { "num_ctx": 4096, "num_predict": 512, "temperature": 0.2, "top_k": 40, "top_p": 0.9, "repeat_penalty": 1.1, "num_thread": 6 } }

参数详解：

num_thread: 强制指定CPU线程数。Qwen3:0.6b在6线程时达到吞吐峰值，再多线程反而因上下文切换产生损耗。实测i5-10400（6核12线程）设为6时，token/s达3.2；设为12时降至2.7；
temperature: 降低至0.2抑制随机性，办公场景需确定性输出，过高会导致同指令多次输出不一致；
repeat_penalty: 设为1.1而非默认1.0，有效减少“的的的”“是是是”等重复词，中文文本质量提升显著；
num_ctx: Qwen3:0.6b原生支持4K context，设高于此值无意义，反而增加内存压力。

应用方式：

若通过OpenClaw Web界面调用，需修改./src/core/llm_client.py，在generate函数中注入上述options；
若直接调用Ollama API，构造POST请求时在body中加入options字段即可。

注意：num_thread参数仅在Linux/macOS生效，Windows需通过环境变量OMP_NUM_THREADS=6设置，否则无效。这是Windows下OpenMP线程库的特殊要求。

5. 常见问题排查与独家避坑指南

5.1 模型加载失败的12种原因与对应解法

我们整理了过去三个月用户提交的327个issue，将模型加载失败归为12类，按发生频率排序如下：

排名	现象	根本原因	解决方案
1	`failed to load model: mmap failed`	内存不足或虚拟内存未配置	Windows：按3.1节扩展页面文件；macOS：执行`sudo sysctl -w vm.max_map_count=262144`
2	`error pulling model: Get "https://...": dial tcp 104.18.120.11:443: i/o timeout`	DNS污染或镜像源配置错误	刷新DNS缓存 + 检查`config.json`中`models`字段URL是否为清华镜像站地址
3	`model not found: qwen3:0.6b`	Ollama版本过低（<0.3.0）不支持Qwen3	升级Ollama：Windows重装最新版，macOS/Linux执行`curl -fsSL https://ollama.com/install.sh
4	`permission denied: /Users/xxx/.ollama/models`	macOS SIP阻止写入	重启进恢复模式，执行`csrutil disable`，重启后重试
5	`Error: could not create model: invalid model name`	模型名含非法字符（如空格、中文）	严格使用`qwen3:0.6b`，勿写成`qwen3 0.6b`或`千问3.5`
6	`failed to load model: GGUF tensor 'token_embd.weight' has wrong shape`	模型文件损坏或版本不匹配	删除`~/.ollama/models/blobs/sha256-*`对应文件，重新`ollama pull`
7	`Ollama server is not running`	服务未启动或端口被占用	执行`ollama serve`手动启动；检查11434端口：`netstat -ano \| findstr :11434`（Win）或`lsof -i :11434`（macOS/Linux）
8	`context length exceeded`	输入文本超4096 tokens	启用`num_ctx: 4096`参数 + 对长文本做预切分（如PDF按页处理）
9	`SSL certificate verify failed`	系统时间错误	执行`timedatectl set-ntp true`（Linux）或同步Windows时间
10	`ImportError: DLL load failed`	Visual C++ Redistributable缺失	Windows安装VC++2015-2022 x64运行库
11	`command not found: ollama`	PATH未添加Ollama路径	Windows：系统环境变量PATH添加`C:\Users\XXX\AppData\Local\Programs\Ollama`；macOS：`echo 'export PATH="/usr/local/bin:$PATH"' >> ~/.zshrc`
12	`Failed to connect to 127.0.0.1:11434`	防火墙拦截	临时关闭防火墙测试，确认后在防火墙中放行1143