当前位置：首页 > news >正文

Windows本地部署Qwen3-14B实战指南：Ollama+Open WebUI零Docker方案

news 2026/6/21 11:50:31

1. 项目概述：为什么在 Windows 上本地跑 Qwen3-14B 不再是“玄学”

你是不是也经历过这样的场景：看到别人在 Mac 或 Linux 上几行命令就拉起一个 14B 级别的大模型，界面清爽、响应流畅，自己点开 Windows 终端却卡在ollama run qwen3:14b—— 卡住、报错、显存溢出、CUDA 版本不匹配、模型下载一半中断、Open WebUI 打不开 localhost:3000……最后默默关掉 PowerShell，打开浏览器搜“ollama 下载太慢怎么办”“windows 安装 docker”“redis windows 下载”，结果跳转到一堆广告站、失效链接、需要翻墙的 GitHub Release 页面，甚至误点进某个“国产 Office 免费版 Windows”推广页。这不是你的问题，是 Windows 本地部署大模型生态长期被低估、被简化、被错误归因为“Windows 不适合 AI”的结果。

但现实是：Qwen3-14B 是当前中文理解与生成能力最强的开源模型之一，它不需要联网调用 API，不上传数据，不依赖厂商服务，所有推理都在你自己的 D 盘、RTX 4090 显卡、甚至一块闲置的 RTX 3060 笔记本上完成。而 Ollama + Open WebUI 这套组合，恰恰是目前 Windows 用户能落地的最轻量、最稳定、最贴近生产环境的私有大模型方案——它不依赖 Docker Desktop（避免 Windows WSL2 虚拟化层的性能损耗和配置陷阱），不强求 Redis 或 Elasticsearch（省去 Windows 下 redis-server 启动失败、端口冲突、服务注册失败等经典坑），也不需要手动编译 llama.cpp 或折腾 CUDA Toolkit 版本兼容性。它用的是 Ollama 原生 Windows 二进制（v0.7+ 已全面支持 DirectML 和 CUDA 12.x），搭配 Open WebUI 的纯前端架构（后端仅需一个轻量 Python FastAPI 服务），真正实现“下载即用、装完即跑”。

我过去三年在金融、政务、教育类客户现场部署过 87 个本地大模型节点，其中 63 个运行在 Windows 10/11 专业版设备上（含 21 台无独立显卡的 i7-11800H 笔记本）。Qwen3-14B 是我们验证过的、在 Windows 平台下首次实现 100% 中文长文本结构化提取 + 多轮对话记忆 + 本地知识库 RAG 响应延迟 < 3.2 秒的 14B 级模型。它不是玩具，是能写周报、审合同、查法规、生成 PPT 大纲、解析 PDF 表格的真实生产力工具。这篇教程不讲“Ollama 是什么”，不堆砌概念，只聚焦一件事：让你的 Windows 电脑，在 45 分钟内，从零开始，完整跑通 Qwen3-14B 的下载、量化加载、Web 界面访问、基础对话与文档问答全流程，且每一步都经我实测验证，适配 RTX 30/40 系列显卡、Intel Arc 核显、甚至无独显的 Win11 设备。

2. 整体设计思路：为什么放弃 Docker、WSL2、llama.cpp，而选 Ollama + Open WebUI

2.1 方案选型背后的三重现实约束

在 Windows 上部署 14B 模型，本质是在“硬件限制”“系统生态”“用户心智”三重夹缝中找最优解。我们曾对比过 5 种主流路径，最终锁定 Ollama + Open WebUI，原因非常具体：

Docker Desktop 路径被主动放弃：
很多教程默认推荐docker run -d -p 11434:11434 -v ollama:/root/.ollama -v models:/models --gpus all ollama/ollama，但在 Windows 上，这要求你必须开启 WSL2，而 WSL2 的 GPU 加速（尤其是 CUDA）在 Windows 11 23H2 后才稳定支持，且需手动安装 NVIDIA Container Toolkit for WSL，配置过程涉及修改/etc/wsl.conf、重启 WSL、验证nvidia-smi输出，失败率超 65%（我们内部测试数据）。更关键的是，Docker Desktop 本身会占用 1.2GB 内存常驻，对 16GB 内存笔记本极不友好。而原生 Ollama Windows 版直接调用DirectML（Win10/11 内置）或CUDA，绕过整个虚拟化层，显存利用率提升 37%，启动速度加快 5.2 倍（实测：RTX 4070 笔记本上，Ollama 原生启动耗时 1.8s，Docker 方式平均 9.4s）。
llama.cpp + webui 路径因维护成本过高被筛除：
llama.cpp 确实支持 Windows 原生编译，但 Qwen3-14B 的 GGUF 量化版本（如qwen3-14b.Q5_K_M.gguf）在 Windows 下加载时，常因BLAS库路径错误、OpenMP线程数冲突、CUDA与CLBlast混用导致崩溃。我们曾为某律所客户部署该方案，光是解决llama-server.exe在后台静默退出的问题就花了 11 小时——最终发现是 Windows Defender 实时扫描误杀了临时内存映射文件。而 Ollama 将所有底层依赖（包括llama.cpp的 Windows 专用构建）全部打包进单个ollama.exe，签名认证、防病毒白名单预置、进程守护机制完善，这是它能在政企环境落地的核心优势。
直接调用 HuggingFace Transformers 的方案被彻底排除：
transformers + accelerate虽灵活，但 Windows 下accelerate launch对torch.distributed的初始化极其脆弱，尤其在多显卡或混合 CPU/GPU 推理时，极易触发NCCL初始化失败或CUDA out of memory错误。更重要的是，Qwen3-14B 的flash_attn依赖在 Windows 上需手动编译，成功率不足 20%（PyPI 无预编译 wheel）。Ollama 则内置了针对 Qwen3 的flash attention优化补丁（v0.7.3+），无需用户干预。

提示：Ollama 的核心价值不是“简化命令”，而是“封装确定性”。它把模型加载、KV Cache 管理、CUDA 流调度、显存碎片整理、HTTP API 封装全部固化为可验证的二进制行为。你在 Windows 上执行ollama run qwen3:14b，得到的不是“可能成功”的结果，而是经过 127 次压力测试、覆盖 32 种显卡驱动版本的稳定输出。

2.2 为什么是 Qwen3-14B，而不是 Qwen2 或 Qwen3-8B

Qwen3 系列发布于 2024 年 7 月，相比 Qwen2，其核心升级在于三点：更强的中文长文本理解（128K 上下文实测通过率 99.2%）、原生支持 Tool Calling（无需额外微调即可调用计算器、代码解释器）、以及针对 Windows DirectML 的专项优化。我们在测试中发现，Qwen3-14B 在 Windows 上的推理吞吐量比 Qwen2-14B 高出 22%（相同 RTX 4080，batch_size=1，prefill + decode 总耗时），关键原因是其attention层新增了rope_theta动态缩放机制，大幅降低显存带宽压力。

至于为何不选 Qwen3-8B：虽然它启动更快、显存占用更低（RTX 3060 6GB 可勉强运行），但其在法律文书摘要、财务报表分析等任务上的准确率比 14B 版本低 14.7%（基于我们自建的 217 条中文专业测试集）。而 14B 版本在 RTX 4060 Ti 8GB 上已能稳定运行（需启用--num-gpu 1参数），在 RTX 4070 及以上显卡上，显存占用控制在 10.2GB 以内（使用qwen3:14b-q5_k_m量化版本），完全满足日常办公需求。

注意：Qwen3-14B 的官方 GGUF 量化版本由阿里云团队提供，已通过Ollama官方镜像源审核。不要使用第三方非官方 GGUF 文件，它们常因tokenizer.json编码错误或rope_freq_base参数错位导致中文乱码或 token 丢失。

2.3 Open WebUI 为何是唯一匹配的前端

市面上存在数十种 Ollama 前端（如AnythingLLM、Docker WebUI、Text Generation WebUI），但 Open WebUI（原 Ollama WebUI）是目前唯一满足 Windows 生产环境要求的方案，原因有三：

零依赖后端架构：它不依赖 Redis 缓存会话、不依赖 PostgreSQL 存储历史、不依赖 Elasticsearch 做向量检索。所有聊天记录以 SQLite 文件形式存储在C:\Users\<用户名>\AppData\Local\open-webui\下，单文件、免配置、可直接备份迁移。这对需要离线使用的政务、医疗、军工客户至关重要。
真正的 Windows 原生打包：Open WebUI 提供.exe安装包（v0.4.4+），双击即安装，自动注册 Windows 服务、创建桌面快捷方式、配置防火墙例外规则。相比之下，AnythingLLM需手动npm install、npm run build，在 Windows 上常因node-gyp编译失败而中断；Text Generation WebUI则强制要求 Python 3.10+ 和git，对普通用户极不友好。
RAG 集成深度适配：Open WebUI 的Knowledge Base模块原生支持ChromaDB（轻量向量库，Windows 下pip install chromadb一次成功），且其文件解析引擎（unstructured）已针对 Windows 路径分隔符（\vs/）做了特殊处理，能正确解析D:\Projects\Contract.pdf这类路径，而其他前端常在此处报FileNotFoundError。

3. 核心细节解析：Windows 环境准备与避坑清单

3.1 硬件与系统最低要求（实测有效，非官网纸面参数）

项目	最低要求	推荐配置	实测验证说明
操作系统	Windows 10 22H2（Build 19045+）	Windows 11 23H2（Build 22631+）	Windows 10 21H2 及更早版本无法加载 Qwen3 的`flash_attn`优化内核，会回退至慢速 CPU 模式；23H2 新增的`DirectML`2.12 版本对 Qwen3 的`rope`计算加速达 3.1 倍
CPU	Intel Core i5-8400 / AMD Ryzen 5 2600	Intel Core i7-11800H / AMD Ryzen 7 5800H	CPU 仅用于预填充（prefill）阶段，Qwen3-14B 在 i5-8400 上 prefill 耗时 8.2s（首 token），远高于显卡推理耗时，故 CPU 不是瓶颈，但需支持 AVX2 指令集（i3-8100 及以上均满足）
GPU（关键）	NVIDIA GTX 1060 6GB（CUDA 11.2+）	NVIDIA RTX 4060 Ti 8GB（CUDA 12.2+）	GTX 1060 可运行，但需启用`--num-gpu 1`且仅支持`q5_k_m`量化，响应延迟 > 8s；RTX 4060 Ti 可流畅运行`q6_k`量化，延迟稳定在 2.4~3.1s；AMD RX 7900 XTX 需使用`--gpu-layers 45`参数手动指定卸载层数，否则易触发显存泄漏
内存	32GB DDR4	64GB DDR5	Qwen3-14B 加载时需约 18GB 内存（模型权重 + KV Cache + 系统缓存），32GB 是硬门槛；若同时开启 Chrome、Office、微信，建议 48GB 起步
磁盘	120GB SSD 剩余空间	500GB NVMe SSD（推荐 D 盘）	Qwen3-14B 原始模型约 28GB，`q5_k_m`量化后约 10.2GB，Ollama 缓存目录（`.ollama\models`）默认在`C:\Users\<用户名>\.ollama`，强烈建议迁移到 D 盘（见 3.3 节）

提示：不要相信“RTX 3050 4GB 可运行”的说法。Qwen3-14B 的q5_k_m量化版本在加载时需至少 6.8GB 显存（含 KV Cache 预分配），RTX 3050 4GB 会直接触发CUDA out of memory并退出。实测最低显存门槛是 RTX 3060 12GB（笔记本版）或 RTX 4060 8GB（台式机版）。

3.2 NVIDIA 驱动与 CUDA 版本精准匹配表

Ollama 对 CUDA 的依赖是隐式的，但它会根据驱动版本自动选择可用的 CUDA 运行时。Windows 上最常踩的坑是“驱动太新”或“驱动太旧”：

NVIDIA 驱动版本	支持的 CUDA 版本	Ollama v0.7.3+ 行为	实测问题
535.98（2023.8 发布）	CUDA 12.2	✅ 完美支持，自动加载`cuda122`运行时	无
545.23（2023.11 发布）	CUDA 12.3	⚠️ 部分 RTX 4090 设备触发`cuInit`失败	降级至 535.98 即可解决
551.86（2024.4 发布）	CUDA 12.4	✅ 完美支持，`flash_attn`加速生效	无
536.67（2023.9 发布）	CUDA 12.2	⚠️ 在 Windows 11 23H2 上偶发`NVIDIA Container Runtime`冲突	重启 Windows 服务`NVIDIA Display Container LS`可缓解

操作步骤（务必执行）：

按Win + R输入dxdiag，确认“显示”选项卡中“驱动程序模型”为WDDM 3.1或更高；
访问 NVIDIA 驱动下载页，输入你的显卡型号，选择“Game Ready Driver”而非“Studio Driver”（后者对 AI 计算优化较少）；
下载后，安装时勾选“执行清洁安装”（Clean Installation），彻底清除旧驱动残留；
安装完成后，以管理员身份运行 PowerShell，执行：

nvidia-smi

确认输出中CUDA Version: 12.x字样清晰可见，且无Failed to initialize NVML错误。

注意：如果你的设备是笔记本（如 ROG 幻 16、拯救者 Y9000P），请务必在 BIOS 中将显卡模式设为Discrete Graphics（独显直连），而非Hybrid或Integrated。混合模式下，Ollama 会错误识别为核显，导致num_gpu参数失效。

3.3 Ollama 安装与 D 盘迁移（解决“ollama怎么装在d盘”痛点）

Ollama 官方安装包（OllamaSetup.exe）默认将模型缓存目录（.ollama\models）放在C:\Users\<用户名>\.ollama，这对 C 盘空间紧张的用户是灾难。而网上流传的“修改环境变量OLLAMA_MODELS”方法在 Windows 上无效（Ollama v0.7+ 已弃用该变量）。正确做法是：

步骤 1：下载并安装 Ollama

访问 Ollama 官网下载页（注意：不要使用任何“国内镜像源下载ollama”站点，它们常提供篡改版安装包，植入广告或挖矿脚本）；
下载OllamaSetup.exe（大小约 85MB），右键“以管理员身份运行”；
安装过程中，取消勾选“Add Ollama to PATH”（避免与后续手动配置冲突）；
安装完成后，不要立即运行ollama run，先执行步骤 2。

步骤 2：强制迁移模型目录到 D 盘

以管理员身份打开 PowerShell；
执行以下命令，停止 Ollama 服务并删除默认缓存：

net stop ollama Remove-Item -Recurse -Force "$env:USERPROFILE\.ollama"

New-Item -ItemType Directory -Path "D:\ollama\models" -Force New-Item -ItemType Directory -Path "D:\ollama\lib" -Force

创建符号链接（关键！）：

cmd /c "mklink /J `"$env:USERPROFILE\.ollama`" `"D:\ollama`""

此命令将C:\Users\<用户名>\.ollama目录透明映射到D:\ollama，Ollama 完全感知不到路径变化，所有ollama pull、ollama run命令照常工作，但实际文件写入 D 盘。

步骤 3：验证迁移成功

启动 Ollama 服务：

net start ollama

拉取一个小型模型测试：

ollama run tinyllama

检查D:\ollama\models目录下是否生成blobs\和manifests\子目录，且大小 > 100MB。

实操心得：我曾为某银行客户批量部署 37 台 Windows 终端，全部采用此符号链接方案。它比修改注册表或重装系统更安全，且在 Windows 更新后不会失效。唯一要注意的是，D:\ollama目录不能位于 NTFS 压缩卷或 BitLocker 加密卷上，否则 Ollama 会报Permission denied错误。

3.4 Open WebUI 安装与 Windows 服务配置

Open WebUI 官方提供.exe安装包（下载地址），但直接双击安装存在两个隐患：一是默认监听127.0.0.1:3000，无法从局域网其他设备访问；二是未配置开机自启，重启后需手动启动。

正确安装流程：

下载Open-WebUI-Setup-x64.exe（v0.4.4+），右键“以管理员身份运行”；
安装向导中，取消勾选“Launch Open WebUI after installation”；
安装完成后，按Win + R输入services.msc，找到Open WebUI服务，右键“属性” → “启动类型”设为“自动（延迟启动）”；
关键配置：编辑C:\Users\<用户名>\AppData\Local\open-webui\config.json，将"host": "127.0.0.1"改为"host": "0.0.0.0"，并确认"port": 3000未被占用（可用netstat -ano | findstr :3000检查）；
重启服务：

net stop "Open WebUI" net start "Open WebUI"

验证访问：

打开浏览器，访问http://localhost:3000，应看到 Open WebUI 登录页；
若需从手机或其他电脑访问，访问http://<你的WindowsIP>:3000（如http://192.168.1.100:3000）；
首次访问会提示设置管理员账号，密码务必牢记（无找回机制，重置需删db.sqlite3文件）。

提示：Open WebUI 的config.json中还有一个关键参数"ollama_base_url": "http://localhost:11434"，确保它与 Ollama 服务地址一致。Ollama 默认监听127.0.0.1:11434，无需修改。

4. 实操过程：Qwen3-14B 全流程部署与调优

4.1 模型拉取：解决“ollama下载太慢了”的终极方案

Ollama 官方镜像源（https://registry.ollama.ai）在国内直连速度常低于 50KB/s，且易因 DNS 污染中断。但绝不能使用所谓“ollama国内镜像源”——这些镜像大多未同步最新模型，且存在安全风险（2024 年 3 月曾曝出某镜像站分发的qwen2:7b模型被植入恶意 token）。正确解法是利用 Ollama 内置的--insecure模式 + 自定义 registry。

步骤：

创建自定义 registry 配置文件：
用记事本新建C:\Users\<用户名>\.ollama\config.json，内容如下：

{ "mode": "ollama", "registries": [ { "name": "aliyun", "url": "https://mirrors.aliyun.com/ollama/", "insecure": true } ] }

注意："insecure": true是必须的，因为阿里云镜像使用 HTTP（非 HTTPS），Ollama 默认拒绝；mirrors.aliyun.com/ollama/是阿里云官方提供的、经 Ollama 团队认证的镜像，同步延迟 < 2 小时。

清理旧缓存并拉取模型：

ollama rm qwen3:14b ollama pull qwen3:14b

实测：在北京联通 500M 宽带下，qwen3:14b（10.2GB）拉取时间从 3 小时 17 分缩短至 18 分钟 42 秒，平均速度 9.8MB/s。

模型版本选择指南：

qwen3:14b：原始 FP16 版本，需 ≥ 24GB 显存，仅推荐 RTX 4090 工作站；
qwen3:14b-q5_k_m：首选，平衡精度与速度，10.2GB，RTX 4060 Ti 及以上均可流畅运行；
qwen3:14b-q4_k_m：极致轻量，7.8GB，但中文长文本连贯性下降 12%，适合演示或低配设备；
qwen3:14b-f16：未量化，42GB，仅用于模型微调，切勿在推理环境使用。

实操心得：拉取过程中若中断，不要ollama rm重来。Ollama 支持断点续传，直接再次ollama pull即可从断点继续。中断后检查D:\ollama\models\blobs\目录，若存在sha256-xxxxxx文件且大小 > 1GB，说明续传已生效。

4.2 模型加载与参数调优：让 Qwen3-14B 在 Windows 上真正“快起来”

ollama run qwen3:14b是最简命令，但对 14B 模型而言，它会启用默认参数（num_ctx=4096,num_gpu=0），导致性能严重浪费。我们必须手动指定参数：

基础启动命令（推荐）：

ollama run qwen3:14b-q5_k_m --num-gpu 1 --num-cpu 8 --num-ctx 128000 --keep-alive 1h

--num-gpu 1：强制使用 1 块 GPU，避免 Ollama 自动检测失败；
--num-cpu 8：预填充阶段使用 8 个 CPU 线程，加速 prompt 解析；
--num-ctx 128000：启用 Qwen3 的全量上下文，否则默认 4096 会截断长文档；
--keep-alive 1h：模型常驻内存 1 小时，避免重复加载开销（实测：第二次对话启动延迟从 2.1s 降至 0.3s）。

高级调优（针对不同显卡）：

RTX 4060 Ti 8GB：添加--gpu-layers 40，将前 40 层 Transformer 卸载到 GPU，剩余层 CPU 运行，显存占用稳定在 7.9GB；
RTX 4070 12GB：添加--gpu-layers 45，显存占用 10.2GB，首 token 延迟 1.8s；
RTX 4090 24GB：添加--gpu-layers 50，启用全部层 GPU 卸载，延迟压至 1.2s；
无独显（Intel Arc A770）：使用--device directml，Ollama 自动调用 DirectML，延迟约 4.5s（仍优于 CPU 模式 12.3s）。

验证加载成功：
启动后，Ollama 控制台会输出类似：

>>> Loading model... >>> Model loaded in 4.2s, using 1 GPU(s) >>> Chat with qwen3:14b-q5_k_m

此时，打开任务管理器 → “性能”选项卡 → “GPU”，观察“3D”或“Compute_0”占用率是否 > 85%，确认 GPU 正在工作。

4.3 Open WebUI 中配置 Qwen3-14B 并启用 RAG

步骤 1：在 Open WebUI 中添加模型

访问http://localhost:3000，登录后点击左下角“Settings” → “Models”；
点击“Add Model”，在“Model Name”栏输入qwen3:14b-q5_k_m，其他字段留空，点击“Save”；
返回聊天界面，点击模型选择器，应能看到qwen3:14b-q5_k_m选项。

步骤 2：启用 Knowledge Base（RAG）

点击左侧导航栏“Knowledge Base” → “Create New Collection”；
输入名称（如Finance_Rules），描述可为空；
点击“Upload Files”，选择你的 PDF/DOCX/TXT 文件（单文件 ≤ 50MB）；
上传后，状态变为Processing...，约 1~3 分钟后变为Ready（表示已向量化入库）。

关键配置项（config.json中）：

{ "rag": { "embedding_model": "nomic-embed-text:latest", "chunk_size": 512, "chunk_overlap": 64 } }

nomic-embed-text:latest是目前 Windows 下最稳定的嵌入模型，all-minilm在中文分词上表现不佳；
chunk_size=512是 Qwen3 的最佳匹配值（过大导致语义断裂，过小增加 token 开销）；
chunk_overlap=64确保段落间语义连贯，实测比默认 20 提升召回率 28%。

RAG 使用技巧：

在聊天框中输入/ask后跟问题，如/ask 2024年增值税税率是多少？，Open WebUI 会自动检索知识库并引用原文；
若需强制使用知识库，可在问题前加#knowledge标签；
知识库文件更新后，需点击集合右侧“🔄”图标重新处理，不可直接替换文件。

4.4 实战测试：用 Qwen3-14B 完成三项真实任务

任务 1：长文档摘要（128K 上下文验证）

准备一份 86 页的《中华人民共和国公司法（2023 修订版）》PDF（约 42 万字）；
上传至 Knowledge Base，等待处理完成；
在聊天框输入：

请用 300 字以内，概括《公司法》2023 修订版的核心变化，重点说明注册资本认缴制调整、股东责任边界、董监高义务三大要点。

预期结果：Qwen3-14B 在 4.2 秒内返回结构化摘要，准确引用法条序号（如“第七条”、“第三十二条”），无事实性错误；
若失败：检查ollama list是否显示qwen3:14b-q5_k_m的size为10.2 GB，若为28.1 GB说明拉取的是未量化版本，需ollama rm后重拉。

任务 2：多轮技术对话（Tool Calling 验证）

输入：

计算 2024 年 1 月 1 日到今天（2024 年 8 月 15 日）之间有多少个工作日？假设周六日休息，不考虑法定节假日。

预期结果：Qwen3-14B 调用内置计算器工具，返回精确数字（158 个工作日），并展示计算逻辑；
原理：Qwen3 原生支持tool_choice="auto"，无需额外配置，Ollama 自动注入工具 schema。

任务 3：本地代码解释（Code Interpreter 验证）

输入：

请分析以下 Python 代码的输出，并指出潜在 bug： def calc(x, y): return x / y if y != 0 else 0 print(calc(10, 0))

预期结果：正确指出calc(10, 0)返回0，但x / y在y==0时本应抛出ZeroDivisionError，当前逻辑掩盖了异常，建议改为try/except；
验证意义：证明 Qwen3-14B 的代码理解能力已超越 Qwen2，能识别防御性编程缺陷。

5. 常见问题与排查技巧实录

5.1 典型问题速查表

问题现象	根本原因	解决方案	验证命令
`ollama run qwen3:14b`报错`CUDA error: no kernel image is available for execution on the device`	NVIDIA 驱动版本与 CUDA 运行时不兼容	降级驱动至 535.98 或升级至 551.86	`nvidia-smi`查看驱动版本；`ollama list`查看模型状态
Open WebUI 打开空白页，F12 控制台报`Failed to load resource: net::ERR_CONNECTION_REFUSED`	Ollama 服务未运行或端口被占	`net start ollama`启动服务；`netstat -ano \| findstr :11434`查端口	`curl http://localhost:11434/api/tags`应返回 JSON
模型加载后，GPU 占用率 0%，任务管理器显示“GPU 0”无活动	`--num-gpu`参数未生效或显卡未被识别	在`ollama run`命令后加`--verbose`，查看日志中`Using GPU layers`行	`ollama run qwen3:14b-q5_k_m --verbose \| findstr "GPU"`
RAG 上传 PDF 后状态始终`Processing...`，无进展	`unstructured`解析器在 Windows 下因编码问题卡死	手动安装`chardet`：`pip install chardet`；重启 Open WebUI 服务	查看 `C:\Users<