当前位置：首页 > news >正文

免费开源AI软件.桌面单机版，可移动的AI知识库，察元 AI桌面版:全模型支持的第一个例子给察元AI挂上Ollama的下午

news 2026/5/12 21:33:57

全模型支持的第一个例子给察元AI挂上Ollama的下午

很多人对察元AI 桌面单机版的第一个误解是：默认要联网用 OpenAI 的钥匙才能跑。其实并不。chayuan-desktop 的网关层在设计时就把本地推理放在和厂商云一样的位置，这一篇用 Ollama 做演示，说一下完整的接入过程，让本地离线知识库加本地大模型的组合在一台普通电脑上跑通。

为什么先选 Ollama。它把模型权重的下载、运行、API 暴露这三件事都打包了，不用自己折腾 llama.cpp 命令行，也不用自己装 CUDA 工具链。安装包在 ollama.com 拿，一路下一步。装完后命令行运行 ollama pull qwen2.5:7b 把一个国产模型权重拉下来，再运行 ollama serve 起服务，本地的 11434 端口会暴露一个 OpenAI 兼容的接口。

接到 chayuan-desktop。打开主界面右上的设置，进模型供应商，新建一个 OpenAI 兼容路由的供应商。地址填 http://127.0.0.1:11434/v1，钥匙随便填一个非空字符串，因为 Ollama 默认不校验。点保存，察元AI 会去探测 /v1/models，把 qwen2.5:7b 这条记录拉回来。在对话切换器里就能选到这个本地模型。

第一句对话试一下。问一句日常问题，看看流式输出是否正常、tokens/s 大致多少。我那台 i5 加 16G 的电脑上 7B 模型 CPU 跑大概 6-8 tokens/s，不快但是能用。如果你有显卡，Ollama 会自动用 GPU。

接知识库这一段更值得讲。把一份 PDF 拖进对话窗口，触发一次文档 RAG 入库。chayuan-desktop 默认用的是内嵌的 bge-m3-onnx 嵌入模型，跑在 CPU 上做嵌入计算。重排可以选择跳过或者也走本地。整个 RAG 链路在 sidecar 进程内闭环，模型推理走 Ollama，嵌入走 ONNX，向量库是 sqlite-vec。整套链路里一次外网调用都没有发生。

接下来是想象一下整套组合的好处。第一，模型钥匙不再是必需品，单机版可以彻底不联外网；第二，私有文档完全不出本机；第三，跟 chayuan-wps WPS AI 插件共用同一份 KB 和模型配置，加载项调起来的对话也走 Ollama，体验一致；第四，等你有了显卡，把模型规模升到 14B 或 32B，整个流程不需要重新走，只需要重新拉一份权重并在 Ollama 里切换。

需要注意几个细节。Ollama 默认会启动后台服务，重启 chayuan-desktop 不会重启它，端口冲突的可能性要排查；Ollama 的模型路径默认在 ~/.ollama，磁盘空间要预留；Ollama 的并发窗口默认有限，一次问答里多 Tab 同时跑会排队，体感上像变慢；Ollama 不支持函数调用 tools 的所有模型，遇到工具调用的对话场景要选合适的模型权重。

如果你已经熟悉 LM Studio、vLLM、Xinference，这套接入方式同样可用，OpenAI 兼容路由是 chayuan-desktop 网关层的统一接入点。差别只在于模型规模和性能，链路本身一致。免费开源的AI软件加上本地推理，凑成一台真正完全自己掌控的 AI 工作站，最大障碍其实是模型权重的下载，而不是 chayuan-desktop 这一边。下午搞定，剩下的就是拿来用。

查看全文

http://www.jsqmd.com/news/804673/