当前位置：首页 > news >正文

告别Token焦虑！本地部署Hermes + Qwen3.6，打造你的私人AI助理

news 2026/5/7 17:28:39

大家好，我是硅谷茶馆。最近和大闺女讨论游戏对战问题，我俩准备进行人物设计和对战方案设计，她问我，既然云端AI那么方便，为什么还要花时间在本地部署？我告诉她你可以为了真正的自由和安心。

如果现在让我推荐一套最适合普通用户跑本地模型 + Agent 的方案，我会毫不犹豫地推荐：Hermes + Qwen3.6 最新开源模型。这套组合最大的优势就是：免费、好用、灵活，而且非常适合日常使用。

为什么值得本地化部署？

云端AI虽然强大，但在处理长文档、代码项目或私人资料时，Token费用容易累积，而且把敏感内容上传到网络总让人有些顾虑。Qwen3.6开源后，本地运行的性能有了明显提升，配合Hermes Agent后，它不再只是聊天工具，更能执行具体任务、连接Telegram，甚至帮你处理日常工作流。

环境准备：用WSL2搭建稳定环境

在Windows系统下，我推荐使用WSL2（Windows Subsystem for Linux），性能损耗小，稳定性较好。

1、开启WSL2

以管理员身份打开PowerShell，运行：wsl --install -d Ubuntu-24.04安装完成后重启电脑，并用nvidia-smi检查显卡驱动是否正常识别（需安装支持WSL2的NVIDIA驱动）。

2、安装CUDA

在WSL Ubuntu环境中运行：sudo apt update && sudo apt install -y cuda-toolkit-12-8安装后记得把CUDA路径添加到~/.bashrc环境变量，避免后续编译找不到GPU。

核心部署：用llama.cpp运行Qwen3.6

llama.cpp支持GGUF格式，能有效降低显存占用，适合不同配置的电脑。编译llama.cpp

sudoaptinstall-ycmake build-essentialgitgitclone https://github.com/ggerganov/llama.cppcdllama.cpp cmake-Bbuild-DGGML_CUDA=ON-DCMAKE_CUDA_ARCHITECTURES=89cmake--buildbuild -j$(nproc)

好，如果出现这个错误的话，这主要是因为 CUDA Toolkit 没装导致的。WSL2 里需要单独装，运行：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt update sudo apt install -y cuda-toolkit-12-8

这个下载比较大（约2GB），耐心等…. 下载好以后现在设置路径然后重新编译：

exportPATH=/usr/local/cuda-12.8/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATHecho'export PATH=/usr/local/cuda-12.8/bin:$PATH'>>~/.bashrcecho'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH'>>~/.bashrccd~/llama.cpprm-rfbuild cmake-Bbuild-DGGML_CUDA=ON-DCMAKE_CUDA_ARCHITECTURES=89cmake--buildbuild -j$(nproc)

模型选择建议

24GB及以上显存（3090/4090等）：推荐Qwen3.6-27B，逻辑推理能力较强。
8-12GB显存：可选择Qwen3.5-7B版本，日常写作、总结、代码辅助已经足够。

模型下载（我使用的是3.6-27B模型作为参考）：

hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/

下载好模型以后，现在启动模型服务：（注意把下方命令中的模型名称替换成你自己的）启动服务：

~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 \ --ctx-size 32768 \ --flash-attn on \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --presence-penalty 1.5 \ --port 8080

现在打开 Windows 浏览器访问：http://localhost:8080，就能看到内置聊天界面，直接开始和 Qwen3.6-27B 对话了。

小建议：Qwen3.6默认是开启思维链模式，如果觉得回复较慢，可以添加参数关闭它以提升速度。可以使用prompt进行控制：

prompt 末尾加：禁止输出思考过程、隐藏思维链，直接输出最终答案

接入Hermes Agent，解锁任务执行能力

有了模型作为“大脑”，还需要Hermes Agent来提供“执行力”。

通过官方方式安装Hermes Agent；

curl-fsSLhttps://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh|bash

在配置中选择Custom endpoint，填入http://localhost:8080/v1，因为咱们使用的是本地模型，ApiKey可以随意写，模型会自动识别不用操作；
演示操作我对接Telegram：申请机器人Token后，你可以在外出时通过消息指挥电脑上的AI帮你搜索资料、整理大纲等，回家就能收到结果。

这种本地+自动化的组合，隐私性和便利性都比较突出。

配置好以后我们就可以进行聊天和工具调用了：

实操心得与注意事项

CUDA版本匹配很重要，建议严格使用12.8版本；
下载模型时，如果HuggingFace速度慢，可以切换到ModelScope镜像；
建议写一个启动脚本并加入开机自启，让AI助理真正“24小时在线”。

整个部署过程对有一定动手能力的朋友来说不算特别难，但初次操作可能需要耐心调试。不同硬件配置下实际效果会有差异，建议根据自己电脑情况调整。

注：因为我们使用的是Ubuntu，所以可以设置开启自启脚本，如下：

cat>~/start-llm.sh<<'EOF'#!/bin/bashecho"Starting Qwen3.6-27B llama-server..."~/llama.cpp/build/bin/llama-server \--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \--n-gpu-layers 99 \--ctx-size 65536 \--flash-attn on \--temp 1.0 \--top-p 0.95 \--top-k 20 \--presence-penalty 1.5 \--port 8080 \--host 0.0.0.0 &echo"llama-server started, PID: $!"echo"API: http://localhost:8080/v1"echo"Chat UI: http://localhost:8080"EOF chmod+x~/start-llm.sh

创建完成自启脚本，还需要设置WSL2启动时自动运行的命令，设置完每次打开WSL2终端都会自动跑模型了：

echo'# Auto-start llama-server'>>~/.bashrcecho'if ! pgrep -f "llama-server" > /dev/null 2>&1; then'>>~/.bashrcecho' ~/start-llm.sh'>>~/.bashrcecho'fi'>>~/.bashrc

我让它帮我写了一个网站统计功能，可以看看消耗的tokens，本地的不用担心浪费，咱们普通客户使用本地模型就够用了，如果是大项目还是要对接付费模型的。

总结：

这套Hermes + Qwen3.6的本地方案，提供了一种私密、免费且可长期使用的AI工作方式。适合有一定显卡配置的朋友尝试，让闲置的GPU发挥更多价值。

如果你也对本地AI部署感兴趣，欢迎在评论区分享你的配置和使用心得，我们一起交流进步。

喜欢这篇文章的朋友，欢迎点赞收藏并关注「硅谷茶馆」，我会继续分享实用、干货的AI工具和部署经验。祝大家新的一周高效顺遂！

（本文基于个人实操经验整理，涉及的技术操作请以官方文档为准，不同环境可能存在差异，请注意备份数据并谨慎操作。）

查看全文

http://www.jsqmd.com/news/771449/