当前位置: 首页 > news >正文

告别Token焦虑!本地部署Hermes + Qwen3.6,打造你的私人AI助理

大家好,我是硅谷茶馆。最近和大闺女讨论游戏对战问题,我俩准备进行人物设计和对战方案设计,她问我,既然云端AI那么方便,为什么还要花时间在本地部署?我告诉她你可以为了真正的自由和安心。

如果现在让我推荐一套最适合普通用户跑本地模型 + Agent 的方案,我会毫不犹豫地推荐:Hermes + Qwen3.6 最新开源模型。这套组合最大的优势就是:免费、好用、灵活,而且非常适合日常使用

为什么值得本地化部署?

云端AI虽然强大,但在处理长文档、代码项目或私人资料时,Token费用容易累积,而且把敏感内容上传到网络总让人有些顾虑。Qwen3.6开源后,本地运行的性能有了明显提升,配合Hermes Agent后,它不再只是聊天工具,更能执行具体任务、连接Telegram,甚至帮你处理日常工作流。

环境准备:用WSL2搭建稳定环境

在Windows系统下,我推荐使用WSL2(Windows Subsystem for Linux),性能损耗小,稳定性较好。

1、开启WSL2

以管理员身份打开PowerShell,运行:wsl --install -d Ubuntu-24.04安装完成后重启电脑,并用nvidia-smi检查显卡驱动是否正常识别(需安装支持WSL2的NVIDIA驱动)。

2、安装CUDA

在WSL Ubuntu环境中运行:sudo apt update && sudo apt install -y cuda-toolkit-12-8安装后记得把CUDA路径添加到~/.bashrc环境变量,避免后续编译找不到GPU。

核心部署:用llama.cpp运行Qwen3.6

llama.cpp支持GGUF格式,能有效降低显存占用,适合不同配置的电脑。编译llama.cpp

sudoaptinstall-ycmake build-essentialgitgitclone https://github.com/ggerganov/llama.cppcdllama.cpp cmake-Bbuild-DGGML_CUDA=ON-DCMAKE_CUDA_ARCHITECTURES=89cmake--buildbuild -j$(nproc)

好,如果出现这个错误的话,这主要是因为 CUDA Toolkit 没装导致的。WSL2 里需要单独装,运行:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt update sudo apt install -y cuda-toolkit-12-8

这个下载比较大(约2GB),耐心等…. 下载好以后现在设置路径然后重新编译:

exportPATH=/usr/local/cuda-12.8/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATHecho'export PATH=/usr/local/cuda-12.8/bin:$PATH'>>~/.bashrcecho'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH'>>~/.bashrccd~/llama.cpprm-rfbuild cmake-Bbuild-DGGML_CUDA=ON-DCMAKE_CUDA_ARCHITECTURES=89cmake--buildbuild -j$(nproc)

模型选择建议

  • 24GB及以上显存(3090/4090等):推荐Qwen3.6-27B,逻辑推理能力较强。

  • 8-12GB显存:可选择Qwen3.5-7B版本,日常写作、总结、代码辅助已经足够。

模型下载(我使用的是3.6-27B模型作为参考):

hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/

下载好模型以后,现在启动模型服务:(注意把下方命令中的模型名称替换成你自己的)启动服务:

~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 \ --ctx-size 32768 \ --flash-attn on \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --presence-penalty 1.5 \ --port 8080

现在打开 Windows 浏览器访问:http://localhost:8080,就能看到内置聊天界面,直接开始和 Qwen3.6-27B 对话了。

小建议:Qwen3.6默认是开启思维链模式,如果觉得回复较慢,可以添加参数关闭它以提升速度。可以使用prompt进行控制:

prompt 末尾加:禁止输出思考过程、隐藏思维链,直接输出最终答案

接入Hermes Agent,解锁任务执行能力

有了模型作为“大脑”,还需要Hermes Agent来提供“执行力”。

  1. 通过官方方式安装Hermes Agent;

    curl-fsSLhttps://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh|bash
  2. 在配置中选择Custom endpoint,填入http://localhost:8080/v1,因为咱们使用的是本地模型,ApiKey可以随意写,模型会自动识别不用操作;

  3. 演示操作我对接Telegram:申请机器人Token后,你可以在外出时通过消息指挥电脑上的AI帮你搜索资料、整理大纲等,回家就能收到结果。

这种本地+自动化的组合,隐私性和便利性都比较突出。

配置好以后我们就可以进行聊天和工具调用了:

实操心得与注意事项

  • CUDA版本匹配很重要,建议严格使用12.8版本;

  • 下载模型时,如果HuggingFace速度慢,可以切换到ModelScope镜像;

  • 建议写一个启动脚本并加入开机自启,让AI助理真正“24小时在线”。

整个部署过程对有一定动手能力的朋友来说不算特别难,但初次操作可能需要耐心调试。不同硬件配置下实际效果会有差异,建议根据自己电脑情况调整。

注:因为我们使用的是Ubuntu,所以可以设置开启自启脚本,如下:

cat>~/start-llm.sh<<'EOF'#!/bin/bashecho"Starting Qwen3.6-27B llama-server..."~/llama.cpp/build/bin/llama-server \--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \--n-gpu-layers 99 \--ctx-size 65536 \--flash-attn on \--temp 1.0 \--top-p 0.95 \--top-k 20 \--presence-penalty 1.5 \--port 8080 \--host 0.0.0.0 &echo"llama-server started, PID: $!"echo"API: http://localhost:8080/v1"echo"Chat UI: http://localhost:8080"EOF chmod+x~/start-llm.sh

创建完成自启脚本,还需要设置WSL2启动时自动运行的命令,设置完每次打开WSL2终端都会自动跑模型了:

echo'# Auto-start llama-server'>>~/.bashrcecho'if ! pgrep -f "llama-server" > /dev/null 2>&1; then'>>~/.bashrcecho' ~/start-llm.sh'>>~/.bashrcecho'fi'>>~/.bashrc

我让它帮我写了一个网站统计功能,可以看看消耗的tokens,本地的不用担心浪费,咱们普通客户使用本地模型就够用了,如果是大项目还是要对接付费模型的。

总结:

这套Hermes + Qwen3.6的本地方案,提供了一种私密、免费且可长期使用的AI工作方式。适合有一定显卡配置的朋友尝试,让闲置的GPU发挥更多价值。

如果你也对本地AI部署感兴趣,欢迎在评论区分享你的配置和使用心得,我们一起交流进步。

喜欢这篇文章的朋友,欢迎点赞收藏并关注「硅谷茶馆」,我会继续分享实用、干货的AI工具和部署经验。祝大家新的一周高效顺遂!

(本文基于个人实操经验整理,涉及的技术操作请以官方文档为准,不同环境可能存在差异,请注意备份数据并谨慎操作。)

http://www.jsqmd.com/news/771449/

相关文章:

  • 优学宝在线课程小程序正式上线!主打多元化在线课程模式,涵盖视频、音频、图文、专题四大课程类型,全品类内容全覆盖,随时随地在线学习,一站式高效提升自我。
  • 5大场景深度解析:如何用OR-Tools解决复杂优化问题的实用指南
  • 跨时区团队的测试协作:我们如何实现24小时质量守护
  • 悟空快酒:30分钟喝到放心好酒,长春夜间微醺首选,像悟空一样的快! - 速递信息
  • 终极指南:如何让老款RTX显卡也能享受AMD FSR3帧生成黑科技
  • ClawManager:基于Kubernetes的AI智能体云原生控制平面设计与实践
  • 职场培训费用报销程序,学习记录上链,企业自动核销,杜绝虚假发票。
  • 基于零信任的AI智能体安全框架Peon:从架构层面强制LLM权限控制
  • 年节省超600万:闪蒸罐高盐废水处理案例解析 - 速递信息
  • ChanlunX:5分钟让通达信拥有专业缠论分析能力的终极插件
  • Amlogic-s9xxx-openwrt终极优化指南:让你的电视盒子变身高性能路由器 [特殊字符]
  • 给STM32外挂个“U盘”:用W25Q64存储传感器数据(CubeMX+FatFS)
  • 免费开源Cherry MX键帽3D模型:打造个性化机械键盘的终极指南
  • 经典修复|在澳门,赴一场《小城之春》的旧梦
  • Windows可执行文件资源编辑终极指南:使用rcedit快速修改exe文件
  • 终极指南:如何通过HoRNDIS实现Mac与Android设备的USB网络共享
  • 2026新疆目的地婚礼推荐榜Top5,浪漫首选 - 速递信息
  • 宠物医疗记录程序,病史,用药上链,避免过度医疗,误诊。
  • 可视化未授权访问批量探测工具、支持批量目标、并发扫描、SOCKS5 全局代理、CSV 导出
  • 国内精密微孔钢板网厂家排行:技术与产能双维度盘点 - 奔跑123
  • 别再傻傻分不清了!一文搞懂Autosar CP和AP到底该用哪个(附芯片/OS/通信方式对比表)
  • 高性能抖音无水印下载器架构解析与实现原理深度剖析
  • 实战指南:119,376个英语单词发音MP3音频高效下载与集成方案
  • 解密模型黑箱:SALib敏感性分析从理论到实战的三步进阶法
  • 基于MCP协议与多源数据的AI供应链风险情报引擎设计与实践
  • 2026年太原短视频代运营与GEO优化完全指南:精准获客如何破局中小企业流量困局 - 优质企业观察收录
  • AI写专著实用攻略:AI工具加持,20万字专著写作不再是难题!
  • 基于LLM智能体的非结构化文档解析:构建产品更新知识库实战
  • Keil uVision仿真调试避坑指南:从时钟设置到Watch窗口的5个实用技巧
  • Acode:Android平台上的5大创新功能解析与移动开发实战指南