个人AI开发中台搭建——Hermes + 多模型 + 知识库全栈架构
2026年6月,我每天的开发工作是这样开始的:
早上8点,虚拟机自动开机。Agent体检脚本跑一遍——CPU、内存、磁盘、网络、模型余额、Gateway状态——30秒出完整报告。9点打开飞书,直接用中文说"帮我把昨天的调试经验收进Wiki",Agent自动读聊天记录、提炼知识点、建页面、加交叉引用、更新索引。
下午写代码时,切换到Pro模型做复杂推理;跑批量任务时切回Flash省钱。晚上写公众号文章,Agent自动生成封面、生成配图、排版、发布草稿——我只用App审核确认。
这不是在讲"AI能做什么",这是我现在真实的日常工作方式。
核心就是一句话:用一套中台,把所有AI能力串起来。
一、什么是"个人AI开发中台"
先说概念。
企业级AI中台通常包含:模型网关、Prompt管理、知识库、Agent编排、审计日志。搭建成本几十万起步,需要一个团队维护。
个人AI开发中台就是这些能力的个人版。你不需要一个团队——一个配置良好的AI Agent + 几个开源工具就够了。
我的中台架构是7层:
| 层 | 作用 | 核心组件 |
|---|---|---|
| 通信层 | 跨平台消息收发 | 飞书Gateway、WebSocket |
| 模型层 | 多模型路由和切换 | DeepSeek V4 Pro / Flash |
| 知识库层 | 结构化知识存储和检索 | LLM Wiki (27页) + RAG |
| 工具层 | 外部系统交互 | Terminal / Git / Browser / API |
| 技能层 | 领域知识按需加载 | 50+ Skills |
| 记忆层 | 跨会话持久记忆 | Memory Store |
| 调度层 | 定时自动化任务 | Cron Jobs |
每一层都可以独立替换、独立调试、独立升级。这篇文章逐层拆解。
二、通信层:飞书即终端
你的AI中台不应该只在终端里用。否则你每次都得SSH进去敲命令——这违背"中台"的初衷。
我的方案是飞书Gateway:
飞书 App ←→ WebSocket ←→ Hermes Agent ←→ 模型 + 工具
你在飞书里发一条消息:"帮我把昨天的调试经验收进Wiki"
→ WebSocket 推送到 Agent
→ Agent 加载技能、调用工具、执行操作
→ 结果通过 WebSocket 推回飞书
为什么选飞书?三个原因:
手机随便用:躺在床上想查个文档,打开飞书问Agent就行
支持文件和图片:截图直接发过去,Agent能看图分析
不需要额外App:你本来就用飞书,零切换成本
配置很简单——一个systemd用户服务,随系统自启:
systemctl --user enable hermes-gateway systemctl --user start hermes-gateway启动后,飞书跟你说话 = 跟Agent说话。你可以像聊天一样做开发。
三、模型层:不要只用一个大模型
很多人觉得"最好的模型干所有事"。但2026年的现实是:
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常对话、简单任务 | DeepSeek V4 Flash | 够快、够便宜 |
| 公众号文章、深度分析 | DeepSeek V4 Pro | 输出质量高,长篇连贯 |
| 代码审查、架构设计 | DeepSeek V4 Pro | 需要推理深度 |
| 批量数据提取、文档处理 | DeepSeek V4 Flash | 量大,省钱 |
| 图片识别、视觉分析 | 视觉模型 | 专用能力 |
| 代码自动补全 | Claude Sonnet / GPT-5 | 各自优势场景 |
核心策略:一个问题,先判断复杂度,再选模型。
我的配置是一个默认模型 + 一句话切换:
我说"切换到pro":切到 DeepSeek V4 Pro(写文章、深度分析)
我说"切回flash":切回去
Agent记住当前状态,下次开机会自动加载
成本对比(真实数据):
| Flash | Pro | |
|---|---|---|
| 写一篇15000字公众号文章 | ~0.3元 | ~2元 |
| 日常对话100轮 | ~0.1元 | ~0.6元 |
| 89份PDF批量Ingest | ~0.04元 | ~0.3元 |
Pro贵7倍,但写出来的公众号文章质量差距肉眼可见。日常用Flash、重要任务切Pro——这是在能力和成本之间的最优平衡。
四、知识库层:LLM Wiki + RAG双引擎
这是中台的"长期记忆"。没有知识库,Agent每次都是"第一次见你"。
我的方案是两套并行:
4.1 LLM Wiki(结构化知识网络)
现在27页,6个实体+20个概念+1个对比。用Obsidian管理,Agent通过工具读写。
核心设计:
SCHEMA.md— Wiki的"宪法",定义页面结构和规则
index.md— 总目录,每个页面必须登记
log.md— 不可变操作日志,只追加不修改
raw/— 原始资料归档(PDF、文章、截图)
wikilinks— 交叉引用网络([[页面名]])
为什么不用纯RAG?因为RAG每次检索结果不保证相同。同样是"电源纹波排查",第一次返回文档A的第3段,第二次可能返回文档B的第7段。对于工程知识这种需要确定性的场景,编译好的Wiki比检索的结果靠谱。
4.2 RAG(快速语义检索)
5000维TF-IDF向量索引,覆盖Hi3519DV500的全部硬件文档。
用在哪:
• 跨文档交叉验证:同一个寄存器在3份文档中的描述不一致 → RAG对比
• 模糊回忆:"记得有个文档说DDR在60°C会降频,但忘了在哪" → RAG定位
双引擎策略:
快速问答 → RAG(语义检索 + LLM生成回答) ↓ 发现高频问题 知识固化 → LLM Wiki(Agent建页面 + 交叉引用) ↓ 以后同类问题 直接查Wiki → 100%准确,0 Token浪费五、工具层:Agent的"手和脚"
一个没有工具的AI只能说话。一个有工具的Agent能做事情。
我的中台开放了这些核心工具:
| 工具 | 用途 | 真实应用场景 |
|---|---|---|
| Terminal | 执行Shell命令 | 编译Hi3519DV500 BSP、跑YOLOv8推理 |
| File R/W | 读写文件 | 创建Wiki页面、保存公众号文章 |
| Git | 代码版本管理 | PR创建、diff审查 |
| Browser | Web交互 | 抓微信公众号原文、查CSDN帖子 |
| Web Search | 网络搜索 | 查最新的SDK版本、芯片价格 |
| Image Gen | 生成图片 | 公众号封面、架构图、配图 |
| Cron Job | 定时任务 | 早报、周报、开机体检 |
一个典型场景——公众号文章生成流程:
2. Agent调用:
→Memory查排版偏好、项目约定
→Knowledge Base查Wiki中的NPU推理页面和原始文档
→Terminal验证SVP推理命令参数
→Write File创建文章和目录
→Image Gen生成架构图和封面
→Web Publish上传草稿到微信公众号
3. 我只需要:打开订阅号助手App → 审核 → 发布
关键设计原则:工具不绑定模型。换模型不影响工具能力。Flash和Pro都能调用相同的Terminal、读相同的文件。
六、技能层:领域知识的"即插即用"
这是中台最容易被忽视的一层——但它决定了Agent的"专业水平"。
什么是Skill?一段针对特定任务的"操作手册"。包含:触发条件、步骤、命令、注意事项。
当我说"帮我把这篇文章发到公众号",Agent不是凭经验操作——它加载了wechat-publish技能,里面记录了:
• 发布脚本路径和参数
• 封面生成尺寸和风格
• 常见坑位和修复方案
技能系统的厉害之处在于:它会自动维护自己。如果技能里写的命令过时了,Agent在执行时发现不对,会自动更新技能。一个不被维护的技能会自我修复。
当前技能库概览:
| 类别 | 技能数 | 例子 |
|---|---|---|
| 软件开发 | 15+ | TDD、代码审查、调试、Agent协作 |
| 嵌入式开发 | 8+ | Hi3519编译、交叉工具链、海思BSP |
| 公众号创作 | 10+ | 排版、封面、配图、选题、发布 |
| 知识管理 | 5+ | LLM Wiki、RAG、Obsidian |
| 系统运维 | 5+ | 开机体检、Cron、systemd |
技能不是静态文档——它们是你和Agent协作经验的"结晶"。每完成一次复杂任务,好的做法被固化到技能里,下次自动复用。
七、记忆层:让Agent"记住你"
没有记忆的Agent,每次都是第一次见你。
我的记忆系统分两层:
第一层:User Profile(你是谁)
• 项目:鸿鸥派 HongOU PI,Hi3519DV500
• 工作方式偏好:verbose输出、自动汇报Token
• 工具链:交叉编译路径、开发板配置
第二层:Memory(工作笔记)
• 排版标准:公众号格式细节
• 调试经验:RTSP地址纠错、传感器时钟配置
• 项目约定:文件命名规则、CSV格式偏好
记忆的自动修剪机制:不是记越多越好。过期的信息(如"昨天的PR编号"、“临时调试记录”)会被自动清理。只有"一个月后仍然有用"的信息才持久化。
八、调度层:你睡觉时Agent在干活
7×24小时自动运行的定时任务:
| 任务 | 频率 | 做什么 |
|---|---|---|
| 开机体检 | 每天8:00 | CPU/内存/磁盘/网络/模型余额 |
| 图片简报 | 每周日19:00 | 自动生成开发周报图片 |
| 公众号选题提醒 | 每周一9:00 | 盘点已写/待写文章 |
调度层不需要Agent在线——Cron Job触发独立会话,完成后结果推送到飞书。
一个真实例子:周日简报
每周日晚上7点,脚本自动运行——扫描Wiki更新记录、本周调试日志、编译产物——生成一张800×1200的暗色主题简报图片,直接发到飞书。
你只需要周日晚上打开飞书看一眼。
九、实战回放:一条消息背后的7层协作
假设我在飞书里发了一条消息:
“用终端跑一下开发板的RTSP推流,看看live265有没有图像”
这条消息触发了什么?
2. 记忆层(0.05s)— 加载"RTSP地址=live0/live265/live264","图像倒立需vflip,hflip"
3. 模型层(0.5s)— 判断任务复杂度低,用Flash
4. 技能层(0.1s)— 不匹配任何技能,直接执行
5. 知识库层(0.2s)— 查Wiki确认RTSP推流命令格式
6. 工具层(2-5s)— 执行终端命令,抓取FFmpeg输出
7. 通信层(0.1s)— 结果(成功/失败+截图)推回飞书
总耗时:3-6秒。如果没有这7层整合,你需要:打开终端 → SSH到开发板 → 记起命令 → 输入 → 看输出 → 回到飞书汇报。大概30秒起步。
十、搭建成本
硬件:一台Ubuntu 24.04虚拟机(4核/10GB内存/100GB磁盘)——任何现代笔记本都能跑。
软件:全部免费
| 组件 | 成本 |
|---|---|
| Hermes Agent | 免费开源 |
| 飞书Gateway | 免费(飞书API免费额度够用) |
| 知识库(Obsidian) | 免费 |
| RAG(TF-IDF) | 本地运行,零成本 |
模型API费用:
| 用量场景 | 月费(Flash) | 月费(Pro为主) |
|---|---|---|
| 轻度(每天50轮对话) | ~5元 | ~20元 |
| 中度(每天100轮+公众号) | ~15元 | ~60元 |
| 重度(批量Ingest+多Agent) | ~40元 | ~150元 |
我的实际数据:6月份中度使用(日常Flash + 文章Pro),API费用约30元。
十一、和"直接用ChatGPT"的区别
| 维度 | 直接用ChatGPT | 个人AI中台 |
|---|---|---|
| 知识记忆 | 每次重新描述背景 | Memory自动注入 |
| 工具能力 | 只有对话 | Terminal/文件/Git/浏览器/发布 |
| 定时自动化 | 无 | Cron 7×24运行 |
| 跨平台 | 网页/App | 飞书/微信/终端 多端统一 |
| 知识积累 | 每次对话结束后丢失 | LLM Wiki持续积累 |
| 定制化 | 靠Prompt | 50+ Skills按需加载 |
| 成本控制 | 固定价格 | 按任务选模型 |
| 数据隐私 | 云端 | 本地+API |
关键区别:ChatGPT是一个对话工具。AI中台是一个开发平台。
十二、搭建步骤
如果你想搭一个类似的中台,以下是简明步骤:
第一步:安装基础
2. 安装Hermes Agent
3. 配置模型API Key(至少一个)
4. 验证:终端里问Agent一个问题,确认能回复
第二步:配置通信层
2. 配置 Gateway 连接飞书
3. 设为systemd用户服务,随系统自启
4. 验证:飞书里@机器人,确认能回复
第三步:建立知识库
2. 初始化 SCHEMA.md 和 index.md
3. 开始投入第一批资料(PDF/笔记/文章)
4. Agent自动建页面、加链接、写日志
第四步:配置自动化
2. 周报简报(自动生成+推送飞书)
3. 知识库定期健康检查(孤立页面、断链检测)
写在最后
三年前用ChatGPT,我的方式是在网页上问一句、等回复、复制到编辑器里——每次对话都是独立的一次性操作。
现在用AI中台,Agent知道我是谁、在做什么项目、有哪些历史经验、偏好什么输出格式。我可以一句话触发一个完整流程——从查资料到写代码到生成文档到发布——全程我只负责审核。
这不是"AI变强了"的结果,这是"AI被组织起来了"的结果。
个人AI中台的核心不是选哪个模型,而是把这些能力组装成一个能持续工作的系统。你的知识库每周在增长,Agent的能力就同步在增长。你今天踩的坑,变成明天的Skill,下个月Agent自动避开。
搭建你自己的AI中台,大概需要一个周末。
第一个上午装好环境和通信层,第一个下午投第一批资料进知识库。然后你就会发现——你跟AI的关系,从"对话"变成了"协作"。
