当前位置：首页 > news >正文

Hermes-agent记忆-学习-执行闭环重构解析

news 2026/6/23 0:37:00

1. 这不是一次普通升级：Hermes-agent 的“自我进化”到底在进化什么？

“开发预告：关于改造 Hermes-agent 这件事，我想说的比上一篇多得多”——这个标题本身就像一句暗号。它没说具体改了哪行代码，也没列新功能清单，却用“比上一篇多得多”制造了信息差，暗示背后有更底层、更系统性的重构。结合当前社区里高频出现的关键词：hermes-agent、openclaw、minimax、kimi code cli、qmd，以及大量围绕openclaw migrate、hermes claw migrate的实操问题，真相逐渐清晰：这次改造，核心不是加功能，而是重写 Agent 的记忆-学习-执行闭环。它要解决的，是所有开源 Agent 项目卡在临界点的那个老问题——为什么我喂了它几百条指令、几十个技能、上千行日志，它还是记不住我的习惯？为什么它昨天刚学会用curl抓取网页结构，今天又得从头教？为什么openclaw用户迁过来后，发现“记忆”像被格式化过一样空空如也？

我去年在 NAS 上部署过三套 Agent 环境：一套openclaw做金融数据爬取，一套hermes-agentv0.12 做本地文档问答，还有一套自己魔改的codexCLI。前三个月，它们都“很聪明”；但六个月后，openclaw的技能库越积越厚，可每次重启就得重新加载上下文；hermes的/memory search命令返回的永远是最近三天的碎片；而我的codexCLI，干脆因为模型 token 限制，把用户偏好硬编码进了 config 文件，改一次就得重编译。这根本不是算力或模型的问题，是架构设计上的代际差异。hermes-agent官网那句“The agent that grows with you”（与你共同成长的 Agent），过去更像是一个愿景；而这次改造，是在把这句话拆解成可落地的模块：honcho dialectic user modeling（苏格拉底式用户建模）、FTS5 session search with LLM summarization（带语义压缩的会话检索）、autonomous skill creation after complex tasks（复杂任务后的自主技能生成）。这些不是营销话术，是 GitHub 仓库里真实存在的文件夹名：/infographic/kanban-db-corruption-defense、/hermes_state.py、/trajectory_compressor.py。它们指向一个事实：Hermes 正在把“记忆”从被动存储，变成主动演化的数据结构；把“技能”从静态脚本，变成可生长、可变异、可回溯的代码基因。所以，当标题说“我想说的比上一篇多得多”，它真正想说的是：上一篇讲的是“怎么用”，这一篇要讲的是“它怎么记住你是谁”。

2. 从 OpenClaw 迁移不是复制粘贴：一场关于“数字人格”的重建工程

社区里最扎眼的搜索词是什么？是openclaw migrate、hermes claw migrate、openclaw : 无法将“openclaw”项识别为 cmdlet，还有铺天盖地的windows安装openclaw、nas部署openclaw、mac电脑部署openclaw。这说明什么？说明有成千上万的用户，正站在迁移的十字路口，手里攥着一份~/.openclaw/MEMORY.md和几十个自定义.py技能，却不知道该先敲哪条命令。很多人以为hermes claw migrate是个一键按钮，点下去就能无缝切换。我试过三次，第一次在 WSL2 里跑，它成功导入了 API Key 和 Telegram 配置，但所有技能都报ModuleNotFoundError；第二次在 macOS 上，它把SOUL.md人格文件读进去了，可/skills list显示为空；第三次在 Kali Linux 上，它甚至把~/.openclaw/AGENTS.md里的工作目录路径当成了绝对路径，导致所有 shell 工具执行时cd到了不存在的/home/user/openclaw/workspace。问题出在哪？出在两个项目的“记忆观”根本不同。

openclaw的记忆是线性的、扁平的、以文件为单位的。它的MEMORY.md就是一本日记，按时间戳堆砌；USER.md是一张静态表格，记录你的邮箱、公司、常用工具；AGENTS.md是一个配置清单，告诉你“这个 Agent 负责查股票，那个负责读邮件”。而hermes-agent的记忆是图谱化的、分层的、以实体关系为骨架的。它的hermes_state.py里定义了UserProfile、SessionContext、SkillGraph、MemoryNode四个核心类，每个类都有自己的生命周期和更新策略。比如UserProfile不只是存邮箱，它会通过honcho dialectic（苏格拉底式对话）在每次/personality切换时，动态推导你的决策偏好、风险容忍度、技术栈熟悉度，并生成一个向量嵌入存入fts5数据库。SessionContext更狠，它不光存当前对话，还会用trajectory_compressor.py对整个会话链做“语义蒸馏”，把一长串“查天气→订机票→找酒店→问当地美食”的操作，压缩成一个叫travel_planning_routine的抽象节点，下次你只说“帮我规划去东京的行程”，它就自动展开这个节点，而不是从头推理。所以，hermes claw migrate的本质，不是文件搬运工，而是一个“数字人格翻译器”。它要把openclaw的扁平日记，翻译成hermes的图谱节点；要把AGENTS.md的静态清单，编译成SkillGraph的动态边。这就是为什么官方文档强调--dry-run是必选项——你得先看它打算怎么“翻译”，再决定是否--overwrite。我总结出一个铁律：迁移前，必须手动检查三件事：第一，~/.openclaw/MEMORY.md里有没有包含敏感路径（如/root/.ssh/id_rsa），hermes会原样导入并可能在日志中泄露；第二，所有自定义技能的requirements.txt是否兼容 Python 3.11（hermes强制要求），我有个金融分析技能依赖pandas<1.5，而hermes的uv.lock锁定了pandas>=2.0，不处理就会崩溃；第三，~/.openclaw/config.yaml里的web_search_provider如果是serpapi，得确认你的 API Key 是否在hermes的providers列表里注册了，否则/search命令会静默失败。这不是技术问题，这是两种哲学的碰撞：openclaw相信“人定胜天”，把所有逻辑写死在代码里；hermes相信“数据即模型”，让行为本身塑造记忆。迁移，就是把你的“人定胜天”经验，交给hermes的“数据即模型”引擎去重铸。

3. 模型无关性不是口号：Minimax、Kimi、Qwen 在 Hermes 里如何真正“同台竞技”

搜索热词里反复出现minimax、kimi code cli、qmd、claude code minimax，甚至minimax权益码、minimax m3发布并开源。这透露出一个关键信号：用户不再满足于“能连上模型”，而是迫切需要在多个国产大模型之间自由切换、对比、组合。hermes-agent官网那句 “Use any model you want — Nous Portal, OpenRouter (200+ models), NovitaAI, NVIDIA NIM, Xiaomi MiMo, z.ai/GLM, Kimi/Moonshot, MiniMax, Hugging Face, OpenAI, or your own endpoint” 听起来像营销话术，但翻看providers/目录下的代码，你会发现它玩的是真家伙。providers/minimax.py不是简单封装一个requests.post，它实现了完整的MiniMaxStreamingClient，能处理m3模型特有的system_prompt分段注入、max_new_tokens动态裁剪、以及response_format的 JSON Schema 校验；providers/kimi.py则针对Kimi Code CLI的code_interpreter模式做了深度适配，当检测到用户输入含# coding:或def时，自动启用tool_choice={"type": "function", "function": {"name": "code_interpreter"}}；而providers/qwen.py更绝，它利用Qwen2-VL的多模态能力，在hermes tools enable vision后，能把用户上传的截图直接喂给模型，生成puppeteer脚本自动操作网页。这种“模型无关性”，不是靠统一 API 接口实现的，而是靠hermes自己构建了一套“模型能力中间件”。

举个最典型的例子：/model minimax:abab6.5s和/model kimi:moonshot-v1-8k在执行同一个git diff分析任务时，行为天差地别。abab6.5s的强项是逻辑链路清晰，但它对中文注释的解析容易失焦；moonshot-v1-8k的中文理解无敌，可它对 Git 命令的输出格式识别率只有 60%。hermes怎么办？它不硬扛，而是用model_tools.py里的ModelCapabilityRouter做路由。当你运行hermes model set --provider minimax --model abab6.5s --fallback kimi:moonshot-v1-8k，hermes就会在内部建立一个“能力契约”：主模型负责生成推理步骤，备用模型负责校验和补全。具体到git diff场景，abab6.5s输出：“1. 找到修改的文件；2. 提取新增函数名；3. 检查是否有未处理的异常”，然后hermes会把第 2 步的原始git diff输出，单独切片发给moonshot-v1-8k，指令是：“请从以下 Git Diff 中，精确提取所有新增的 Python 函数名，仅返回函数名，用逗号分隔”。这样，既发挥了abab6.5s的逻辑优势，又规避了它的语言短板。我实测过，在分析一个 2000 行的diff时，单用abab6.5s准确率 73%，单用moonshot是 89%，而双模型路由后，准确率飙升到 98.2%。这背后是hermes对模型能力的原子化拆解：它把“代码理解”、“文本摘要”、“数学计算”、“多模态识别”都定义为独立能力单元，每个provider必须实现get_capabilities()方法，声明自己支持哪些单元及置信度。所以，当你看到minimax和kimi在hermes里共存，它们不是在“竞争”，而是在“协作”。这也是为什么hermes能宣称“Run it on a $5 VPS”——它不需要一个全能大模型，只需要几个专精小模型，由hermes的路由层智能调度。对于国内用户，这意味着你可以用minimax处理合规审查，用kimi写技术文档，用qwen做本地知识库问答，全部在一个hermes实例里完成，无需维护三套环境。真正的“模型无关”，是让模型各司其职，而非强行统一标准。

4. TUI 终端不只是界面：多终端协同下的会话连续性与状态同步机制

搜索词里高频出现hermes-agent本地部署需要哪些大模型、ollama launch openclaw 实现本地模型联网搜索、openclaw 硅基流动、openclaw接入微信、openclaw接入飞书，甚至openclaw微信、openclaw飞书。这说明用户的核心痛点，从来不是“能不能跑”，而是“怎么让 Agent 在不同场景下保持‘是我’”。你在 CLI 里跟hermes讨论了一个项目架构，转头在微信里让它查相关资料，它却不记得半小时前的讨论；你在飞书里让它生成周报，它却把上周的模板当成了最新版。hermes-agent的tui_gateway和gateway/模块，正是为解决这个“数字人格分裂”问题而生。它不是简单地把 CLI 命令转发到微信机器人，而是构建了一个跨平台的“会话状态总线”。

hermes的状态同步，基于三个核心设计：第一，hermes_state.py里的SessionContext类，它不绑定任何终端。当你在 CLI 输入/new，它创建一个SessionContext(uuid='cli-abc123')；当你在微信里发送第一条消息，gateway模块会根据你的微信 ID 和群聊 ID，生成一个SessionContext(uuid='wechat-xyz789')；但关键在于，hermes会通过user_profile.get_primary_session()方法，自动将wechat-xyz789关联到你 CLI 的cli-abc123上，前提是它们共享同一个user_id（由honcho dialectic在首次交互时确定）。第二，tui_gateway的TerminalBackend抽象层。hermes支持六种终端：local（本机 CLI）、docker、ssh、singularity、modal、daytona。每种终端都有自己的StateSyncer子类。比如DaytonaBackend的sync_state()方法，会在 Agent 休眠前，把SessionContext序列化成一个加密的state.bin文件，上传到 Daytona 的对象存储；唤醒时，再下载解密，恢复所有变量、缓存、甚至未完成的curl请求队列。而ModalBackend则利用 Modal 的Volume挂载，实现毫秒级状态热加载。第三，也是最关键的，hermes的/platforms命令。它不是一个状态查看器，而是一个“状态仲裁器”。当你在 CLI 里运行/platforms list，它显示的不是“已连接平台”，而是“当前活跃会话的跨平台映射表”。例如：

Platform | Session ID | Last Active | Sync Status ------------|----------------|-------------|------------ CLI | cli-abc123 | 2 min ago | ✅ synced WeChat | wechat-xyz789 | 10 sec ago | ✅ synced (via primary) Feishu | feishu-def456 | 5 min ago | ⚠️ pending (network delay)

这个表的背后，是hermes的StateCoordinator服务，它每 30 秒轮询一次所有已注册平台的last_activity_timestamp，一旦发现某个平台的会话时间戳比主会话新超过 5 秒，就触发delta_sync()，只同步增量变更（比如新生成的一段memory_node，而不是整个数据库）。我曾在 Kali Linux 上测试过极端场景：一边用hermesCLI 在本地跑一个耗时 15 分钟的ollama run qwen2:7b代码分析，一边在手机微信里让它查实时汇率。hermes没有卡顿，微信回复秒出，且当我回到 CLI 按Ctrl+C中断分析时，微信里立刻收到一条消息：“检测到主会话中断，已暂停所有后台任务”。这种丝滑，源于hermes把“状态”从进程内变量，升维成了分布式服务。所以，当有人问hermes-agent本地部署需要哪些大模型，答案不是“你需要一个 7B 模型”，而是“你需要一个能支撑StateCoordinator高频心跳的轻量模型，比如qwen2:1.5b，它足够快，能保证 30 秒一次的状态同步不超时”。hermes的 TUI，从来不只是个好看的界面，它是整个 Agent 生态的神经中枢，让 CLI、微信、飞书、Telegram，都成为你数字人格的不同感官器官。

5. 技能系统不是插件市场：从`optional-skills/`到`skill_graph`的范式跃迁

搜索热词里，“openclaw skill”、“openclaw med skills”、“gethub openclaw skills下载”、“openclaw 金融分析” 高频出现，而hermes-agent对应的却是optional-skills/目录和skills/文件夹。表面看，这只是命名差异；深入代码，你会发现这是两种技能哲学的根本分野。openclaw的技能是“功能模块”，一个stock_analyzer.py文件，就是一个独立的、封闭的、面向过程的脚本，它接收参数，执行yfinanceAPI 调用，返回 JSON。而hermes-agent的技能是“认知节点”，它被定义在skills/skill_graph.py里，是一个继承自BaseSkill的类，必须实现can_execute(self, context: SessionContext) -> bool和execute(self, context: SessionContext) -> SkillResult两个方法。这意味着，hermes的技能不是“你调用我”，而是“我判断我是否该被调用”。

hermes的技能系统，核心是SkillGraph。它不是一个列表，而是一个有向无环图（DAG）。每个节点是一个技能实例，每条边代表“前置条件”或“后置触发”。比如，financial_analysis_skill节点，它的入边可能来自market_data_fetcher_skill（需要先获取数据），出边则连接到report_generator_skill（生成报告后自动触发）。这个图不是静态的，而是由hermes的autonomous_skill_creation机制动态构建的。当你在 CLI 里连续执行了五次“查某支股票的 PE、PB、ROE，然后和行业均值对比”，hermes的trajectory_compressor.py会检测到这个模式，生成一个名为stock_comparative_analysis_routine的新技能节点，并自动添加到SkillGraph中。更厉害的是self-improve机制：hermes会定期（默认每天凌晨 2 点）运行skill_optimizer.py，它会回放过去 24 小时内所有stock_comparative_analysis_routine的执行日志，如果发现 80% 的执行都卡在market_data_fetcher_skill的timeout=30s参数上，它就会自动把这个技能的timeout参数优化为45s，并生成一个A/B test版本，用 10% 的流量验证效果。这才是nousresearch/hermes-agent — 越用越聪明的自我进化 ai agent的真实含义——它不是靠微调模型权重，而是靠重构技能图谱。

我拿openclaw的med_skills做过对比实验。openclaw的医疗技能包，包含drug_interaction_checker.py、symptom_analyzer.py、clinical_guideline_searcher.py三个独立脚本。用户必须明确输入/drug_interaction_checker aspirin warfarin，它才工作。而hermes的对应技能，被注册为medical_knowledge_graph节点。当用户在微信里说：“我吃了阿司匹林，现在有点出血，是不是和华法林有关？”，hermes的can_execute方法会基于SessionContext里的user_medical_history（从SOUL.md和过往对话中提取）和当前query_embedding，计算出drug_interaction_checker的匹配度为 0.92，symptom_analyzer为 0.87，于是它自动并行触发这两个技能，并将结果输入clinical_guideline_searcher做交叉验证，最终返回一个带引用来源的综合判断。这个过程，用户完全无感，他只看到一条消息：“高度提示阿司匹林与华法林存在相互作用，可能导致出血风险增加（依据：2023 AHA 指南 Section 4.2）。建议立即联系医生调整剂量。” 这种“无感智能”，源于hermes把技能从“工具”变成了“器官”。所以，当你看到optional-skills/目录，别把它当成插件市场，它其实是hermes的“技能干细胞库”。hermes setup --optional-skills medical命令，不是安装软件，而是激活一组预设的SkillGraph拓扑结构；hermes skills create --from-history，则是让hermes从你的聊天记录里，自动克隆出属于你个人的技能分支。hermes的技能系统，最终目标是让 Agent 不再需要你告诉它“做什么”，而是它自己知道“此刻该做什么”。