当前位置：首页 > news >正文

【Agent Harness实战】我给我的Agent系统请了八个“保洁阿姨”，让AI自己整理自己

news 2026/6/14 20:45:58

我给我的Agent系统请了八个“保洁阿姨”，让AI自己整理自己

之前聊了流马的记忆、技能、工具、门禁…… 但有一个问题我一直没正面回答：

系统跑久了，技能图谱会乱、知识碎片会散、记忆会膨胀、失败模式会堆积。谁来收拾？

指望开发者手动整理？那还不如不搞自动化。

指望LLM主动整理？它连自己昨天说过什么都不记得。

所以，我决定请一批“保洁阿姨”——专门负责后台整理的 Batch Agent。她们不参与前台任务，只在系统空闲时默默打扫。而且最妙的是，我只写了一套框架，就生出了八个不同职能的阿姨。

你可能会说：“让LLM定期总结一下技能图谱，给个优化建议，不就行了？”

试过，不行。因为这不是“一个任务”，而是八个完全不同维度的整理需求：

如果用一个大Prompt让LLM一次搞定全部，结果一定是：什么都会一点，什么都做不精。而且每次调用都把所有数据喂进去，Token费用直接爆炸。

流马的做法是：不同整理任务 = 同一个框架 + 不同配置 + 不同模板。

框架只做五件事：

八个角色的差异只有两点：模板文件（告诉LLM分析什么）+ 结果处理器（分析完了怎么存）。其余全部复用。

这意味着：加一个新角色，只需要写一个模板文件、加一行配置、写一个结果处理函数。不改框架代码，不加新模块，不重新编译。

举个例子。假设产品经理说：“能不能每周检查一下技能描述是不是过时了？”

我的操作：

搞定。十分钟上线一个新整理角色。

每2小时巡逻一次。发现两个技能语义太像（比如“Python数据分析”和“Pandas数据处理”），自动分析相似度，建议合并策略。置信度>0.85的直接合并，中等置信度的送进“人工确认队列”。

把CA Agent标记的“失败记录”提炼成结构化的经验知识。比如“数据清洗时缺失值超30%会导致均值填充偏差”这种碎片，自动加上根因分析、泛化场景、关联技能，升级为正式知识节点。

新抽取的实体（比如“张三”），自动去知识图谱里找同名或相似的实体，判断是不是同一个人。是同一个？自动合并。不确定？标记冲突，等人工裁决。

每30分钟拉取最近的失败事件，按错误码分组统计，识别趋势。“这个错误最近3小时出现了15次，而且还在增长”——自动生成告警节点，挂到相关技能上。

每5分钟扫描一遍技能图谱。成功率低于60%？标记为D级。依赖链断裂？记录问题。自动生成健康报告，高优先级的直接送进人工确认队列。

每天凌晨3点执行。把7天前的旧对话摘要压缩归档，重复内容去重，低访问条目评估是否保留。不是简单删，而是“该归档的归档，该提炼的提炼，该删的删”。

每30分钟分析一次技能之间的“潜在关系”。两个技能经常被一起调用？标签高度相似？自动推荐建立关联链接。置信度高的直接加上，中等的送审。

统计每个整理模板的成功率、平均置信度、失败原因。“skill_merge模板最近解析失败率上升了15%，原因是LLM输出的JSON格式变了”——这种洞察自动生成报告，供开发者优化模板。