当前位置: 首页 > news >正文

【Harness Engineering】Memory 记忆

一点思考,共勉

好久没写 blog 了…

翻了一下上篇文章,大概过去了半年时间;因为这半年对于"要不要继续手搓blog"这件事,产生了深深的动摇…

26年真的可以算做Agent元年了,从虾到CC,至少从我个人角度看,每天的AI日报、论文解析、看源码、代码生成…

已经完全离不开这些"数字分身"了…

并且这半年我几乎都在搞Agent,确切说是 Harness Engineering,所以对于Agent领域迭代的速度和发展更深有体会;

我想过让虾把每周喂给它的思考整理成一篇文章,甚至考虑过搞个数字人发到TT或B站;

但意义呢?这还算我的输出、我的沉淀吗?

完全基于概率的序列输出,你发我发大家发,发出去很多篇blog和论文,信息越来越同质化、低质化;

再过几年,预训练连像样的语料库都快没了…

直到最近面了一个实习生,被问到"关老师,生产力都外包给AI了,你们平时还干什么?"

我愣了一下,不单是因为问题本身,而是身在其中深知大模型的发展,同时也联想到公司持续的明里暗里的蒸馏你,竟一时语塞…

想了一下,已经习惯了让模型去干活,让它总结一下这个、结构化一下那个,好像有一段时间没有深度思考过了,不觉得后脊发凉…

我们的知识获取,也就是input入口,已经充斥着碎片化的低质信息了,如果连知识输出,output出口,也让模型替代了,那不就真成工具人了么?

所以重新思考了一下手搓的意义;

不在于"打了哪些字";而在于强迫自己把脑子里零散的东西组织成别人能理解的内容,让思考闭环!

这个过程本身就是在检验你对raw input的消化程度,而让模型来写blog,跳过的恰恰就是这个过程;

所以本质不是"要不要写",而是"检验有没有值得梳理和结构化的真实思考";

有的话就写;没有的话,还是别浪费水电去NTP了…

Harness Engineering : memory 记忆

后续的 blog 原本打算按草稿箱里拟好的顺序,继续写模型推理那条线;

但这半年都在做 Agent Harness,还是先写点贴近实际工作的东西吧;

今天先从"记忆"聊起,不会让CC画 fancy 的图了、也不会让模型总结润色了,想到什么就写什么;

首先按马斯克的第一性原理进行拆解(最近他随川子来北京,先用这套方法论),记忆数据无非就是:怎么来 → 怎么存 → 怎么找 → 怎么维护

对应四个阶段:

  1. 记忆捕获
  2. 记忆存储
  3. 记忆召回
  4. 记忆管理

记忆捕获

实践中完全可以靠 Hook 来实现;

现在的Agent,不论是成熟的开源(xxClaw)还是自研的,都会内置几十种 Hook,这些 Hook 天然就是记忆的接入点;

比如:

  • PostToolUse:工具执行完毕后,捕获执行结果(专业点叫Observation)
  • SessionEnd:session 结束后,沉淀本次对话内容

所以用好 Hook,记忆数据的接入并不难

记忆存储

但在真正持久化之前,还有不少前置工作要做:数据脱敏、去重、过滤,不能无脑什么都存(比较共识的东西就pass了)

在决策要做持久化之后,可以按现在比较主流的四层模型来组织:

  • Working Memory:当前工具执行上下文
  • Session Memory:跨轮次的对话状态
  • Semantic Memory:语义层面的沉淀
  • Procedural Memory:流程化的经验与习惯,甚至可以搞成tool、skill

这套四层结构现在基本已经是标准了,不过可以在此基础上进一步抽象,抽象出更高维度的记忆;

在存储介质这边,一份数据至多差不多要存四份:

形式用途
raw input保留上下文完整性
关键词倒排索引支持后续 BM25 检索
Dense 向量支持后续语义召回
Graph图支持多跳推理

记忆召回

其中,BM25 + 向量 的双路召回大家都在用,但Graph图索引,用好还是挺难的,用着用着就腐化了,属于典型的高门槛高收益高难度(有机会再单开一篇讲讲);

所以理想化的是三路召回 + RRF,如果有时间、资源的话,还可以考虑再加个Cross-Encoder做精排;

记忆管理

这是最难的部分,也是最容易出问题的地方,是区别于给老板看的demo与真正线上产品的分水岭;

写入侧:

  • 向量索引入库前,需要先判断和存量记忆的关系;是否可以归入某个已有记忆簇,还是新开一簇
  • 知识图谱,提取 entity 和 relationship 之后,要做去重合并,如果出现冲突的 relationship,怎么解决该留谁
  • 是否保留多版本,版本链该如何管理

运维侧:Agent 也需要类似人脑的两个机制:

  • 整合机制(也就是"做梦"):每天凌晨跑的,把 Working Memory 和 Session Memory 里沉淀下来的内容提炼升格,写入 Procedural Memory,也就是碎片化、结构化整理,哪些该强化、哪些该弱化
  • 遗忘机制:旧版本记忆、以及访问频率低的记忆,可以按记忆强度进行衰减(简单实现可以是:7 天未访问,强度 × 0.9;30 天未访问,强度 × 0.9²…)以此类推,让冷记忆自然退出检索视野

小结

以上就是我对 Agent 系统中「记忆」模块的一些工程化思考(时间也精力有限,没有深入每个细节)

记忆可以算是 Agent Harness 中持续学习能力和个性化表现的核心了,但其复杂度也决定了区分「玩具 Demo」与「可用产品」;

但如何落地实践还是要做权衡,毕竟,思考的闭环,最终还是需要落到人来把控。

http://www.jsqmd.com/news/852747/

相关文章:

  • 2026论文降AI率工具:11款工具实测谁才是真神器?
  • Arduino游戏手柄库终极指南:从零打造专业级USB控制器
  • 高频电源“隐形杀手”:磁芯损耗到底怎么算?从铁氧体到磁粉芯的实战损耗分析与温升估算
  • Simulink仿真避坑:单电阻采样重构三相电流,如何搞定扇区切换时的采样丢失?
  • 告别Keil编译报错:手把手教你搞定NRF52833 SDK 17.0.2环境搭建(含micro_ecc_lib缺失解决方案)
  • 信噪比计算实战:从原理到Python代码实现
  • GitHub社区徽章系统:从技术实现到开发者声誉构建的深度解析
  • 利用Taotoken模型广场为不同任务选择合适大模型
  • 2026年互联网公司建站哪家比较好?良心推荐这5家建站平台! - FaiscoJeff
  • 小白专属 Kali Linux 虚拟机搭建指南,图文实操轻松完成环境部署
  • Java生态如何做企业级AI集成
  • 我是一个AI Agent,我来聊聊“数字分身“这件事
  • Semtech开源LoRa Basics Station:重塑物联网网关生态与部署实践
  • 一个从零实现的 CUDA 大模型推理引擎
  • 从HDFS到BGL:拆解Loghub里那些‘带答案’的日志,看大厂如何定义系统异常
  • 陕西建筑资质代办行业洗牌:禹昂科技凭合规专业突围 - 深度智识库
  • 2026论文必藏降AIGC平台大曝光:三步操作让AI痕迹消失无踪
  • Windows微信防撤回完整指南:免费开源工具一键解决消息撤回烦恼
  • 地暖行业如何做新媒体AI智能获客?2026年全网推广指南与服务商盘点 - 优质企业观察收录
  • Bilibili神奇弹幕机器人:打造智能直播间的完整免费解决方案
  • Docker基础--LXC容器化实战(包含部分命令)
  • 2026年4月国内热门的mpp电力管企业推荐,双壁波纹管/七孔梅花管/钢带波纹管/pe管,mpp电力管厂家哪家好 - 品牌推荐师
  • 上海昆仑腕表去哪修不被宰?金桥系列泡泡镜保养收费揭秘:小众高端表的 “独家” 养护方案 - 亨得利官方维修中心
  • 基于8ms平台的嵌入式GUI开发实践:智能家居86盒UI设计与实现
  • 自动化AI算法训练服务器DLTM训推一体工作站让企业轻松自建AI能力
  • 从MATLAB到空口信号:Xilinx Zynq Z-7020 + AD936x射频板的软硬件协同设计入门
  • Umi-OCR完整指南:免费离线OCR软件的终极使用教程
  • 乌鲁木齐GEO优化公司推荐:新AI 搜索时代的企业增长新引擎 - 品牌评测官
  • 别再死记硬背公式了!用VisionMaster的N点标定,手把手教你搞定相机和机械手‘对齐’
  • 2026年视频播放器选型指南:8款主流播放器横向对比,硬解/格式/性能全测评(附工具大全)