【2026最新收藏版】AI Agent四层记忆架构详解|吊打传统两层架构(面试必刷+工程落地)
做AI Agent开发和面试复盘这几年,我发现了一个普遍且致命的问题:90%的开发者、面试者对Agent记忆系统的认知,还停留在2023年老旧的“短期记忆+长期记忆”两层架构。
但在2026年企业级线上落地、复杂长任务、个性化智能交互的场景下,传统两层架构早已彻底过时,无法适配工业化的AI Agent落地需求。
今天这篇2026收藏版文章,我将结合当下主流开源项目(Hermes Agent、OpenClaw、DeerFlow 2.0),从零拆解工业级四层记忆架构,包含核心原理、数据流转、工程落地、避坑指南、高频面试题,新手能看懂、程序员能落地、面试能直接满分答题,建议收藏反复研读。
一、 四层记忆架构数据流向图
记忆系统的本质是解决 “LLM 上下文窗口有限” 和 “长任务 / 跨会话需要历史信息” 这对核心矛盾。
传统两层架构粒度太粗,工程上通常会进一步拆成上下文、任务状态、会话历史、长期沉淀这几类能力:
记忆系统的本质是解决 “LLM 上下文窗口有限” 和 “长任务 / 跨会话需要历史信息” 这对核心矛盾。传统两层架构粒度太粗,工程上通常会进一步拆成上下文、任务状态、会话历史、长期沉淀这几类能力:
四层记忆核心参数对照表
| 记忆层级 | 定位 | 存储介质 | 典型容量 | 访问延迟 | 三大开源项目实现 |
|---|---|---|---|---|---|
| 第 0 层上下文窗口记忆 | 热记忆 / 当前交互 | LLM 原生上下文 | 4k~128k tokens | 最低(直接推理) | Hermes 核心记忆注入 OpenClaw 核心记忆 / 近期笔记按需进入上下文 DeerFlow 上下文压缩 |
| 第 1 层工作记忆 | 任务认知黑板 / 长任务必备 | 内存 / 文件 / 任务状态 | 无硬限制 | 低 | DeerFlow sub-agent 上下文隔离 OpenClaw 工作区每日笔记 Hermes 核心偏好约束 |
| 第 2 层会话记忆 | 单会话完整历史 | SQLite / 本地文件 | 单会话无限 | 中 | Hermes SQLite 会话搜索 OpenClaw 每日笔记 + memory_search DeerFlow 中间结果 offload |
| 第 3 层长期记忆 | 跨会话知识沉淀 | 文件 / DB / 向量索引 | 理论无限 | 较高 | Hermes 有界 Markdown 记忆 OpenClaw MEMORY.md + memory/*.md 索引 DeerFlow 本地长期记忆 |
四层记忆架构 核心优势有三个:
第一,冷热分离:高频访问的热记忆放上下文,低频的冷记忆存向量库,兼顾速度和容量;
第二,升降级机制:会话结束后自动提炼精华写入长期记忆,检索命中的冷记忆重新注入上下文;
第三,治理边界清晰:每一层都有独立的清理、去重、过期机制,从根源避免 “记忆熵增”。
Hermes、OpenClaw、DeerFlow 这类项目都体现了分层记忆思想,但实现方式并不完全相同:有的偏核心记忆注入,有的偏本地工作区和记忆检索,有的偏长任务上下文工程。
面试官大概率 问的两个问题,提前准备好:
问 1:为什么不直接把所有记忆都塞上下文?反正现在大模型窗口都很大了?
答:三个现实问题绕不开:
(1) 成本问题:上下文是 O (n²) 的 Token 开销,1M 窗口跑起来成本是几十倍的上涨;
(2) 注意力问题:长上下文存在 “中间遗忘效应”,模型注意力集中在开头和结尾,中间信息大概率被忽略;
(3) 延迟问题:窗口越大推理速度越慢,线上 C 端产品根本扛不住。
所以窗口再大,分层记忆依旧是工程最优解。
问 2:工作记忆这一层和传统短期记忆到底区别在哪?
答:本质完全不同:
传统短期记忆是 “对话流水账”,按时间顺序存原始对话;
工作记忆是 “结构化任务认知”,存的是任务目标、实体关系、中间产出,和对话顺序无关。
举个例子:写一篇万字调研报告,短期记忆存的是你和 Agent 的每一句对话,工作记忆存的是 “当前写到第几章、已确认的核心论点、引用的数据源”。这就是为什么加了工作记忆层,长任务就不会 “跑着跑着忘了最初目标”。
二、四层记忆架构深度拆解
这部分是面试的核心,也是区分 “背题党” 和 “真做过项目” 的关键。
我把每一层拆开来讲,不光讲原理,重点讲三大开源项目怎么实现的、线上踩过什么坑、面试官最爱问什么,看完直接能答题。
第 0 层:上下文窗口记忆(In-Context Memory)
1. 核心定位与原理
这是最基础、也是所有人都接触过的一层。
简单说就是把对话历史直接塞 LLM 的提示词里,依托大模型自身的注意力机制来 “记住”。
这一层的特点非常鲜明:
- 优点:速度最快、无额外开销、实现最简单
- 缺点:容量最受限、成本随长度指数级上涨、长上下文注意力稀释
面试官灵魂拷问:既然上下文窗口这么好用,为什么还要其他记忆层?
你答:三个硬伤绕不开 :
- ① 窗口再大也有上限;
- ② Token 成本是 O (n²) 上涨,128k 上下文比 8k 贵几十倍;
- ③ 长上下文存在 “中间遗忘效应”,模型只记得开头结尾,中间内容基本被忽略。
2. 三大核心实现方案(面试必考点)
(1)固定窗口截断方案
原理:只保留最近 N 轮对话或者最近 N 个 token,超出的部分直接丢弃。
- 适用场景:闲聊机器人、简单客服问答、信息价值快速衰减的场景
- 优点:实现零成本、长度绝对可控
- 踩坑点:用户开头说的 “输出要严谨”" 不要改格式 “这类全局指令,很容易被截断丢掉,导致后面 Agent 突然” 失忆变傻 "
(2)滑动窗口 + 置顶保护方案
原理:系统指令、全局规则这类重要信息永久置顶不参与截断,只截断尾部的普通对话历史。
- 这是目前工业界标配方案,比纯固定窗口靠谱太多
- 优化点:支持给重要消息打标记 “免截断”
(3)实时令牌压缩方案
原理:工具返回的大体积内容、长文本先做摘要压缩再进上下文。
- 适用场景:大量工具调用、文档检索的 Agent
3. 三大开源项目实现对比
| 项目 | 实现方案 | 核心细节 |
|---|---|---|
| Hermes Agent | 核心记忆注入 + 会话搜索 | MEMORY.md/USER.md保存短而稳定的长期信息,历史会话走 SQLite/FTS5 搜索 |
| OpenClaw | 工作区记忆文件 + memory_search | 核心记忆和近期笔记按需进入上下文,更早历史通过检索召回 |
| DeerFlow 2.0 | Sub-Agent 隔离 + 上下文压缩 | 通过子任务上下文隔离、中间产物落地和摘要压缩减少上下文压力 |
很多团队上线前只测短对话,一到真实用户连续聊几十轮,Agent 就可能忘掉最开始的要求,输出格式也开始漂移。
根源通常不是模型突然变差,而是没有做重要信息置顶保护。
4. 本层高频率面试题
Q:上下文窗口的 “中间遗忘效应” 是什么?怎么缓解?
A:大模型处理长上下文时,注意力主要集中在开头和结尾,中间内容的召回率大幅下降。缓解手段:① 重要信息放开头或结尾;② 关键内容定期重复出现;③ 不要过度依赖长上下文,该分层就分层。
第 1 层:工作记忆(Working Memory)
1. 为什么必须加这一层?
之前团队做调研报告 Agent,用户要求 “写一份 10 个章节的行业报告”,结果跑了 3 个小时,最后 Agent 忘了要写 10 章,只输出了 3 章就结束了。
这就是传统两层架构的致命死穴:长任务跑着跑着就忘了最初的目标。
工作记忆就是专门解决这个问题的,它不是 “对话流水账”,而是当前任务的 “认知黑板”: 存的不是对话内容,是结构化的任务状态。
2. 核心能力
工作记忆(Working Memory) 记录的是 任务状态+任务目标+任务中间成果物
(1) 任务目标锚定:永久记住最终目标,防止跑偏
(2) 实体关系图谱:记录任务涉及的人、事、物及其关联
(3) 中间结果持久化:已完成的子任务产出落地,不用反复重算
(4) 断点续传支持:任务中断了,从上一个状态继续,不用从头再来
3. 三大开源项目深度对比
| 项目 | 实现方式 | 核心创新 | 适用场景 |
|---|---|---|---|
| DeerFlow 2.0 | Sub-Agent 上下文隔离 + 文件产物沉淀 | 通过子任务隔离、sandbox 文件系统和上下文压缩降低长任务失忆风险 | 长报告、自动化调研、代码项目生成 |
| OpenClaw | 工作区每日笔记 + 检索索引 | 当前和近期工作上下文可直接检查,更早历史通过 memory_search 召回 | 个人助理、代码开发、文档写作 |
| Hermes | 有界核心记忆 + 会话搜索 | 用小而稳定的核心偏好约束当前任务,历史会话走 SQLite 搜索 | 个人助理、日常办公助手 |
4. 本层高频率面试题
Q:工作记忆和传统短期记忆的本质区别是什么?
A:三个维度完全不同:
(1) 内容不同:短期记忆是对话流水账,按时间排序;工作记忆是结构化任务状态+任务目标+任务中间成果物,和对话顺序无关
(2) 目的不同:短期记忆是 “记住说了什么”;工作记忆是 “记住要做什么、做到哪了”
(3) 价值不同:没有工作记忆,Agent 做不了超过 10 轮的长任务
Q:工作记忆会增加系统复杂度,简单任务要不要加?
A:简单对话类任务确实不需要,但只要是任务型 Agent,哪怕不复杂,建议都加上。成本不高,但能避免大量 “目标漂移” 的线上故障。
第 2 层:会话记忆(Episodic Memory)
1. 核心定位
会话记忆就是当前这一轮完整对话的 “外存”: 上下文窗口装不下的内容,先存在这一层。
边界很清晰:当前会话内有效,会话结束默认不跨会话加载。
作用就是承接上下文窗口溢出的内容,避免重要信息被直接丢掉。
2. 两大核心实现方案
(1)滚动摘要方案
原理:对话历史快塞满窗口时,不直接删除最早的内容,而是把前面一段对话总结成一条短摘要,用摘要替换原始记录。
- 优点:压缩长度的同时,尽量保住任务目标、风格要求、已确认结论
- 缺点:多一次模型调用,摘要质量直接影响后续效果
- 适用场景:项目规划、长篇创作、长任务类 Agent
(2)会话内检索方案
原理:整个会话历史向量化,当前问题只召回最相关的 N 条历史,不把所有历史都塞上下文。
- 适用场景:单会话超长篇任务(写一本书、做大型调研)
3. 三大开源项目实现对比
| 项目 | 实现方案 | 触发时机 |
|---|---|---|
| Hermes | SQLite 会话搜索 | 历史会话进入本地数据库,通过全文检索找回相关内容 |
| OpenClaw | 每日笔记 + 检索索引 | 近期笔记按需进入上下文,远期历史通过 memory_search 召回 |
| DeerFlow 2.0 | 上下文压缩 + 中间结果落地 | 通过摘要、裁剪和文件产物 offload 控制长任务上下文 |
滚动摘要这个方案,最容易踩的坑就是摘要质量差。摘要一旦总结错了,相当于给 Agent 植入了错误记忆。
更稳的做法是:
- ① 摘要模型和主任务模型解耦;
- ② 关键信息(比如用户要求、核心结论)标记为 “不参与摘要”;
- ③ 摘要结果进入上下文前做一次校验。
4. 本层高频率面试题
Q:滚动摘要多了一次模型调用,成本怎么控制?
A:三个优化手段:
- ① 降低摘要触发频率,比如超过 20 轮才摘一次;
- ② 用便宜的小模型做摘要,成本是主模型的 1/10;
- ③ 摘要结果做缓存,同一段不用反复摘。
Q:会话记忆和工作记忆有重叠吗?
A:定位完全不同。会话记忆是 “这轮对话都说了什么”,工作记忆是 “这个任务做到哪了”。前者是情景记录,后者是任务状态。
第 3 层:长期记忆(Long-term Memory)
1. 核心定位
跨会话的持久化记忆,是 Agent"越用越聪明" 的核心。
简单说就是:上次对话你说过 “我讨厌写注释”,这次找 Agent 写代码,它自动就记住了,不用你再说一遍。
特点:容量大、访问频率低、必须检索才能使用。
2. 核心技术链路:存储 → 索引 → 检索 → 注入
(1)存储层:三大开源方案对比
| 项目 | 存储介质 | 设计哲学 | 优势 |
|---|---|---|---|
| Hermes | Markdown 核心记忆 + SQLite/FTS5 | 轻量化、本地优先 | 部署简单,会话搜索方便 |
| OpenClaw | MEMORY.md+memory/*.md+ SQLite 混合索引 | 人类可读、可直接编辑 | 调试方便,可人工修正记忆 |
| DeerFlow | 本地长期记忆 + 文件系统产物 | 长任务上下文工程 | 适合多步骤任务和中间结果沉淀 |
选型建议:
- 个人偏好和本地会话搜索选 Hermes;需要长期运行在本地、记忆可检查可修改,选 OpenClaw;
- 多步骤长任务和文件产物型 Agent 选 DeerFlow。
(2)索引层:2026 年主流是混合检索
纯向量检索已经不够用了,现在都是三驾马车混合检索:
(1) 向量相似度:语义匹配
(2) BM25 关键词:精确匹配
(3) 实体标签:结构化过滤
(3)检索层:不是什么都值得存
该存进长期记忆的内容:
- 用户稳定偏好(“我喜欢简洁输出”)
- 任务核心目标
- 已经确认的重要事实
- 后续会复用的结论
不该存的:临时对话、中间过程、错误信息
(4)注入层:召回结果排序去重后,按优先级注入上下文
3. 本层高频率面试题
Q:长期记忆为什么不用纯文件存储,一定要上向量库?
A:向量库支持语义相似度检索。
比如用户说 “我上次说的那个方案”,向量库能从几千条历史里,找到语义相关的那条;纯文件存储只能按时间查找,做不到语义理解层面的召回。
Q:向量检索不准怎么办?
A:更稳的工程解法是混合检索 : 向量 + 关键词 + 实体标签多维度打分。
相比纯向量检索,它更适合同时处理语义相似、精确术语和实体过滤问题。
老架构师总结
这四层记忆,面试的时候别光说名字,记住一句话:
第 0 层拼速度,第 1 层拼长任务稳定性,第 2 层拼会话连贯性,第 3 层拼个性化体验。
少了第 1 层,做不了长任务;少了第 3 层,做不到 “越用越懂你”。这就是为什么行业要从两层升级到四层。
三、工业级 Harness 实操之 memory infra 记忆底座架构
很多 Agent 线上故障,不是模型不行,而是记忆系统没治理好。
很多团队做记忆系统,只做 “存” 和 “取”,完全忽略 “治”。
上线前三个月好好的,越用越乱:重复记忆一大堆、过时信息还在影响决策、新旧事实冲突了 Agent 自己也分不清,最后整个记忆系统彻底熵增,变成一团浆糊。
就是记忆系统没治理好
尼恩团队结合 Hermes 、 DeerFlow 等Harness 马具架构的 灵魂,给大家 打造一个 工业级 Harness 实操之 memory infra 记忆底座.
请参考尼恩团队 《 全球顶级 全栈 AI 架构视频 第十一章 : 手写 工业级harness 基础设施架构实操 》
这一节全是踩坑踩出来的经验,也是现在大厂面试深挖的重点。
1. 为什么必须做治理?记忆熵增定律
什么是 记忆熵增定律 ?
先讲个真实线上事故: 某团队做的智能客服,上线半年,用户明明说 “我要退款”,Agent 还在给人发优惠券。
查了三天才发现:
- 三个月前这个用户咨询过优惠券,这条过时记忆一直没清理
- 检索的时候权重还很高,把最新的退款请求给盖过去了。
这就是记忆熵增定律:只要不加治理,记忆系统一定会自发地从有序走向混乱。
面试官提问:记忆系统只做存储和检索不行吗?为什么还要治理?
你可以答:只存不治,三个问题必然出现:
(1) 重复记忆:同一个事实存 N 遍,检索结果全是冗余
(2) 过时记忆:信息过期了还在用,导致决策错误
(3) 冲突记忆:新旧事实矛盾,Agent 自己不知道该信哪个
治理的本质就是对抗熵增,让记忆系统长期可用。
2. memory infra 记忆底座 的 五大核心治理机制
机制一:设计 记忆准入机制
注意 , 不是什么都配进长期记忆
核心原则:写入前先做 “资格审查”,别什么垃圾都往里塞。
具体怎么做:
(1) 重要性打分:模型给每轮对话打分,低于阈值直接不存
- 用户偏好、核心目标、已确认事实 → 高分必存
- 闲聊、中间过程、临时信息 → 低分过滤
(2) 语义去重校验:写入前和已有记忆做相似度比对,重复的不存
(3) 事实校验:明显错误的信息直接拦截
三大开源项目实现对比
| 项目 | 准入机制 | 具体实现 |
|---|---|---|
| Hermes | 字符上限 + 写入校验 | 对核心记忆做敏感信息扫描、重复检测和长度约束 |
| OpenClaw | 文件可编辑 + 检索增强 | 稳定事实写入MEMORY.md,日常笔记通过索引召回 |
| DeerFlow | 长任务上下文治理 | 通过 sub-agent、文件产物和长期本地记忆降低上下文污染 |
不能 图省事,直接 “对话全量存”,运行一段时间后,记忆库里会堆积大量无效内容,检索噪声明显变大。
加上准入机制后,写入量会下降,但召回质量通常会更稳定。
宁可少存,也别乱存。
机制二:记忆合并与归一化
记忆合并与归一化 ,目标 解决冗余与实体混乱
两个最常见的问题:
(1) 同一件事存了七八遍,检索出来全是重复
(2) “张三”" 张总 ““张工”” 张三老师 ",Agent 不知道是同一个人
具体怎么做:
(1) 语义去重合并:相似度超过阈值的记忆自动合并,只保留最新版本
(2) 实体归一化:实体链接 + 消歧,同一个人的不同称呼统一成一个实体 ID
(3) 冲突解决:新旧事实冲突时,默认新记忆覆盖旧记忆,高优先级保留
机制三:记忆过期与主动遗忘
记忆过期与主动遗忘 ,目标 该忘的就得忘
- 人类会遗忘,这是优点;
- Agent 不会遗忘,就是缺陷。
主流遗忘策略:
(1) 时间衰减曲线:90 天自动过期,越老的记忆检索权重越低
(2) 访问频率衰减:越久没被召回的记忆,权重持续降低
(3) 定期清理:每日凌晨跑定时任务清理无效记忆
开源项目中的相关能力
- OpenClaw Dreaming / Memory Wiki 类能力:Dreaming 是可选后台整理,Memory Wiki 是伴随插件,可以辅助整理知识,但不要把这些增强能力当成基础记忆主线来背
- Amazon Bedrock:Intelligent Consolidation 智能合并,四种策略:语义合并、用户偏好提取、摘要压缩、情景记忆固化
面试官高频追问:
主动遗忘会不会把重要信息删掉了?
你可以回答:不会,我们会做记忆分级:
- 核心记忆(用户偏好、重要事实):永久保存,不参与自动过期
- 普通记忆(单次对话结论):90 天过期
- 临时记忆(中间过程):会话结束就删
分级处理,该永久存的不会丢,该忘的果断忘。
机制四:记忆升降级 : 四层架构的核心联动
这是四层记忆架构最精妙的设计:记忆不是一成不变的,会在四层之间流动。
完整升降级链路:
(1) 降级(热→冷):
- 对话溢出 → 从第 0 层写入第 2 层会话记忆
- 会话结束 → 精华提炼后写入第 3 层长期记忆
- 任务完成 → 工作记忆的核心结论沉淀到长期记忆
(2) 升级(冷→热):
- 检索命中 → 从第 3 层长期记忆注入第 0 层上下文
DeerFlow 相关实现:
DeerFlow 2.0 更强调 sub-agent 上下文隔离、sandbox 文件系统、中间结果 offload 和本地长期记忆。更准确的说法是:它适合承载长任务记忆与上下文治理,但具体存储分层要看落地方案。
机制五:记忆安全与可解释性
记忆安全与可解释性 , 目标 用户要有控制权
记忆系统处理的都是用户数据,安全和可控是底线。
三大必备能力:
(1) 用户可控:提供界面让用户可以查看、编辑、删除任意一条记忆
(2) 审计日志:谁、什么时候、修改了哪条记忆,全链路可追溯
(3) 防注入防护:记忆写入前做恶意指令检测,防止提示注入通过记忆传播
进一步做多 Agent 系统时,可以借鉴操作系统的隔离思想,把主 Agent 的全局记忆和工作 Agent 的局部记忆分开,降低记忆污染扩散的风险。
3. 三大开源项目治理方案全景对比
| 治理机制 | Hermes | OpenClaw | DeerFlow 2.0 |
|---|---|---|---|
| 记忆准入 | 字符上限 + 写入校验 | MEMORY.md精简长期事实,每日笔记走索引召回 | 上下文压缩 + 长期记忆写入约束 |
| 去重合并 | 重复检测 | 依赖索引和人工整理 | 写入时尽量跳过重复事实 |
| 过期遗忘 | 手工修订核心记忆 | Dreaming / Memory Wiki 可辅助整理,基础能力仍以文件和索引为主 | 以具体版本实现为准 |
| 升降级 | 核心记忆注入 + 会话搜索 | 核心记忆 / 近期笔记按需进入上下文,远期历史检索 | 中间结果 offload,必要信息回注上下文 |
| 安全可控 | Markdown 可审查 | Markdown 直接修改 | 通过 memory / filesystem 机制沉淀 |
4. 本层高频面试题
Q:小项目、简单场景,能不能不做记忆治理?
A:短期跑 demo 可以,长期上线就不建议省掉。哪怕最简单的系统,也至少要做两个基础治理:
- ① 写入前去重;
- ② 过期或降权机制。它们实现成本不高,却能显著降低记忆噪声。
Q:记忆治理会不会增加很多成本?
A:恰恰相反,治理通常能降本。
无效记忆少了,检索范围会缩小,召回质量会提高,大模型反复纠错的次数也会减少。
短期看增加了一点复杂度,长期看是省钱又省心。
Q:你在项目中遇到过哪些记忆治理的坑?怎么解决的?
A:可以按一个企业知识库 Agent 的典型故障来讲:上线一段时间后,检索准确率持续下降。
排查发现是大量过时的旧文档记忆还在被召回,而且同一个知识点更新了三四版,旧版本还在。
解决方案:
(1) 加了版本号机制,新文档写入后自动标记旧版本过期
(2) 加了时间衰减,超过三个月的记忆权重自动减半
(3) 做了记忆分级,核心知识永久保存,临时文档 90 天自动清理
优化后,过时内容的召回比例会明显下降,检索结果也更稳定。
5、参考实现
请参考尼恩团队 《 全球顶级 全栈 AI 架构视频 第十一章 : 手写 工业级harness 基础设施架构实操 》
尼恩团队结合 Hermes 、 DeerFlow 等Harness 马具架构的 灵魂,给大家 打造一个 工业级 Harness 实操之 memory infra 记忆底座.
请参考尼恩团队 《 全球顶级 全栈 AI 架构视频 第十一章 : 手写 工业级harness 基础设施架构实操 》
四、三大开源项目记忆架构全景对比
从定位上看
- Hermes 更偏有界持久记忆 + 会话搜索
- OpenClaw 更偏个人助理运行时 + 工作区文件记忆 + 混合检索
- DeerFlow 2.0 更偏长任务 SuperAgent Harness + 上下文工程 + 本地长期记忆。
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
五、面试高频原题精准解答
尼恩一直在给vip陪跑, 在辅导大家进 字节、阿里、腾讯 的过程中, 碰到大量 真实面试题 。
原题1:Agent 的记忆系统分哪几层?每层怎么实现?
出现频率:95% 以上的 Agent 岗位必考题
记忆系统的本质是解决 “LLM 上下文窗口有限” 和 “长任务 / 跨会话需要历史信息” 这对核心矛盾。传统两层架构粒度太粗,现在行业已经收敛到四层设计:
现代工业级 Agent 采用四层分层记忆架构:
(1) 上下文窗口记忆:当前对话直接放入 LLM 提示词,速度最快但容量最小
(2) 工作记忆:存储当前任务的 任务状态+ 任务目标+ 任务中间成果物 (中间结果 、实体关系),解决长任务失忆问题。
(3) 会话记忆:当前完整会话历史,通过滚动摘要控制长度
(4) 长期记忆:跨会话持久化存储,通过向量检索按需召回
核心原则是分层存储、按需加载、动态治理。
| 层级 | 定位 | 存储介质 | 开源实现参考 |
|---|---|---|---|
| 上下文窗口记忆 | 热记忆,当前交互 | LLM 原生上下文 | Hermes 双文件置顶保护 |
| 工作记忆 | 任务认知黑板 | 任务状态+ 任务目标+ 任务中间成果物 | DeerFlow sub-agent 上下文隔离 |
| 会话记忆 | 单会话完整历史 | SQLite / 本地文件 | OpenClaw 每日笔记 + memory_search |
| 长期记忆 | 跨会话知识沉淀 | 向量库 / 知识图谱 | 三大项目均有实现 |
这套设计的核心优势是冷热分离:高频访问的热记忆放上下文,低频的冷记忆放文件、数据库或索引里;
同时有清晰的升降级机制,会话结束自动提炼精华写入长期记忆,检索命中再注入上下文。
Hermes、OpenClaw、DeerFlow 这类项目都体现了这套思想,但具体实现不能混着讲。
高频原题 TOP 2:短期记忆的滚动摘要和固定截断怎么选?
出现频率:85%
基础版答案
- 固定窗口截断:只保留最近 N 轮对话,实现简单、成本低,适合闲聊、简单问答这类信息快速衰减的场景;缺点是重要信息容易被截断
- 滚动摘要:历史快满时把前面内容压缩成摘要,能保住高价值信息,适合长任务、项目规划;缺点是多一次模型调用,摘要质量影响效果
但是, 这两个方案不是二选一,现在行业都是组合使用:
(1) 简单短对话场景用固定截断,零成本、够稳定
(2) 长任务场景用滑动窗口 + 置顶保护 + 滚动摘要:重要指令永久置顶不参与截断,普通对话历史超过阈值才触发摘要
(3) 摘要环节用便宜的小模型做,不要用主模型,成本降 90%
我们团队踩过的坑:纯滚动摘要最容易出问题的就是摘要质量,一旦摘要错了,相当于植入错误记忆,后面全错。所以我们现在的做法是:关键信息标记 “不参与摘要”,摘要结果做二次校验。
面试官连环追问 & 标准答案
追问:滚动摘要多了一次模型调用,成本怎么控制?
答:三个优化手段:
① 降低触发频率,超过 20 轮才摘一次;
② 用专门的小模型做摘要,成本是主模型的 1/10;
③ 同一段摘要做缓存,不用反复摘。
高频原题 TOP 3:长期记忆为什么不能全量存储?记忆治理怎么做?
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
**
**
高频原题 TOP 4:长任务 Agent 如何解决 “跑久了失忆” 的问题?
(4) 定期目标复盘:每执行 N 步,强制让模型回顾一次原始目标,拉回正轨
高频原题 TOP 5:向量检索不准怎么办?
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
高频原题 TOP 7:大模型上下文窗口越来越大(1M+ tokens),记忆系统还有存在的必要吗?
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
**
**
高频原题 TOP 8: 工作记忆和会话记忆的本质区别是什么?
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
**
**
高频原题 TOP 9: 多用户场景下,记忆系统的隔离与共享如何设计?
高频原题 TOP 10: Multi-Agent 多智能体场景下,全局共享记忆怎么设计?
高频原题 TOP 11:记忆系统的容灾备份与数据迁移方案怎么设计?
高频原题 TOP 12:如何设计记忆系统的监控指标体系?
高频原题 TOP 12: 线上出现 Agent"记忆混乱",怎么排查与定位?
高频原题 TOP 13: 记忆检索准确率低,怎么系统性优化?
高频原题 TOP 14: 记忆系统的成本太高,怎么优化?
高频原题 TOP 15: 如何防止记忆系统被提示注入攻击?
尼恩提示:原文3w字以上, 超过平台限制, 此处省略 1000字,具体请参考 免费pdf。
完整版本,请参考 尼恩 免费百度网盘 免费pdf ,点赞收藏本文后,截图 找尼恩获取
七、总结:记忆架构设计的三大黄金原则
整个 Agent 记忆系统讲完了,最后我用三句话总结整个文档的核心,也是我们团队踩了无数坑总结出来的三大黄金原则。不管是面试答题,还是实际做项目,守住这三条,基本就不会出大问题。
黄金原则一:分层原则 : 冷热分层,按需加载
永远不要把所有记忆都塞到上下文窗口里。
- 热记忆(第0层 上下文、第一层 工作记忆 )放缓存,追求速度;
- 温记忆(第二层 会话历史)放本地数据库,追求连贯;
- 冷记忆(第三层 长期沉淀)放向量库,追求容量。
记忆在四层之间自动升降级,该升的升,该降的降。
这是所有优秀记忆架构的共性 :
- Hermes 的硬上限、
- OpenClaw 的工作区记忆文件 + 检索索引、
- DeerFlow 的文件产物和上下文压缩,本质都是在践行这条原则。
反例就是那些 “把所有历史都塞上下文” 的朴素实现,窗口再大也救不了成本爆炸和注意力稀释。
黄金原则二:治理原则 : 对抗熵增,动态治理
记忆系统不是 “存进去就完事” 的仓库,它是一个动态的、需要持续治理的数据资产。
只存不治,必然熵增。三个月后一定是记忆混乱、检索噪声、决策错误。
五大治理机制一个都不能少:准入要严、去重要勤、过期要忘、升降要顺、用户要可控。宁可少存,也别乱存。
这是 90% 团队踩过的最大的坑 : 上线前只做存取,不做治理,半年后只能全量清库重来。
黄金原则三:务实原则 : 场景驱动,拒绝炫技
没有最好的架构,只有最适合场景的架构。
- 个人日常用,选 Hermes,有界核心记忆 + 会话搜索,简单就是美
- 个人助理长期运行、开发者写代码搞创作,选 OpenClaw,本地工作区 + Markdown 记忆 + 混合检索,透明就是生产力
- 多步骤长任务和文件产物型 Agent,选 DeerFlow,sub-agent + sandbox + 上下文压缩更合适
别上来就上最复杂的长任务框架,个人轻量使用 DeerFlow 可能是过度设计;也别拿个人记忆工具去硬扛复杂长任务,那是对业务不负责。
面试的时候最加分的一句话就是:“技术没有高低,只有适合不适合场景”。这句话一出口,面试官就知道你是懂工程的,不是只会追新技术的新手。
最后
如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。
现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!
看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?
别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
2、大模型学习书籍&文档
3、AI大模型最新行业报告
4、大模型项目实战&配套源码
5、大模型大厂面试真题
四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇
6、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
