当前位置: 首页 > news >正文

智能体记忆系统设计

1. 名词解释

本节对记忆系统涉及的核心概念进行定义,详见原文附录。


2. 业务背景

2.1 智能体系统的痛点

由于大模型本身的上下文窗口限制,以及长 Token 造成的性能问题,行业主流智能体系统通常会对记忆部分进行精细化管理,兼顾智能体的性能表现及记忆能力。

通用痛点如下:

痛点类别说明
上下文窗口限制大模型输入长度受限,无法承载全部历史记忆
长 Token 性能问题上下文越长,推理耗时越高,响应变慢
跨会话遗忘新会话无法继承前序会话的关键信息
个性化需求不同用户有不同的偏好和画像,需个性化匹配

2.2 客户智能体记忆管理 — 首发场景

客户智能体为例,面向广泛的商务同事,存在突出的产品交互体验及用户画像匹配的个性化需求。

2.2.1 用户偏好场景(中长期记忆)

示例:用户 A 是一名地区销售,平时更关注小米、华为、OPPO、唯品会相关客户;客户 A 是唯品会客户,托寄物类型通常是服装、鞋履等,双十一、618 等购物节前后有较大业务量。

记忆存储流程

用户输入 query → Agent 回复 → 记忆管理工具抽取用户偏好属性 → 更新用户偏好数据库

记忆检索流程

用户输入 query → 记忆管理工具调用用户偏好数据库 → 输出用户偏好属性 → Agent 业务处理及回复

3. 开源框架调研

框架特点备注
MIRIX支持多模态记忆(可记忆图片内容),技术栈简单推荐选型
ReMe使用 FlowLLM 开发学习成本高,优化成本高
Mem0 / memOS所有记忆保存在一起,检索慢
Clawdbot_memory参见附录

推荐选型:MIRIX— 支持多模态记忆,开发技术栈相对简单;ReMe 使用 FlowLLM 开发,学习与优化成本高。


4. 总体架构

4.1 系统架构

系统分为两大核心层:

┌─────────────────────────────────────────────────┐ │ 智能体记忆系统 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌───────────────────────────────────────────┐ │ │ │ 记忆管理层 (Memory Management) │ │ │ │ │ │ │ │ · 记忆分类缓存 │ │ │ │ · 用户偏好分类 │ │ │ │ · 历史关注问题归档 │ │ │ │ · 时间/周期问题缓存 │ │ │ │ · 记忆总结、压缩、淘汰 │ │ │ │ · 精准检索 │ │ │ │ │ │ │ │ 目标: 最小化上下文 → 降低耗时 │ │ │ │ 解决跨会话遗忘问题 │ │ │ └───────────────────────────────────────────┘ │ │ │ │ ┌───────────────────────────────────────────┐ │ │ │ 记忆数据沉淀层 (Data Sedimentation) │ │ │ │ │ │ │ │ · 共同关注问题抽取 │ │ │ │ · 生成大模型训练数据集 │ │ │ │ · 垂域模型微调训练 │ │ │ │ · 知识库数据沉淀 │ │ │ └───────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘

记忆管理层:实现对记忆进行分类缓存,定时对数据进行分类(用户偏好分类、历史关注问题归档、时间/周期问题缓存等),以实现历史问题查询、个人偏好管理、个性化推荐等。同时对记忆进行总结、压缩、淘汰和精准检索,有效实现最小化上下文,压缩会话上下文大小,降低耗时,解决跨会话遗忘问题。

记忆数据沉淀层:实现对共同关注问题的抽取,生成大模型训练的数据集,用于垂域模型微调训练或知识库数据沉淀。

4.2 技术架构

┌──────────────────────────────────────────────────────────────┐ │ 智能体记忆系统技术架构 │ ├──────────────────────────────────────────────────────────────┤ │ │ │ ┌────────────────────┐ │ │ │ 记忆接入层 │ · 多模态数据提取与记忆分类 │ │ │ (Access Layer) │ · 消息队列实现负载均衡和流量削峰 │ │ └────────────────────┘ │ │ │ │ │ ▼ │ │ ┌────────────────────┐ │ │ │ 记忆加工层 │ · 合并、淘汰、压缩、沉淀等独立算子 │ │ │ (Processing Layer)│ · Pipeline 计算加工 │ │ │ │ · 满足检索性能和精准度 │ │ └────────────────────┘ │ │ │ │ │ ▼ │ │ ┌────────────────────┐ │ │ │ 可视化运维层 │ · 记忆可视化分析和修改 │ │ │ (Ops Layer) │ · 批量更新(政策变化/数据权限变更) │ │ │ │ · 新用户记忆初始化/迁移 │ │ │ │ · 集成到智能体平台中 │ │ └────────────────────┘ │ │ │ └──────────────────────────────────────────────────────────────┘
  • 记忆接入层:负责多模态数据提取和记忆分类,使用消息队列实现负载均衡和流量削峰,防止接入性能问题
  • 记忆加工层:对已接入记忆进行进一步加工,针对不同类型的记忆加工任务(合并、淘汰、压缩、沉淀等)封装成独立算子,组成 Pipeline 进行计算
  • 可视化运维层:针对记忆进行可视化分析和修改,应对政策变化或数据权限变更等情况;对用户记忆进行批量更新、新用户记忆初始化或迁移(将作为公共能力集成到智能体平台中)

5. 核心功能设计

整体功能设计是一个自上而下的链式记忆处理链条

记忆接入加工 → 记忆检索 → 检索频次缓存 → 日级别总结/淘汰/抽取/沉淀

目标:以最小成本实现具有完整核心功能的 MVP 产品。

5.1 产品用户记忆层级设计

记忆分类名词解释

记忆类型说明时效性
短期记忆当前会话内的上下文信息会话级
中期记忆跨会话的用户偏好、习惯等跨会话
长期记忆经沉淀和总结的领域知识持久化
集体记忆多用户共享的共性记忆共享级

设计逻辑

  1. 每一个接入的智能体独立在一个空间中(按照MaSS(Memory as a Service)思路设计,将集成在智能体开放平台中)
  2. 每一个空间下,每个用户拥有自己独立的记忆
  3. 根据记忆的来源和通识性,将记忆归类到集体记忆中,方便记忆共享,降低大模型对同类问题的推理频率
┌──────────────────────────────────────┐ │ Agent Space │ │ ┌────────────────────────────────┐ │ │ │ 集体记忆 (Shared) │ │ │ │ · 共性领域知识 │ │ │ │ · 专家抽取记忆 │ │ │ └────────────────────────────────┘ │ │ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ 用户 A 记忆 │ │ 用户 B 记忆 │ │ │ │ · 个人偏好 │ │ · 个人偏好 │ │ │ │ · 历史关注 │ │ · 历史关注 │ │ │ └─────────────┘ └─────────────┘ │ └──────────────────────────────────────┘

5.2 记忆保存加工设计

设计逻辑

  1. 所有保存记忆功能异步处理,通过线程池消费内化
  2. 依据大模型和提示词规则构造记忆主题分类算子,实现对记忆进行分类(有效解决了 Mem0 所有记忆保存在一起导致检索慢的问题)
  3. 每种类型的记忆通过对应的分类主题记忆算子链进行加工处理写入(ReMe 和 MIRIX 都有类似设计,可直接借鉴)
输入记忆 → 异步线程池 → 记忆主题分类算子 → 分类主题算子链加工 → 写入对应记忆库

5.3 记忆检索逻辑设计

设计逻辑

  1. 核心依旧是记忆主题分类算子,对 query 进行分类(可能得到多个分类 topic)
  2. 并发对对应分类进行相似度查询,并对结果进行整合
  3. 返回内容,或依据自定义规则构造出新的上下文提示词返回
用户 query → 记忆主题分类算子 → 多 topic 分类 → 并发相似度查询 → 结果整合 → 返回/构造上下文提示词

5.4 记忆分级缓存设计

设计逻辑

  1. 所有记忆先写入记忆历史表中用于存档追溯(后续性能问题可考虑 ELK 或 Kafka 异步记录等方式)
  2. 通过定时任务对 Redis 缓存中的数据进行刷写(热点数据 + 最近数据),保障请求尽量命中 Redis,实现访问加速
记忆写入 → 记忆历史表(存档追溯) ↓ Redis 缓存(热点数据 + 最近数据) ↓ 定时任务刷写 → 保障 Redis 命中率 → 访问加速

5.5 专家记忆抽取

设计逻辑

  1. 配置定义专家规则和专家对应的提示词
  2. 基于大模型和用户的长期记忆,实现对大多数用户共有的领域记忆进行抽取、归档,并生成版本
  3. 用于后续垂域模型训练使用
专家规则配置 + 提示词 → 大模型 + 用户长期记忆 → 领域记忆抽取 → 归档 + 版本管理 → 垂域模型训练数据集

5.6 记忆总结

设计逻辑

  1. 基于大模型评估记忆间的相关性,对记忆的相关性进行分组
  2. 通过大模型将相关性强的多条记忆合并成为一条,并更新元数据信息(元信息用于记忆遗忘淘汰使用)
  3. 删除合并前的数据,并插入新数据
记忆集合 → 大模型评估相关性 → 分组 → 合并为单条记忆 → 更新元数据 → 删除旧数据 + 插入新数据

5.7 记忆遗忘淘汰

淘汰算法

评分公式:important(重要性评分) 初始状态: important = 5, freq = 1, time = now() 检索命中: freq += 1, time = now() 每 freq 增加 3,important += 1 过期衰减: 当 time + expire ≤ now 时,important -= 1 淘汰条件: 当 important ≤ 0 时,删除记忆
参数说明
important重要性评分,默认初始值 5
freq访问频次,默认初始值 1
time最后访问时间,默认now()
expire过期阈值,与time配合进行衰减

核心机制

  • 频次加增:每次检索命中 freq +1,每 freq 增加 3 则 important +1
  • 时间衰减:超过 expire 时 important -1
  • 零值淘汰:important ≤ 0 时删除记忆

5.8 记忆编辑可运维(可集成到开放平台)

记忆可视化编辑内容可单独成为一个产品服务。

MIRIX自带一个基于 React 写的可视化模块,可以基于它来二次开发。

运维场景

场景说明
政策变化批量更新用户记忆
数据权限变更修改记忆可见范围
新用户初始化记忆模板初始化
用户迁移记忆数据迁移

6. MVP 版本部署方案

详见原文附录中的部署架构图。


7. 实施路径

详见原文附录中的分阶段实施计划。


8. 附录

8.1 框架调研资料

  • 记忆框架调研:mem0 & memOS
  • 记忆框架调研:Clawdbot_memory
  • 大模型记忆管理预研报告

8.2 参考开源项目

  • MIRIX(推荐选型)
  • ReMe
  • Mem0 / memOS

8.3 参考论文

详见原文完整列表。


设计要点总结

要点核心思路
架构理念MaSS(Memory as a Service),记忆即服务
分类策略记忆主题分类算子,避免 Mem0 的全量混合存储问题
加工模式独立算子 Pipeline(合并/淘汰/压缩/沉淀)
缓存策略Redis 分级缓存 + 定时刷写,保障命中率
淘汰算法important 颏次加增 + 时间衰减,零值淘汰
推荐框架MIRIX(多模态支持、技术栈简单)
MVP 目标最小成本实现完整核心功能链
http://www.jsqmd.com/news/1007972/

相关文章:

  • Poweradmin备份与恢复策略:DNS配置数据保护完整方案
  • Chrony NTP 时间同步服务器部署教程:替代 ntpd,搭建内网 NTP 服务
  • 全意图GEO领航企业增长超人坐镇,2026年深圳企业GEO服务商实战选型全指南 - GEO优化
  • 别再手动拼接了!Spring Boot + weixin-java-cp 5分钟搞定企业微信网页授权登录
  • 2026最新:佛山专业甲醛检测治理公司深度测评:佛山佰家环保稳居榜首 - 专注室内空气检测治理
  • 5分钟掌握Windows包管理器:winget-install智能安装方案深度解析
  • Day-0支持|摩尔线程率先完成MiniMax M3大模型适配
  • Puppeteer常见问题解答:解决90%的实战难题的终极指南 [特殊字符]
  • 避坑指南:在Vivado里用Block Memory ROM做DDS信号源,这些细节千万别忽略
  • 2026效率榜!好用的降AI率工具全盘点,AI痕迹清零无压力!
  • BarrageGrab:15个平台实时弹幕抓取的终极WebSocket直连方案
  • 2026年中山市二手手机市场,这家机构为何值得信赖? - 资讯速览
  • 26届四川高三同学为啥扎堆走单招?单招十大硬核优势摆明白! - 锦成星火菁英单招
  • 如何快速掌握WVP-GB28181-Pro:面向新手的国标视频监控平台完整教程
  • ARM9系统控制与引导模式编程:从MC9328MXS看嵌入式底层开发
  • 从硬件到固件:OpenDeck支持的30+开发板兼容性清单与选择指南
  • 005、CodeX教程:API Key vs ChatGPT 登录:两种认证方式的优劣与适用场景
  • 深入解析LS2088A安全引擎:RNG4硬件随机数生成器的底层配置与实战
  • Linux 触发用户态到内核态切换的是:系统调用、中断与异常
  • 无锡GEO优化公司口碑排行,本土服务商实力测评(2026年6月最新) - wxxwlm
  • i.MX23视频DAC与SSP接口实战:从寄存器配置到低功耗设计
  • Windows平台企业级消息防撤回技术深度解析与完全实施手册
  • Jabel vs 其他方案:为什么选择Jabel而非升级Java版本的终极指南
  • [智能体-391]:智能体(Agent)市场、MCP 工具市场
  • DRG Save Editor:三分钟快速上手,告别重复刷矿的存档编辑神器
  • 2026最新:佛山除甲醛公司深度横评:6 家热门机构实力 PK,佛山佰家环保脱颖而出 - 专注室内空气检测治理
  • TikTokDownloader终极指南:高效批量下载抖音TikTok视频的完整解决方案
  • 终极免费暗黑破坏神2存档编辑器:可视化修改完全指南
  • ChatGPT公式粘贴Word乱码?AI导出鸭技巧,三步解决,保留原始格式
  • 年薪百万、需求暴涨42倍:AI 时代最火岗位 FDE 到底是干嘛的?