当前位置：首页 > news >正文

【GitHub开源项目专栏】Letta（原MemGPT）：让LLM拥有持久记忆的革命性架构

news 2026/4/30 12:06:24

引言

你有没有遇到过这种情况：和AI聊了很久，结果它"失忆"了，之前说的全忘了？

MemGPT（现更名为Letta）正是为了解决这个问题。它借鉴操作系统虚拟内存的思想，让固定上下文窗口的LLM拥有了"无限上下文"的错觉。

项目概览

GitHub: https://github.com/letta-ai/letta
Stars: 12k+
License: Apache-2.0
原名: MemGPT

一、核心问题：LLM的上下文瓶颈

1.1 有限上下文窗口

即使是最先进的LLM，上下文窗口也有物理限制：

GPT-4o: 128K tokens
Claude 3.5: 200K tokens
Gemini 1.5: 1M tokens

但实际场景中可能需要处理无界的历史对话、超长文档检索、多会话记忆。

1.2 传统方案的局限

方案	局限
上下文窗口滑动	早期信息丢失
摘要压缩	细节丢失，不可逆
RAG	仅检索，无法主动记忆

二、MemGPT的核心思想

2.1 操作系统启示录

MemGPT的灵感来自操作系统：

LLM上下文窗口 ≈ 计算机RAM 外部向量存储 ≈ 计算机磁盘 分页机制 ≈ MemGPT的记忆管理

就像OS将不常用的数据swap到磁盘，MemGPT让LLM主动管理"上下文内存"与"外部存储"之间的数据流动。

2.2 记忆层级设计

┌─────────────────────────────────────┐ │ 主上下文 (Main Context) │ │ ┌─────────────────────────────────┐│ │ │ 系统指令 (只读) ││ │ │ 工作上下文 (可读写) ││ │ │ FIFO队列 (消息历史) ││ │ └─────────────────────────────────┘│ └─────────────────────────────────────┘ ↑ ↓ 分页 ┌─────────────────────────────────────┐ │ 外部上下文 (External Context) │ │ ┌───────────────┬─────────────────┐│ │ │ 召回存储 │ 归档存储 ││ │ │ (对话历史) │ (长文档/向量) ││ │ └───────────────┴─────────────────┘│ └─────────────────────────────────────┘

三、核心模块解析

3.1 主上下文（Main Context）

系统指令：MemGPT控制流、内存层级用途、函数调用规则（只读）

工作上下文：存储用户关键信息，如：

用户偏好（“我叫张三”）
事实信息（“我在北京工作”）
Agent角色信息

FIFO队列：滚动存储消息历史，头部含已淘汰消息的递归摘要

3.2 外部上下文（External Context）

召回存储：消息数据库，存储所有对话历史，支持搜索与重新调入

归档存储：基于向量数据库（如pgvector），存储长文档、用户画像等

3.3 核心功能模块

队列管理器：

管理消息的追加、LLM推理触发
上下文溢出控制（70%警告阈值、100%刷新阈值）
触发"内存压力"提示，引导LLM主动管理记忆

函数执行器：

解析LLM输出的函数调用
执行记忆管理函数（搜索外部存储、修改工作上下文）
反馈执行结果给LLM

四、快速上手

4.1 安装

pipinstallletta-client

4.2 创建Agent

fromletta_clientimportLetta client=Letta(token="YOUR_API_KEY")# 创建带记忆块的Agentagent_state=client.agents.create(model="openai/gpt-4o-mini",memory_blocks=[{"label":"human","value":"User info here","limit":5000},{"label":"persona","value":"Agent personality","limit":5000}])print(f"Agent ID:{agent_state.id}")

4.3 对话交互

# 开始对话response=client.agents.messages.create(agent_id=agent_state.id,messages=[{"role":"user","content":"你好，我叫张三，在北京工作"}])# 检查记忆更新agent_state=client.agents.get(agent_state.id)print(agent_state.memory)

4.4 用户记忆更新

# 用户纠正信息response=client.user_message(agent_id=agent_id,message="Actually, my name is Charles")# Agent自动通过 tool:update_memory 更新记忆

五、进阶功能

5.1 睡眠模式（Sleep-time Agents）

agent_state=client.agents.create(model="openai/gpt-4o",enable_sleeptime=True# 启用后台整理)

睡眠模式允许Agent在低交互期间后台整理记忆，保持响应速度。

5.2 多Agent共享记忆

# 创建共享内存块shared_block=client.blocks.create(label="organization",description="团队共享信息",value="初始团队数据")# 多个Agent附加到同一内存块manager=client.agents.create(block_ids=[shared_block.id])worker=client.agents.create(block_ids=[shared_block.id])

5.3 文件知识库

# 上传文档folder=client.folders.create(name="产品文档",embedding_config={"provider":"openai","model":"text-embedding-3-small"})job=client.folders.files.upload(folder_id=folder.id,file=open("manual.pdf","rb"))# Agent自动检索相关文档

六、技术架构

6.1 存储后端

存储类型	适用场景
PostgreSQL	生产环境，多Agent
SQLite	开发测试，单Agent
Chroma	原型验证

6.2 工具调用流程

用户消息 → 队列管理器 → LLM推理 → 函数调用 ↓ 内存更新 ← 执行结果反馈 ← 函数执行器

6.3 上下文溢出处理

# 阈值触发机制WARNING_THRESHOLD=0.7# 70%上下文REFRESH_THRESHOLD=1.0# 100%上下文# 内存压力时的处理流程1.生成递归摘要2.淘汰部分消息（如50%窗口）3.摘要写入FIFO头部4.原消息移入召回存储

七、适用场景

7.1 典型应用

场景	价值
长期对话助手	跨会话记忆用户偏好
个人知识库	消化海量文档，主动检索
客服机器人	理解完整对话上下文
研究助手	管理大量文献记忆