当前位置：首页 > news >正文

基于向量数据库与混合检索的AI智能体持久记忆系统构建

news 2026/5/27 4:15:20

1. 项目概述：为AI智能体构建持久记忆

最近在折腾AI智能体项目时，我遇到了一个挺典型的问题：每次重启程序，智能体就像得了失忆症，之前的对话、学到的知识、执行过的任务全都没了。这让我开始思考，如何给这些智能体装上“持久记忆”，让它们能像人类一样积累经验，实现跨会话的连续学习和决策。这个需求在构建复杂的、需要长期交互的AI应用时尤为关键，比如个人助理、游戏NPC、自动化工作流引擎等。

简单来说，“为AI智能体构建持久记忆”的核心，就是设计一套系统，能够可靠地存储、检索、更新智能体在运行过程中产生的状态、知识和历史交互记录。这不仅仅是把数据存到数据库那么简单，它涉及到记忆的结构化设计、高效检索（尤其是在海量记忆中找到最相关的片段）、记忆的“遗忘”与压缩机制，以及与智能体决策循环的无缝集成。

我最终用Python搭建了一套相对完整的解决方案。它不依赖于任何单一的大型框架，而是通过组合多个轻量级库，并引入一些认知科学中的概念，实现了一个既实用又可扩展的持久记忆系统。接下来，我会详细拆解我的设计思路、技术选型、核心实现细节，并分享在开发过程中踩过的坑和总结出的实战技巧。

2. 核心架构设计与思路拆解

为AI智能体设计记忆系统，首先要明确记忆包含什么。在我的实践中，我将记忆分为几个层次：

情景记忆：记录具体的交互事件，比如“用户于2023-10-27 14:30询问了天气，我回复了‘晴，25°C’”。这是最原始的数据。
语义记忆：从情景记忆中提炼出的知识、事实和概念，比如“用户喜欢喝黑咖啡”、“项目X的截止日期是每周五”。这部分更结构化。
程序性记忆：智能体学会的技能或操作流程，比如“如何通过API Z获取数据”、“处理错误Y的标准步骤”。这可以理解为“肌肉记忆”。

我的系统架构围绕这三个层次展开，核心组件包括：记忆存储库、记忆编码器、检索器和记忆管理策略。

2.1 技术栈选型与考量

为什么选择Python以及这些特定的库？以下是背后的思考：

核心语言Python：生态丰富，在AI、数据科学和快速原型开发方面无可替代。像asyncio对于构建响应式智能体至关重要。
向量数据库（ChromaDB）：这是实现高效语义记忆检索的关键。传统数据库（如SQLite）擅长精确查询（“找到id=5的记录”），但不擅长相似性搜索（“找到与‘我喜欢编程’最相关的记忆”）。将记忆文本通过嵌入模型转换为向量后，向量数据库能快速找到语义上最相似的记忆片段。我选择ChromaDB是因为它轻量、易嵌入、纯Python实现，非常适合作为应用内嵌的记忆存储，无需维护外部数据库服务。
- 为什么不选Pinecone或Weaviate？它们更强大，但通常是云服务或需要独立部署，增加了系统复杂性和依赖。对于中小型项目或需要离线运行的应用，ChromaDB是更简洁的起点。
嵌入模型（sentence-transformers）：为了将文本记忆转换为向量，需要一个高质量的嵌入模型。我选用sentence-transformers库中的all-MiniLM-L6-v2模型。这个模型在语义相似度任务上表现很好，且模型尺寸小（约80MB），推理速度快，在消费级硬件上运行毫无压力。
- 为什么不用OpenAI的text-embedding？当然可以，效果可能更好。但考虑到成本、延迟和离线能力，一个本地运行的轻量级模型是更可控、更经济的选择，尤其当需要频繁进行记忆编码和检索时。
结构化存储（SQLite）：用于存储情景记忆和记忆的元数据（如时间戳、重要性分数、访问频率等）。SQLite无需服务器，单个文件，可靠性高，是存储关系型数据的完美选择。它和ChromaDB（其元数据存储也常用SQLite）可以很好地共存。
记忆管理策略（自定义）：这是系统的“大脑”，负责决定哪些记忆该被强化、哪些该被遗忘或归档。我实现了一个基于重要性评分和访问频率的混合算法，模拟人类的记忆衰减过程。

这个技术栈的组合，在功能、性能和复杂度之间取得了很好的平衡，让开发者可以聚焦于记忆系统的逻辑本身，而非基础设施的维护。

2.2 系统工作流程

整个系统的工作流程是一个闭环：

记忆形成：智能体与环境交互产生新事件（用户输入、自身行动、观察结果）。系统首先将其作为一条带有丰富元数据（时间、类型、关联实体）的“情景记忆”存入SQLite。
记忆编码：同时，系统使用sentence-transformers模型将该事件的核心内容文本转换为一个高维向量（嵌入），并将此向量与指向原始情景记忆的指针一起，存入ChromaDB集合中，形成“语义记忆”索引。
记忆检索：当智能体需要决策时（例如，需要理解用户当前请求的上下文），它会将当前情境或问题也转换为向量，然后在ChromaDB中进行相似性搜索，找出k条最相关的历史记忆。
记忆呈现与利用：检索到的记忆（通过指针找到完整的情景记忆）被组合成一段上下文提示，送入智能体的核心逻辑（如LLM提示词），辅助其做出更明智的决策。
记忆更新与维护：后台有一个管理进程，定期扫描记忆库，根据算法调整每条记忆的重要性分数，对分数过低或很久未访问的记忆进行压缩（摘要化）或标记为“归档”，从而控制记忆总量的增长，保持检索效率。

3. 核心模块实现详解

3.1 记忆数据模型设计

记忆的存储结构是基石。我设计了一个核心的Memory数据类。

from dataclasses import dataclass from datetime import datetime from typing import Any, Dict, Optional import uuid @dataclass class Memory: """单个记忆单元的数据结构""" id: str # 唯一标识符 content: str # 记忆的文本内容 embedding: Optional[List[float]] = None # 文本内容的向量表示 timestamp: datetime = None # 创建时间 memory_type: str = "episodic" # 记忆类型: episodic, semantic, procedural importance: float = 0.5 # 主观重要性，初始值0.5，范围[0,1] access_count: int = 0 # 被检索到的次数 last_accessed: Optional[datetime] = None # 最后访问时间 metadata: Dict[str, Any] = None # 其他元数据，如关联的用户ID、会话ID、情感标签等 def __post_init__(self): if self.timestamp is None: self.timestamp = datetime.utcnow() if self.id is None: self.id = str(uuid.uuid4()) if self.metadata is None: self.metadata = {}

设计考量：

id使用UUID，确保全局唯一，方便在SQLite和ChromaDB之间建立关联。
embedding字段可选，因为不是所有记忆都需要立即编码（例如，一些纯粹的系统日志）。
importance分数是动态记忆管理的核心。它可以通过多种方式更新：基于LLM对记忆内容的分析、基于该记忆被成功利用的频率、或基于用户的显式反馈（如“记住这个”）。
metadata字段提供了极高的灵活性，可以附着任何与业务相关的信息，为高级检索和过滤奠定了基础。

3.2 向量化与存储实现

这是连接情景记忆和语义记忆的桥梁。我创建了一个MemoryEncoder类来负责这项工作。

import chromadb from chromadb.config import Settings from sentence_transformers import SentenceTransformer import sqlite3 import json class MemoryEncoder: def __init__(self, persist_directory: str = "./memory_db"): # 初始化嵌入模型 self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2') # 初始化ChromaDB客户端，设置持久化路径 self.chroma_client = chromadb.Client(Settings( chroma_db_impl="duckdb+parquet", persist_directory=persist_directory )) # 获取或创建用于存储记忆向量的集合 self.collection = self.chroma_client.get_or_create_collection(name="agent_memories") # 初始化SQLite连接，用于存储完整记忆对象 self.sqlite_conn = sqlite3.connect(f"{persist_directory}/memories.sqlite") self._init_sqlite_db() def _init_sqlite_db(self): """初始化SQLite表结构""" cursor = self.sqlite_conn.cursor() cursor.execute(''' CREATE TABLE IF NOT EXISTS memories ( id TEXT PRIMARY KEY, content TEXT NOT NULL, timestamp DATETIME NOT NULL, memory_type TEXT, importance REAL, access_count INTEGER DEFAULT 0, last_accessed DATETIME, metadata TEXT -- 存储为JSON字符串 ) ''') self.sqlite_conn.commit() def encode_and_store(self, memory: Memory) -> str: """编码记忆并存储到双数据库中""" # 1. 生成文本嵌入 if memory.embedding is None: memory.embedding = self.embedding_model.encode(memory.content).tolist() # 2. 存储到ChromaDB (用于向量检索) self.collection.add( embeddings=[memory.embedding], documents=[memory.content], metadatas=[{"memory_id": memory.id, "type": memory.memory_type}], ids=[memory.id] ) # 3. 存储到SQLite (用于完整记录和元数据查询) cursor = self.sqlite_conn.cursor() cursor.execute(''' INSERT OR REPLACE INTO memories (id, content, timestamp, memory_type, importance, access_count, last_accessed, metadata) VALUES (?, ?, ?, ?, ?, ?, ?, ?) ''', ( memory.id, memory.content, memory.timestamp.isoformat(), memory.memory_type, memory.importance, memory.access_count, memory.last_accessed.isoformat() if memory.last_accessed else None, json.dumps(memory.metadata) )) self.sqlite_conn.commit() return memory.id

注意：在实际生产环境中，需要处理sqlite3.OperationalError（如数据库被锁）和ChromaDB的连接异常。建议将数据库操作封装在重试逻辑和事务中。此外，encode操作对于长文本可能是计算瓶颈，可以考虑异步执行或批量处理。

3.3 混合检索器的实现

单纯的向量相似度搜索有时会带回无关结果。我实现了一个HybridRetriever，结合了向量搜索、元数据过滤和时间衰减。

class HybridRetriever: def __init__(self, encoder: MemoryEncoder): self.encoder = encoder def retrieve(self, query: str, memory_type: Optional[str] = None, recency_weight: float = 0.3, importance_weight: float = 0.5, similarity_weight: float = 0.2, k: int = 5) -> List[Memory]: """ 混合检索记忆。 最终得分 = similarity_weight * 相似度分 + recency_weight * 新近度分 + importance_weight * 重要性分 """ # 1. 向量相似度搜索 (基础) query_embedding = self.encoder.embedding_model.encode(query).tolist() vector_results = self.encoder.collection.query( query_embeddings=[query_embedding], n_results=k*3, # 获取更多候选，供后续过滤和重排序 where={"type": memory_type} if memory_type else None ) if not vector_results['ids'][0]: return [] candidate_ids = vector_results['ids'][0] candidate_distances = vector_results['distances'][0] # ChromaDB返回的是距离，越小越相似 candidate_documents = vector_results['documents'][0] # 2. 从SQLite获取候选记忆的完整信息和元数据 memories = [] placeholders = ','.join('?' for _ in candidate_ids) cursor = self.encoder.sqlite_conn.cursor() cursor.execute(f''' SELECT id, content, timestamp, memory_type, importance, access_count, last_accessed, metadata FROM memories WHERE id IN ({placeholders}) ''', candidate_ids) rows = cursor.fetchall() # 构建ID到记忆对象的映射 id_to_memory = {} for row in rows: mem = Memory( id=row[0], content=row[1], timestamp=datetime.fromisoformat(row[2]), memory_type=row[3], importance=row[4], access_count=row[5], last_accessed=datetime.fromisoformat(row[6]) if row[6] else None, metadata=json.loads(row[7]) if row[7] else {} ) id_to_memory[mem.id] = mem # 3. 计算每个候选记忆的混合分数 scored_memories = [] max_importance = max((m.importance for m in id_to_memory.values()), default=1.0) current_time = datetime.utcnow() for mem_id, distance, doc in zip(candidate_ids, candidate_distances, candidate_documents): if mem_id not in id_to_memory: continue mem = id_to_memory[mem_id] # a. 相似度分数 (将距离转换为相似度，假设使用余弦距离，范围[0,2]，2最不相似) similarity_score = 1 - (distance / 2.0) # 归一化到[0,1]区间，1最相似 # b. 新近度分数 (越近分数越高) time_diff = (current_time - mem.timestamp).total_seconds() # 使用指数衰减，半衰期设为7天（604800秒） recency_score = 0.5 ** (time_diff / 604800) # c. 重要性分数 (归一化) importance_score = mem.importance / max_importance # d. 计算加权总分 total_score = (similarity_weight * similarity_score + recency_weight * recency_score + importance_weight * importance_score) scored_memories.append((total_score, mem)) # 4. 按总分排序，返回前k个 scored_memories.sort(key=lambda x: x[0], reverse=True) top_memories = [mem for _, mem in scored_memories[:k]] # 5. 更新这些记忆的访问计数和时间 (异步进行，避免阻塞检索) self._update_access_stats([m.id for m in top_memories]) return top_memories def _update_access_stats(self, memory_ids: List[str]): """异步更新记忆的访问统计""" # 这里简化为同步更新，生产环境应放入后台任务队列 if not memory_ids: return cursor = self.encoder.sqlite_conn.cursor() placeholders = ','.join('?' for _ in memory_ids) current_time_iso = datetime.utcnow().isoformat() cursor.execute(f''' UPDATE memories SET access_count = access_count + 1, last_accessed = ? WHERE id IN ({placeholders}) ''', [current_time_iso] + memory_ids) self.encoder.sqlite_conn.commit()

混合检索的优势：单纯的关键词或向量搜索可能找到语义相关但实际无用（如过于陈旧）的记忆。通过引入时间和重要性权重，系统能优先召回既相关又重要且较新的记忆，这更符合人类决策时对记忆的调用模式。

3.4 记忆管理：遗忘、压缩与强化

一个只增不减的记忆库最终会变得臃肿不堪，影响检索速度和相关性。我实现了一个简单的MemoryManager来模拟记忆的巩固与遗忘。

class MemoryManager: def __init__(self, encoder: MemoryEncoder, retriever: HybridRetriever): self.encoder = encoder self.retriever = retriever def periodic_maintenance(self): """定期维护任务，应在后台线程中运行""" # 1. 记忆衰减：降低长期未访问记忆的重要性 cursor = self.encoder.sqlite_conn.cursor() # 例如，超过30天未访问，重要性每日衰减1% cursor.execute(''' UPDATE memories SET importance = importance * 0.99 WHERE last_accessed < datetime('now', '-30 days') AND importance > 0.1 ''') # 2. 记忆归档：重要性低于阈值的记忆，可以移动到归档表或进行摘要压缩 cursor.execute(''' SELECT id, content FROM memories WHERE importance < 0.1 ''') to_archive = cursor.fetchall() for mem_id, content in to_archive: # 压缩策略：生成一个简短的摘要 # 这里简化处理，实际可用LLM生成摘要 if len(content) > 200: summary = content[:197] + "..." # 更新原记忆内容为摘要，并提升其重要性（因为摘要更精炼） cursor.execute(''' UPDATE memories SET content = ?, importance = 0.3 WHERE id = ? ''', (summary, mem_id)) # 注意：也需要更新ChromaDB中对应的document和embedding # 此处省略，实际需要重新编码summary并更新collection # 3. 记忆强化：频繁访问且高相关性的记忆，提升其重要性 cursor.execute(''' UPDATE memories SET importance = LEAST(importance * 1.05, 1.0) WHERE access_count > 10 AND last_accessed > datetime('now', '-7 days') ''') self.encoder.sqlite_conn.commit()

管理策略的思考：这里的衰减因子（0.99）、阈值（0.1）和强化规则都是可调的超参数。更复杂的策略可以引入基于内容关联性的“记忆联想强化”，或者使用一个小型神经网络来预测记忆的未来价值，从而动态调整重要性。

4. 与AI智能体集成实战

有了记忆系统，如何让它真正被智能体用起来？关键在于将检索到的记忆有效地整合到智能体的决策上下文（通常是LLM的提示词）中。

我设计了一个AgentWithMemory基类。假设我们有一个基于LLM（例如通过OpenAI API调用）的对话智能体。

import openai from typing import List class AgentWithMemory: def __init__(self, retriever: HybridRetriever, llm_client): self.retriever = retriever self.llm_client = llm_client self.conversation_buffer: List[dict] = [] # 存储当前会话的临时记忆 def generate_response(self, user_input: str, context_window: int = 5) -> str: """ 1. 检索长期记忆 2. 结合短期会话记忆 3. 构造提示词 4. 调用LLM生成回复 """ # 步骤1: 检索最相关的长期记忆 relevant_memories = self.retriever.retrieve( query=user_input, k=3 # 根据上下文窗口大小调整 ) memory_context = "\n".join([f"- {mem.content}" for mem in relevant_memories]) # 步骤2: 维护短期会话记忆（最近几轮对话） self.conversation_buffer.append({"role": "user", "content": user_input}) # 保持缓冲区大小 if len(self.conversation_buffer) > context_window * 2: # user和assistant交替 self.conversation_buffer = self.conversation_buffer[-(context_window * 2):] # 步骤3: 构造系统提示词，注入记忆上下文 system_prompt = f"""你是一个拥有长期记忆的AI助手。以下是从你过去经验中检索到的相关信息，可能对回答当前问题有帮助： {memory_context if memory_context else "（暂无相关长期记忆）"} 请基于以上背景信息和当前对话，给出有帮助的回复。如果背景信息与当前问题无关，请忽略它。""" # 构造完整的消息列表 messages = [{"role": "system", "content": system_prompt}] messages.extend(self.conversation_buffer) # 步骤4: 调用LLM try: response = self.llm_client.chat.completions.create( model="gpt-3.5-turbo", messages=messages, temperature=0.7, ) assistant_reply = response.choices[0].message.content # 步骤5: 将本次交互形成新的记忆存储（异步进行） new_memory_content = f"User: {user_input}\nAssistant: {assistant_reply}" self._store_new_memory_async(new_memory_content) # 将助手的回复加入会话缓冲区 self.conversation_buffer.append({"role": "assistant", "content": assistant_reply}) return assistant_reply except Exception as e: return f"抱歉，处理请求时出现错误：{e}" def _store_new_memory_async(self, content: str): """异步存储新记忆。实际应用中应使用任务队列。""" # 这里简化为同步，生产环境建议使用celery、asyncio或线程池 new_memory = Memory( content=content, memory_type="episodic", importance=0.6, # 新记忆默认重要性 metadata={"source": "conversation"} ) # 这里需要调用encoder的存储方法，略去具体实现 # self.retriever.encoder.encode_and_store(new_memory) pass

集成关键点：

提示词工程：系统提示词中清晰界定了长期记忆的角色，并指示LLM“相关则用，无关则忽略”，避免记忆产生误导。
短期与长期记忆结合：conversation_buffer作为工作记忆（短期），retriever提取的是长期记忆，两者共同构成完整的上下文。
记忆的形成：不是所有对话都需要存储。这里简单存储了完整的Q-A对。更精细的策略是：使用另一个LLM调用或基于规则的方法，判断当前交互是否“值得记忆”，并可能提取更精炼的语义（例如“用户表达了对咖啡的偏好”）进行存储。

5. 性能优化与高级技巧

在实际部署中，你会遇到性能、规模和准确性的挑战。以下是我总结的一些进阶优化点：

5.1 提升检索效率与准确性

分层记忆索引：不要将所有记忆都塞进一个向量集合。可以按类型（episodic,semantic,procedural）、时间（按月）或主题（通过聚类自动生成）建立多个ChromaDB集合。检索时先确定子集，再进行搜索，能大幅减少搜索空间。
元数据过滤前置：在调用collection.query时，充分利用where参数进行过滤。例如，先过滤掉memory_type为system_log的记录，或者只检索某个特定项目相关的记忆（如果metadata中有project_id字段）。这比先取回所有向量再过滤要高效得多。
重新排序：如HybridRetriever所示，向量搜索返回的初步结果（基于余弦相似度）可以进行二次重排序。你可以使用更复杂的交叉编码器模型（如sentence-transformers中的cross-encoder）对查询和候选记忆进行更精确的配对打分，虽然更耗时，但精度更高，适合对最终结果进行精炼。

5.2 控制记忆增长与质量

记忆去重：在存储新记忆前，计算其与已有记忆的向量相似度。如果相似度超过一个高阈值（如0.95），可以选择合并记忆（更新原有记忆的时间戳和重要性），而不是新增一条，避免冗余。

def store_if_novel(self, new_memory: Memory, similarity_threshold: float = 0.95) -> bool: """仅当记忆足够新颖时才存储""" # 检索最相似的几条现有记忆 existing = self.retriever.retrieve(new_memory.content, k=1) if existing: # 计算新记忆与最相似旧记忆的向量相似度（需已有嵌入） similarity = cosine_similarity(new_memory.embedding, existing[0].embedding) if similarity > similarity_threshold: # 合并：更新旧记忆的内容和时间，提升重要性 self._merge_memories(existing[0], new_memory) return False # 未新增 # 存储新记忆 self.encoder.encode_and_store(new_memory) return True

重要性评分自动化：初始的importance可以设为默认值，但后续应动态调整。可以通过以下方式：
- 访问模式：被频繁检索并最终导致成功动作的记忆，重要性应增加。
- LLM评估：定期用一个小型LLM（如gpt-3.5-turbo）批量扫描记忆，让其判断“这条记忆对未来的决策有多大潜在价值？”，输出一个分数。
- 用户反馈：提供“这条信息有用/无用”的反馈机制，直接调整对应记忆的重要性。

5.3 工程化与可观测性

异步操作：记忆的编码、存储、维护都是I/O或计算密集型任务，绝不应该阻塞智能体的主响应循环。务必使用asyncio、线程池或消息队列（如RabbitMQ、Redis）将这些操作异步化。
日志与监控：记录每一次记忆的检索、存储和更新操作。监控关键指标：记忆库总量、日均增长量、检索平均延迟、检索命中率（即检索到的记忆被LLM实际利用的频率）。这能帮你发现系统瓶颈，比如检索效率下降可能意味着需要调整向量索引参数或进行记忆清理。
备份与版本化：SQLite文件和ChromaDB的持久化目录需要定期备份。对于重要的记忆，可以考虑实现简单的版本控制，记录记忆内容的重要变更历史。

6. 常见问题与排查实录

在开发和测试这套系统的过程中，我遇到了不少典型问题，这里记录下排查思路和解决方案。

问题现象	可能原因	排查步骤与解决方案
检索结果完全不相关	1. 嵌入模型不匹配任务。 2. 文本预处理不一致。 3. ChromaDB集合污染或索引损坏。	1.检查嵌入：对查询文本和一条明显相关的记忆文本分别计算嵌入，然后计算余弦相似度。如果相似度很低（<0.3），说明模型可能不适合你的领域。考虑微调或更换模型（如`all-mpnet-base-v2`效果更好但更慢）。 2.统一预处理：确保存储和查询时，文本都经过相同的清洗（如小写化、去除特殊符号、词干提取）。 3.重建索引：尝试创建一个新的ChromaDB集合，重新导入所有记忆，看问题是否解决。
检索速度随着记忆增多明显变慢	1. 向量索引未优化。 2. 单集合数据量过大。 3. 未使用元数据过滤。	1.检查ChromaDB配置：默认使用`HNSW`索引，确保`hnsw:space`参数设置为`cosine`（余弦相似度）。可以调整`hnsw:M`和`hnsw:ef_construction`参数来权衡构建速度和精度。 2.实施分层/分片：如前所述，按时间或主题将记忆分散到多个集合中。 3.强制使用过滤：确保每次检索都带上尽可能精确的`where`条件，缩小搜索范围。
智能体被旧记忆误导	1. 记忆未衰减，陈旧记忆权重过高。 2. 检索时未考虑时间衰减。 3. 提示词未明确指示忽略无关信息。	1.启用并调优`MemoryManager`：降低陈旧记忆的重要性，或将其归档。 2.调整混合检索权重：提高`recency_weight`，让系统更倾向于新记忆。 3.强化系统提示词：在提示词中明确加入“请优先考虑最新信息，旧记忆可能已过时”等指令。
记忆库文件异常增大	1. 记忆去重未生效，存储了大量冗余内容。 2. 未进行记忆压缩，存储了过长文本。 3. ChromaDB的`parquet`文件未压缩或包含历史数据。	1.实现并启用`store_if_novel`：设置合理的相似度阈值。 2.实现记忆摘要：对于长文本记忆（如长对话），使用LLM生成简洁摘要后再存储。 3.清理ChromaDB：ChromaDB有时不会自动清理旧数据。可以定期检查并手动调用`collection.delete`移除关联数据已删除的向量，或使用`chromadb.PersistentClient`的维护功能。
更新记忆内容后，检索结果未更新	更新了SQLite中的内容，但未同步更新ChromaDB中的向量和文档。	确保双写：任何对记忆内容的修改，都必须同时更新SQLite和ChromaDB。最好封装一个`update_memory`方法，原子性地处理这两步操作。

一个记忆深刻的坑：早期版本中，我将整个对话历史（可能多达上百条消息）作为一条记忆存储。这导致两个问题：一是向量嵌入包含了太多噪声，检索精度下降；二是单条记忆过长，在提示词中占用大量令牌。后来改为按“话题”或“会话轮次”进行分割存储，并为重要的多轮对话额外生成一条“摘要记忆”，检索效果和效率都得到了显著提升。

为AI智能体构建持久记忆系统，是一个从简单存储到智能管理的渐进过程。这套基于Python的实现方案，从可工作的原型出发，逐步引入了向量检索、混合评分、动态管理等复杂特性。它不是一个完美的终极解决方案，而是一个高度可扩展的框架。你可以根据自己智能体的具体需求，替换其中的组件（比如用Qdrant替代ChromaDB，用OpenAI的嵌入替代本地模型），或者实现更复杂的记忆管理策略。

最关键的是，通过将记忆外部化、持久化和结构化，你的智能体真正获得了学习、积累和进化的能力。这不仅仅是技术实现，更是迈向更通用、更强大AI智能体的重要一步。

查看全文

http://www.jsqmd.com/news/894392/