当前位置：首页 > news >正文

程序记忆系统设计：从向量检索到智能体上下文管理实战

news 2026/5/15 7:00:52

1. 项目概述：当代码开始“记忆”

最近在折腾一个很有意思的库，叫konglong87/human-memory。光看名字，你可能会有点懵——“人类记忆”？这跟编程有什么关系？难道是要用代码模拟大脑的神经元？其实不然，这个项目背后是一个在软件开发，尤其是AI应用、智能代理和复杂系统设计中越来越核心的概念：记忆管理。简单来说，它解决的是如何让程序（比如一个聊天机器人、一个自动化工作流、一个游戏NPC）能够记住之前发生过的事情、用户说过的话、执行过的操作，并在后续的交互中“回想”起来，从而表现得更加连贯、智能和个性化。

想象一下，你跟一个客服机器人聊天，每次你都得重新报一遍你的订单号；或者你玩一个角色扮演游戏，NPC每次见到你都像第一次见面。这种体验无疑是糟糕的。human-memory这个库，就是为了赋予程序这种“记忆”能力。它不是要造一个真正的大脑，而是提供一套标准化的、可插拔的“记忆系统”接口和基础实现。开发者可以基于这套接口，轻松地为自己的应用集成短期记忆、长期记忆，甚至实现记忆的检索、总结和遗忘机制。这听起来很抽象，但当你真正开始用它来构建一个能记住上下文的聊天助手，或者一个能学习用户习惯的自动化工具时，你就会发现它的价值所在。无论你是AI应用开发者、自动化脚本爱好者，还是对智能体架构感兴趣的研究者，理解并掌握这样一个记忆库，都能让你的项目能力上一个台阶。

2. 核心设计思路：构建程序化记忆的蓝图

2.1 为什么需要专门的“记忆”库？

在深入代码之前，我们先得想明白一个问题：程序本身不就能存储数据吗？用数据库、文件或者内存变量不就能实现“记忆”吗？为什么还需要一个专门的库？关键在于抽象和模式。

直接操作数据库存储对话记录，你很快会面临一系列工程问题：这条消息该存为短期记忆还是长期记忆？如何从海量历史记录中快速找到与当前问题最相关的几条？记忆的格式应该是什么样的？如何实现记忆的自动总结（比如把十轮对话压缩成一个要点）？如何模拟遗忘机制，清理掉不重要的记忆以节省空间？

human-memory的价值就在于，它把这些复杂且通用的需求，抽象成了一套清晰的接口（Interface）。它定义了几个核心角色：

记忆（Memory）：记忆的基本单元，通常包含内容、时间戳、元数据（如重要性分数、关联标签等）。
记忆存储（MemoryStore）：负责记忆的持久化，可以是内存、数据库、向量数据库等。
记忆检索器（MemoryRetriever）：根据当前查询（比如用户的问题），从记忆存储中找出最相关的记忆。
记忆处理器（MemoryProcessor）：对记忆进行加工，例如总结、合并、清理。

这种设计遵循了“单一职责”和“依赖倒置”原则。你的业务逻辑（比如聊天逻辑）只依赖于Memory和MemoryRetriever这样的抽象接口，而不关心底层用的是Redis还是PostgreSQL，用的是基于关键词的检索还是用嵌入向量的语义检索。这使得你的核心代码非常干净，并且可以随时更换记忆的后端实现，比如从简单的本地JSON文件切换到高性能的向量数据库（如Pinecone、Weaviate），而无需重写业务逻辑。

2.2 核心接口与组件拆解

虽然konglong87/human-memory的具体实现可能因版本而异，但这类库的核心接口通常大同小异。我们可以基于常见模式来拆解其设计。

1. Memory 接口这是记忆的原子单位。一个标准的Memory对象至少包含：

id: 唯一标识符。
content: 记忆的内容文本。
timestamp: 创建时间。
metadata: 一个字典，用于存放附加信息，如importance（重要性，0-1）、type（记忆类型，如“fact”, “conversation”, “user_preference”）、source（来源）等。

高级的实现可能还会包含embedding字段，用于存储内容经过文本嵌入模型计算后的向量，这是实现语义检索的关键。

2. MemoryStore 接口这是记忆的仓库。它定义了记忆的增删改查（CRUD）操作：

add(memory: Memory): 添加一条记忆。
get(memory_id: str) -> Memory: 根据ID获取记忆。
search(query: str, limit: int=5) -> List[Memory]: 根据查询字符串搜索相关记忆。这是最核心的方法，其实现决定了检索能力。
delete(memory_id: str): 删除记忆。
list(limit: int, offset: int) -> List[Memory]: 列出记忆（通常按时间倒序）。

MemoryStore可以有多种实现：

InMemoryStore: 基于Python列表或字典的简单实现，用于开发和测试。
SQLStore: 基于SQL数据库（如SQLite, PostgreSQL）的实现，利用全文搜索或自定义查询。
VectorStore: 基于向量数据库的实现。它会将记忆的content转换为向量（embedding）后存储，search方法通过计算查询向量与记忆向量的相似度来返回结果，能实现真正的语义搜索。

3. MemoryRetriever 接口检索器是对MemoryStore.search的封装和增强。一个基础的MemoryRetriever可能只是直接调用store.search。但更复杂的检索器可以：

混合检索：结合关键词搜索和向量搜索的结果。
重排序（Re-ranking）：对初步检索结果用更精细的模型进行二次排序。
上下文窗口管理：确保返回的记忆总长度不超过LLM（大语言模型）的上下文限制。
记忆相关性过滤：只返回相关性分数超过某个阈值的记忆。

4. MemoryProcessor 接口处理器用于对记忆流进行后处理。常见的处理器包括：

SummaryProcessor: 定期或当记忆数量达到阈值时，自动将一批旧记忆总结成一条新的、更精炼的“摘要记忆”，然后可以删除旧记忆，节省空间并提炼核心信息。
ForgettingProcessor: 模拟遗忘，根据记忆的“年龄”和“重要性”分数，定期清理掉不重要的记忆。
DeduplicationProcessor: 检测并合并内容高度相似的重复记忆。

通过组合这些组件，你可以像搭积木一样构建出符合你应用需求的记忆系统。例如，一个简单的聊天机器人可能只需要InMemoryStore和一个基于最近对话的简单检索器。而一个复杂的个人知识管理助手，则可能需要VectorStore来实现语义搜索，并搭配SummaryProcessor来管理长期记忆。

注意：human-memory这类库通常只提供接口定义和基础实现。它的强大之处在于定义了“标准”，让生态中的其他组件（如各种向量数据库的适配器、不同的检索算法）可以即插即用。你在使用前，需要仔细阅读其文档，了解它目前提供了哪些具体的存储和处理器实现。

3. 实战演练：用 Human-Memory 构建一个上下文感知的 CLI 助手

理论说得再多，不如动手来一遍。假设我们要构建一个命令行智能助手，它能记住我们之前让它执行过的任务和提供的答案，并在后续对话中引用这些信息。我们将基于human-memory的核心概念来实现。

3.1 环境准备与项目初始化

首先，创建一个新的项目目录并初始化虚拟环境，这是保持环境清洁的好习惯。

mkdir context-aware-cli && cd context-aware-cli python -m venv venv # Windows: venv\Scripts\activate # Mac/Linux: source venv/bin/activate

接下来，安装核心依赖。由于konglong87/human-memory可能是一个相对具体的实现，我们这里以概念实现为主。实际上，你可以寻找类似的成熟库（如langchain的memory模块就是一套更庞大的实现），或者根据上述接口自己实现一个轻量版。为了演示，我们假设使用一个简化的自制版本，并安装必要的辅助库。

pip install openai # 用于调用LLM生成回答 pip install chromadb # 一个轻量级向量数据库，用于实现VectorStore pip install sentence-transformers # 用于生成文本嵌入向量

我们的项目结构将如下所示：

context-aware-cli/ ├── memory_system/ │ ├── __init__.py │ ├── interfaces.py # 定义Memory, MemoryStore等接口 │ ├── vector_store.py # 基于ChromaDB的VectorStore实现 │ └── simple_retriever.py # 简单的检索器实现 ├── cli_assistant.py # 主程序 └── requirements.txt

3.2 实现核心记忆系统

我们先从定义接口开始，在memory_system/interfaces.py中：

from abc import ABC, abstractmethod from datetime import datetime from typing import Dict, List, Optional from pydantic import BaseModel class Memory(BaseModel): """记忆单元数据模型""" id: str content: str timestamp: datetime metadata: Dict = {} embedding: Optional[List[float]] = None # 向量存储 class MemoryStore(ABC): """记忆存储抽象基类""" @abstractmethod def add(self, memory: Memory) -> str: pass @abstractmethod def get(self, memory_id: str) -> Optional[Memory]: pass @abstractmethod def search(self, query: str, limit: int = 5) -> List[Memory]: pass @abstractmethod def delete(self, memory_id: str): pass class MemoryRetriever(ABC): """记忆检索器抽象基类""" def __init__(self, store: MemoryStore): self.store = store @abstractmethod def get_relevant_memories(self, query: str, **kwargs) -> List[Memory]: pass

接下来，实现一个基于ChromaDB的向量存储。在memory_system/vector_store.py中：

import chromadb from chromadb.config import Settings from sentence_transformers import SentenceTransformer from typing import List import uuid from .interfaces import Memory, MemoryStore class ChromaMemoryStore(MemoryStore): """使用ChromaDB作为后端的记忆存储""" def __init__(self, persist_directory: str = "./chroma_memories"): # 初始化Chroma客户端，设置持久化路径 self.client = chromadb.Client(Settings( chroma_db_impl="duckdb+parquet", persist_directory=persist_directory )) # 获取或创建集合（类似于数据库的表） self.collection = self.client.get_or_create_collection(name="assistant_memories") # 加载嵌入模型（这里用一个轻量级模型） self.embedder = SentenceTransformer('all-MiniLM-L6-v2') def _generate_embedding(self, text: str) -> List[float]: """为文本生成嵌入向量""" return self.embedder.encode(text).tolist() def add(self, memory: Memory) -> str: # 如果记忆没有预计算嵌入向量，则生成一个 if memory.embedding is None: memory.embedding = self._generate_embedding(memory.content) # 准备存入Chroma的数据 self.collection.add( documents=[memory.content], metadatas=[{**memory.metadata, "timestamp": memory.timestamp.isoformat()}], embeddings=[memory.embedding], ids=[memory.id] ) return memory.id def get(self, memory_id: str): results = self.collection.get(ids=[memory_id]) if results and results['documents']: return Memory( id=memory_id, content=results['documents'][0], timestamp=datetime.fromisoformat(results['metadatas'][0]['timestamp']), metadata={k:v for k,v in results['metadatas'][0].items() if k != 'timestamp'} ) return None def search(self, query: str, limit: int = 5) -> List[Memory]: # 为查询语句生成嵌入向量 query_embedding = self._generate_embedding(query) # 在Chroma中执行相似性搜索 results = self.collection.query( query_embeddings=[query_embedding], n_results=limit ) memories = [] if results['ids']: for i in range(len(results['ids'][0])): mem_id = results['ids'][0][i] content = results['documents'][0][i] metadata = results['metadatas'][0][i] memories.append( Memory( id=mem_id, content=content, timestamp=datetime.fromisoformat(metadata['timestamp']), metadata={k:v for k,v in metadata.items() if k != 'timestamp'} ) ) return memories def delete(self, memory_id: str): self.collection.delete(ids=[memory_id])

然后，实现一个简单的检索器，在memory_system/simple_retriever.py中：

from .interfaces import MemoryRetriever, Memory class SimpleMemoryRetriever(MemoryRetriever): """简单的记忆检索器，直接使用向量存储的搜索功能""" def get_relevant_memories(self, query: str, limit: int = 5) -> List[Memory]: # 这里可以加入更复杂的逻辑，比如对搜索结果进行重排序或过滤 memories = self.store.search(query, limit=limit) # 一个简单的示例：按时间倒序再排一下，让最新记忆靠前 memories.sort(key=lambda x: x.timestamp, reverse=True) return memories

3.3 构建 CLI 助手主逻辑

现在，我们将记忆系统与 OpenAI 的 LLM 结合起来，创建我们的 CLI 助手。在cli_assistant.py中：

import os from datetime import datetime import uuid from openai import OpenAI from memory_system.vector_store import ChromaMemoryStore from memory_system.simple_retriever import SimpleMemoryRetriever from memory_system.interfaces import Memory class ContextAwareAssistant: def __init__(self, openai_api_key: str): self.client = OpenAI(api_key=openai_api_key) # 初始化记忆系统 self.memory_store = ChromaMemoryStore() self.retriever = SimpleMemoryRetriever(self.memory_store) # 设置一个会话ID，用于关联同一轮对话的记忆 self.session_id = str(uuid.uuid4()) def _create_memory(self, content: str, memory_type: str = "conversation") -> Memory: """创建一条记忆对象""" return Memory( id=str(uuid.uuid4()), content=content, timestamp=datetime.now(), metadata={"type": memory_type, "session_id": self.session_id} ) def _build_prompt_with_memories(self, user_input: str) -> str: """构建包含相关记忆的提示词""" # 1. 检索相关记忆 relevant_memories = self.retriever.get_relevant_memories(user_input, limit=3) # 2. 构建记忆上下文字符串 memory_context = "" if relevant_memories: memory_context = "以下是你之前了解过的相关信息，供你参考：\n" for i, mem in enumerate(relevant_memories, 1): memory_context += f"{i}. {mem.content}\n" memory_context += "\n" # 3. 构建完整提示词 prompt = f"""{memory_context} 用户的最新问题是：{user_input} 请你作为一名有帮助的助手，基于上述已知信息（如果有的话）和你的通用知识来回答问题。 如果已知信息足够回答问题，请主要依据已知信息回答，并可以提及“根据我们之前的交流”。 如果已知信息不足或与问题无关，则使用你的知识回答。 请给出清晰、准确、有用的回答。 """ return prompt def chat(self, user_input: str): """处理用户输入的一轮对话""" # 第一步：将用户输入本身也作为一条记忆存储（记录用户说了什么） user_memory = self._create_memory(f"用户说：{user_input}", "user_query") self.memory_store.add(user_memory) # 第二步：构建包含记忆上下文的提示词 prompt = self._build_prompt_with_memories(user_input) # 第三步：调用LLM获取回答 response = self.client.chat.completions.create( model="gpt-3.5-turbo", # 或 gpt-4 messages=[ {"role": "system", "content": "你是一个有记忆能力的智能助手。"}, {"role": "user", "content": prompt} ], temperature=0.7, ) assistant_reply = response.choices[0].message.content # 第四步：将助手的回答也存储为记忆（记录助手说了什么） assistant_memory = self._create_memory(f"助手回答：{assistant_reply}", "assistant_response") self.memory_store.add(assistant_memory) # 第五步：输出回答 print(f"\n[助手] {assistant_reply}\n") def run_interactive(self): """运行交互式CLI循环""" print("上下文感知CLI助手已启动。输入您的问题，或输入 'quit' 退出。") while True: try: user_input = input("\n[你] ").strip() if user_input.lower() in ['quit', 'exit', 'q']: print("再见！") break if user_input: self.chat(user_input) except KeyboardInterrupt: print("\n\n程序被中断。") break except Exception as e: print(f"\n出错了：{e}") if __name__ == "__main__": # 请在此处填入你的OpenAI API Key，或通过环境变量设置 api_key = os.getenv("OPENAI_API_KEY") if not api_key: print("错误：未设置 OPENAI_API_KEY 环境变量。") api_key = input("请输入你的OpenAI API Key: ").strip() assistant = ContextAwareAssistant(api_key) assistant.run_interactive()

3.4 运行与效果演示

运行这个助手，你会体验到“记忆”带来的不同。

export OPENAI_API_KEY='your-api-key-here' # 在终端中设置环境变量 python cli_assistant.py

对话示例1：

[你] 我的名字是张三。 [助手] 你好，张三！很高兴认识你。有什么我可以帮助你的吗？ [你] 我喜欢蓝色和爬山。 [助手] 好的，张三。蓝色是很棒的颜色，让人联想到天空和海洋，很宁静。爬山也是一项很好的户外运动，既能锻炼身体，又能亲近大自然。记住了！ [你] 我刚刚告诉过你我喜欢什么？ [助手] 根据我们之前的交流，你告诉我你的名字是张三，并且你喜欢蓝色和爬山。对吗？

你看，助手“记住”了之前对话中关于姓名和喜好的信息，并在被问及时准确地回忆了起来。这是因为“用户说：我的名字是张三。”和“助手回答：...”这些内容都被转换成向量存储在了ChromaDB中。当用户提问“我刚刚告诉过你我喜欢什么？”时，这个问题也被转换成向量，系统通过向量相似度搜索，找出了最相关的几条记忆（即关于颜色和爱好的对话），并将它们作为上下文插入到了给LLM的提示词中。

对话示例2：复杂任务分解

[你] 请帮我制定一个本周末的学习计划，主题是Python异步编程。 [助手] （生成一个详细计划...） [你] 把周六下午的部分改成休息。 [助手] 好的，已根据你的要求，将周六下午从“学习asyncio高级特性”调整为“休息”。更新后的计划如下：...

在这个例子中，虽然助手没有显式地存储整个计划对象，但关于“制定Python异步编程学习计划”的对话记忆已经存在。当用户提出修改指令时，检索器有可能找到之前的计划讨论记忆，从而让助手理解“周六下午的部分”指的是什么，使得对话更加连贯。

实操心得：在实际使用中，直接存储原始对话文本进行向量搜索有时会不够精确。一个改进技巧是，在存储记忆时，不仅存储原始语句，还可以用LLM对内容进行一步“提炼”，生成一个更浓缩、关键词更丰富的“记忆摘要”再存入向量库。例如，将“我喜欢蓝色和爬山”提炼为“用户偏好：颜色-蓝色，爱好-爬山”，这样在检索时命中率会更高。这其实就是SummaryProcessor的用武之地。

4. 高级特性与优化策略

一个基础的记忆系统搭建完成后，我们会发现还有很多可以优化和深入的地方。human-memory这类库的设计，正是为了优雅地应对这些复杂需求。

4.1 记忆的分类与分层：短期、长期与工作记忆

在人类认知中，记忆是分层的。程序化的记忆系统也可以借鉴这一点。

短期记忆/对话缓存：保存最近几轮对话的原始记录。特点是容量小、存取快、相关性极高。通常可以用一个固定长度的队列（如collections.deque）在内存中实现。它的主要作用是保证当前对话的连贯性。
长期记忆/向量存储：保存所有经过处理的、重要的记忆摘要或事实。容量大、支持语义搜索。我们上面实现的ChromaMemoryStore就属于这一类。
工作记忆/上下文窗口：在每次调用LLM前，我们从短期记忆和长期记忆中检索出最相关的内容，组合成一个临时的“工作记忆”，放入提示词中。这直接受限于LLM的上下文令牌长度限制。

一个健壮的系统应该同时管理这三者。例如，我们的CLI助手可以这样升级：

class AdvancedAssistant(ContextAwareAssistant): def __init__(self, openai_api_key: str, short_term_memory_size: int = 10): super().__init__(openai_api_key) from collections import deque self.short_term_memory = deque(maxlen=short_term_memory_size) # 短期记忆队列 def chat(self, user_input: str): # 存入短期记忆（原始对话） self.short_term_memory.append({"role": "user", "content": user_input}) # 构建提示词时，优先包含短期记忆 short_term_context = "\n".join([f"{m['role']}: {m['content']}" for m in self.short_term_memory]) # 同时从长期记忆向量库中检索语义相关的记忆 long_term_memories = self.retriever.get_relevant_memories(user_input, limit=2) long_term_context = "\n".join([mem.content for mem in long_term_memories]) # 组合上下文 full_context = f"""近期对话： {short_term_context} 相关背景知识： {long_term_context} 当前用户最新消息：{user_input} 请回答：""" # ... 后续调用LLM和存储记忆的流程类似 # 存储到长期记忆时，可以设定规则：只有重要的、非临时性的信息才存入向量库 if self._is_worth_long_term(user_input, assistant_reply): self._store_to_long_term(user_input, assistant_reply)

4.2 记忆的检索优化：超越简单的向量搜索

单纯的向量相似度搜索并非万能。它可能找出语义相关但逻辑上不匹配的记忆。例如，用户问“如何煮鸡蛋？”，可能检索出“我昨天吃了煮鸡蛋”这条记忆，虽然相关但并非答案。优化策略包括：

混合检索（Hybrid Search）：结合稀疏检索（如BM25关键词匹配）和稠密检索（向量相似度）。关键词匹配能保证字面相关性，向量匹配能保证语义相关性。许多向量数据库（如Weaviate, Qdrant）已原生支持。
重排序（Re-ranking）：先用向量搜索召回一批候选记忆（比如20条），再用一个更小、更快的“重排序模型”或一套规则对它们进行精细打分和排序，选出Top-K（如3条）。这能显著提升最终结果的质量。
元数据过滤：在搜索时加入过滤器。比如，只检索metadata中type为"fact"或"user_preference"的记忆，忽略type为"conversation_chitchat"的记忆。这要求我们在存储时对记忆做好分类打标。

# 在MemoryStore的search接口中增加元数据过滤 def search(self, query: str, limit: int = 5, filter_dict: Optional[Dict] = None) -> List[Memory]: # filter_dict 示例: {"type": "fact", "importance": {"$gte": 0.5}} # 具体实现取决于底层数据库（如ChromaDB）是否支持元数据过滤 pass

4.3 记忆的维护：总结与遗忘

记忆不能只增不减。无限制的记忆增长会导致存储膨胀、检索变慢、噪声增多。

自动总结（Summarization）：定期（或当某个主题的对话轮次超过阈值时）触发一个总结任务。用一个LLM将一段冗长的对话记录总结成一条简洁的“事实”或“要点”，存入长期记忆，然后可以删除原始的、琐碎的对话记忆。这模拟了人类将短期记忆巩固为长期记忆的过程。
基于重要性的遗忘：为每条记忆赋予一个“重要性”分数。这个分数可以通过规则计算（例如，用户明确说“记住这个”则加分，闲聊内容则减分），也可以通过一个轻量级模型预测。系统定期清理重要性分数低于阈值或“年龄”太老的记忆。

实现一个简单的总结处理器：

class SummaryProcessor: def __init__(self, llm_client, memory_store, threshold=5): self.llm = llm_client self.store = memory_store self.threshold = threshold # 同一session或topic的记忆条数阈值 def process_if_needed(self, session_id: str): # 获取某个会话的所有记忆 memories = self._get_memories_by_session(session_id) if len(memories) < self.threshold: return # 提取内容文本 content_to_summarize = "\n".join([mem.content for mem in memories]) # 调用LLM进行总结 summary_prompt = f"""请将以下对话记录总结成3-5个关键事实或要点： {content_to_summarize} """ summary = self.llm.call(summary_prompt) # 创建一条新的总结记忆 summary_memory = Memory( id=str(uuid.uuid4()), content=f"对话总结：{summary}", timestamp=datetime.now(), metadata={"type": "summary", "source_session": session_id} ) self.store.add(summary_memory) # （可选）删除原始对话记忆 for mem in memories: if mem.metadata.get('type') == 'conversation': # 只删除原始对话，保留其他类型 self.store.delete(mem.id)

5. 常见问题、排查与选型建议

在实际集成和使用记忆系统的过程中，你肯定会遇到各种问题。下面是一些典型场景和解决思路。

5.1 记忆检索不准确或无关

问题：助手经常引用不相关的记忆，导致回答跑偏或混淆。排查与解决：

检查嵌入模型：你使用的文本嵌入模型是否适合你的语言和领域？all-MiniLM-L6-v2是英文通用模型，对中文支持尚可但非最优。对于中文应用，可以考虑paraphrase-multilingual-MiniLM-L12-v2或专门的中文嵌入模型。更换更合适的嵌入模型是提升检索质量最直接的方法。
优化记忆存储格式：存储的“记忆内容”是否过于冗长或模糊？尝试在存储前对文本进行清洗和提炼。例如，将“用户问：‘今天的天气怎么样？’，助手答：‘北京今天晴，25度。’”存储为“事实：北京2023年10月27日天气晴，25摄氏度。”后者作为记忆被检索到的价值更高。
调整检索策略：尝试混合检索或增加元数据过滤。如果用户问的是技术问题，可以过滤只检索metadata中domain为"technology"的记忆。
审视相关性阈值：向量搜索返回的是相似度分数。可以设置一个最低分数阈值，低于此阈值的记忆视为不相关，不予采用。

5.2 上下文令牌超限

问题：检索到的相关记忆太多，加上对话历史，导致提示词过长，超出LLM的上下文限制。排查与解决：

动态上下文窗口：实现一个逻辑，优先保证最近几轮对话（短期记忆）被包含，然后从长期记忆中按相关性从高到低添加，直到总令牌数接近上限（预留一部分给LLM回答）。
记忆摘要：这是根本解决方法。不要存储和检索冗长的原始对话，而是存储提炼后的摘要。SummaryProcessor就是干这个的。
分页或分层检索：先检索最相关的几条记忆，如果LLM在生成回答时表现出信息不足（例如回答“根据已有信息，我无法确定”），可以设计一个机制，让系统自动进行第二轮、更广泛的检索。

5.3 记忆系统的性能瓶颈

问题：随着记忆条数增长（例如超过10万条），检索速度变慢，影响助手响应时间。排查与解决：

向量数据库索引：确保你的向量数据库（如ChromaDB, Weaviate, Qdrant）建立了高效的索引（如HNSW）。这是向量检索快慢的关键。
硬件加速：如果使用本地嵌入模型，确保有足够的CPU/GPU资源。对于生产环境，考虑使用嵌入模型API服务（如OpenAI的text-embedding-ada-002），虽然增加网络延迟，但省去了本地计算开销，且通常性能稳定。
记忆分区：根据用户ID、会话ID或主题对记忆进行分区。检索时只在相关分区内进行，可以大幅缩小搜索范围。
缓存热点记忆：对于非常频繁被检索的“常识”或“用户核心信息”，可以缓存在内存中，避免每次都要查询向量数据库。

5.4 开源方案选型建议

如果你不想从头造轮子，以下是一些优秀的、包含记忆管理模块的开源项目或库，你可以直接使用或参考：

LangChain：其Memory模块非常成熟，提供了ConversationBufferMemory,ConversationSummaryMemory,VectorStoreRetrieverMemory等多种记忆类，并能与各种向量存储无缝集成。它是构建此类应用的“瑞士军刀”，但抽象层次较高，定制性可能受限于框架设计。
LlamaIndex：专注于数据索引和检索。它可以将你的记忆（文档）通过不同的索引结构（如向量索引、关键词索引、摘要索引）组织起来，并提供强大的查询接口。如果你记忆的内容是结构化的文档或知识，LlamaIndex非常合适。
自定义实现（基于human-memory理念）：就像我们上面做的那样。优势是轻量、完全可控、深度定制。你可以选择最适合的向量数据库（如Pinecone- 云服务，Weaviate- 开源且功能丰富，Milvus- 面向大规模），搭配最适合的嵌入模型。这对于有特定性能、成本或架构要求的项目是更好的选择。

最终建议：对于快速原型和大多数应用，从LangChain开始是最快最稳的。当你的应用对记忆的检索精度、性能或定制流程有极高要求时，再考虑基于human-memory这样的设计理念自建核心系统。无论选择哪条路，理解我们上面探讨的记忆抽象、分层、检索、维护这些核心概念，都将让你在设计和调试时游刃有余。

查看全文

http://www.jsqmd.com/news/820197/