当前位置：首页 > news >正文

AI智能体持久记忆系统构建：从RAG架构到向量数据库实战

news 2026/8/2 1:21:49

1. 项目概述：为AI智能体构建“持久记忆”的必要性

最近在折腾各种AI智能体（Agent）时，我发现一个普遍存在的痛点：会话失忆。无论是基于OpenAI API、Claude还是本地部署的开源大模型构建的对话机器人或自动化工作流，默认情况下，它们都是“健忘的”。每次对话或每次调用，对于AI来说都是一次全新的开始，它不记得你上一轮说过什么，更别提跨越数天、数周甚至数月的长期上下文了。这严重限制了AI智能体在复杂任务处理、个性化服务和持续学习场景下的能力。

想象一下，你有一个帮你管理日程的AI助手，今天你告诉它“下周三下午三点和客户A有个线上会议”，明天你再问它“我下周有什么安排？”，它却一脸茫然。或者，你正在和一个AI讨论一个复杂的编程项目，你们已经花了十几轮对话确定了技术栈和架构，但当你第二天想继续细化某个模块时，却不得不从头开始复述所有背景信息。这显然不是我们想要的“智能”体验。

因此，为AI智能体添加“持久记忆”（Persistent Memory）成为了提升其可用性和智能水平的关键一步。这不仅仅是简单地将对话历史塞进上下文窗口，而是一套涉及数据存储、检索、向量化、摘要和长期管理的系统工程。它让AI智能体能够像人类一样，积累经验，形成“长期记忆”，并在需要时准确、高效地回忆起来。

本文将从一个实践者的角度，手把手带你走通为AI智能体构建持久记忆系统的完整流程。无论你是想为自己的聊天机器人增加“记忆力”，还是想构建一个能够持续学习和进化的复杂AI助手，这套方法都能为你提供一个坚实可靠的起点。我们将从核心概念讲起，逐步深入到技术选型、环境搭建、代码实现，并分享我在实际部署中踩过的坑和总结的优化技巧。

2. 核心概念与架构设计解析

在动手之前，我们必须先厘清“持久记忆”在技术实现上究竟意味着什么。它不是一个单一的功能，而是一个由多个组件协同工作的系统。

2.1 记忆的类型与分层

一个健壮的记忆系统应该像人类记忆一样分层：

短期记忆/工作记忆：这通常由大模型本身的上下文窗口（Context Window）来承担。例如，GPT-4的128K上下文，可以记住当前会话中大量的交互细节。这部分记忆是瞬态的、高速的，但容量有限，会话结束即消失。
长期记忆：这才是“持久化”的核心。我们需要将短期记忆中有价值的信息，经过处理后，存储到外部数据库（如向量数据库、关系型数据库）中。这部分记忆是永久的、可大规模扩展的，但检索速度相对较慢。
记忆的加工过程：并非所有对话都需要存入长期记忆。直接存储原始对话记录会导致数据臃肿、检索噪音大。因此，我们需要一个“加工”层，对对话内容进行摘要（Summarization）、关键信息提取（Entity Extraction）和向量化（Embedding）。例如，将一段关于项目需求的讨论，总结为“用户计划开发一个基于Python的Web监控工具，核心需求是实时日志收集和报警”，并提取出实体“Python”、“Web监控”、“日志”、“报警”。

2.2 核心架构设计：RAG与记忆流的结合

目前最主流且有效的架构是RAG（检索增强生成）与记忆流（Memory Stream）思想的结合。

记忆写入流程：
- 触发：每次AI与用户交互后，系统判断本次交互是否包含需要长期记忆的信息（例如，用户明确告知了个人信息、偏好，或讨论了项目细节）。
- 处理：将需要记忆的文本内容，通过嵌入模型（Embedding Model）转换为高维向量（Vector）。同时，可以生成一个文本摘要作为可读的记忆描述。
- 存储：将向量、摘要、原始文本片段、时间戳、会话ID等元数据，一并存入向量数据库（如Chroma, Pinecone, Weaviate）。
记忆读取（检索）流程：
- 触发：当用户发起新的查询或对话时。
- 检索：将用户的当前查询也转换为向量，然后在向量数据库中进行相似性搜索（Similarity Search），找出与当前查询最相关的若干条历史记忆。
- 注入：将这些检索到的相关记忆，作为上下文信息，与用户的当前查询一起提交给大语言模型（LLM）。模型在生成回答时，就能“记起”过去的相关信息。

系统架构图（逻辑层面）：

用户输入 | v [记忆检索器] -> 从向量库查询相关记忆 | v 用户输入 + 相关记忆作为上下文 | v [大语言模型 LLM] | v AI回复 | v [记忆处理器] -> 判断并存储新记忆到向量库

注意：这里的关键设计在于“记忆的粒度”和“检索策略”。是存储每一轮对话？还是每隔几轮做一个摘要？检索时是返回最相似的Top K条，还是加入时间衰减因子让近期记忆权重更高？这些都需要根据你的智能体具体任务来调整。

2.3 技术栈选型与考量

向量数据库（核心存储）：
- Chroma：轻量级、开源、易于集成，特别适合原型开发和中小型项目。它可以直接在内存或本地磁盘运行，无需复杂部署。这是我们本教程的首选。
- Pinecone / Weaviate：全托管的云服务，提供更强大的性能、可扩展性和管理功能，适合生产级应用，但有成本考量。
- PGVector：PostgreSQL的扩展，如果你的系统本身就用PostgreSQL，希望统一技术栈，这是一个很好的选择。
- 选型理由：对于大多数个人开发者和初创项目，从Chroma开始是最快、成本最低的路径。它足以支撑百万级向量的存储和检索，且社区活跃。
嵌入模型（将文本转为向量）：
- OpenAItext-embedding-3-small/-large：效果一流，API调用简单，但有费用产生，且依赖网络。
- 开源模型（如BAAI/bge-small-en-v1.5,sentence-transformers/all-MiniLM-L6-v2）：免费，可本地部署，数据隐私性好，但需要本地GPU或CPU资源，且效果可能略逊于顶级商用模型。
- 选型理由：为求简便和最佳效果，本指南将使用OpenAI的嵌入模型。如果你对数据隐私或成本有极高要求，我会在后续补充切换到开源模型的方案。
大语言模型（LLM，智能核心）：
- 任何支持对话和上下文理解的模型均可，如OpenAI GPT系列、Anthropic Claude、开源Llama 3等。本教程以OpenAI API为例，因其接口最通用。

3. 分步实现指南：从零搭建记忆系统

接下来，我们进入实战环节。我将假设你有一个基本的、基于Python和OpenAI API的对话AI项目，并在此基础上添加记忆功能。

3.1 环境准备与依赖安装

首先，确保你的Python环境（建议3.8以上）并安装必要的库。

# 创建并激活虚拟环境（可选但推荐） python -m venv ai_agent_memory source ai_agent_memory/bin/activate # Linux/macOS # ai_agent_memory\Scripts\activate # Windows # 安装核心依赖 pip install openai chromadb langchain tiktoken

openai: 用于调用GPT和Embedding API。
chromadb: 我们的向量数据库客户端。
langchain: 一个强大的LLM应用开发框架，它提供了大量工具和抽象来简化记忆、链（Chain）等功能的构建。虽然我们可以完全从零写，但使用LangChain能极大提升开发效率。
tiktoken: OpenAI官方分词器，用于精确计算token数量，管理上下文长度。

实操心得：强烈建议使用pip的requirements.txt或poetry来管理依赖。特别是langchain及其社区包更新频繁，锁定版本可以避免意外的不兼容问题。例如，可以创建一个requirements.txt文件，写入openai>=1.0.0, chromadb>=0.4.0, langchain>=0.1.0。

3.2 初始化核心组件

我们创建一个Python脚本（如agent_with_memory.py），开始编写代码。

import os from openai import OpenAI import chromadb from chromadb.config import Settings import hashlib from datetime import datetime # 1. 设置OpenAI API密钥（请替换为你的密钥） os.environ["OPENAI_API_KEY"] = "your-openai-api-key-here" client = OpenAI() # 2. 初始化Chroma向量数据库客户端 # 持久化到本地目录 `./chroma_db` chroma_client = chromadb.PersistentClient(path="./chroma_db") # 创建或获取一个集合（Collection），类似于数据库中的表 # 我们以智能体名称命名，避免不同项目记忆混淆 collection_name = "my_ai_agent_memory" collection = chroma_client.get_or_create_collection( name=collection_name, metadata={"hnsw:space": "cosine"} # 使用余弦相似度进行检索 ) # 3. 辅助函数：生成文本的嵌入向量 def get_embedding(text): """调用OpenAI Embedding API将文本转换为向量""" response = client.embeddings.create( model="text-embedding-3-small", input=text ) return response.data[0].embedding # 4. 辅助函数：为一段记忆生成唯一ID（基于内容和时间） def generate_memory_id(text): timestamp = datetime.now().isoformat() unique_string = f"{text[:50]}_{timestamp}" # 取前50个字符加时间戳 return hashlib.md5(unique_string.encode()).hexdigest()

关键点解析：

PersistentClient(path="./chroma_db")：这行代码使得Chroma将数据持久化到本地磁盘的chroma_db文件夹中。即使程序重启，记忆也不会丢失。
collection：是Chroma中存储和组织向量的基本单位。所有相关的记忆都存放在同一个集合中。
hnsw:space: “cosine”表示我们使用余弦相似度来衡量向量之间的相关性，这在文本语义搜索中是最常用的度量方式。
generate_memory_id：向量数据库的每条记录需要一个唯一ID。我们结合文本片段和时间戳生成MD5哈希，既保证了唯一性，又避免了重复存储完全相同的记忆。

3.3 实现记忆的存储与检索逻辑

现在，我们来构建记忆系统的两个核心功能：add_memory（存）和query_memories（取）。

def add_memory(memory_text, metadata=None): """ 将一段记忆存储到向量数据库。 Args: memory_text (str): 需要存储的记忆文本。 metadata (dict, optional): 额外的元数据，如会话ID、记忆类型、时间戳等。 """ if not memory_text or len(memory_text.strip()) == 0: return # 准备元数据 if metadata is None: metadata = {} metadata['timestamp'] = datetime.now().isoformat() metadata['raw_text'] = memory_text[:500] # 在元数据中保存一部分原始文本便于调试 # 生成嵌入向量和ID embedding = get_embedding(memory_text) memory_id = generate_memory_id(memory_text) # 存入Chroma集合 collection.add( embeddings=[embedding], documents=[memory_text], # 存储完整文本，供检索后返回 metadatas=[metadata], ids=[memory_id] ) print(f"[Memory Added] ID: {memory_id}, Text: {memory_text[:60]}...") def query_memories(query_text, n_results=5): """ 根据查询文本，从向量数据库中检索最相关的记忆。 Args: query_text (str): 查询文本。 n_results (int): 返回最相关记忆的数量。 Returns: list: 一个包含相关记忆字典的列表，每个字典有`text`和`metadata`等字段。 """ if not query_text: return [] # 将查询文本也转换为向量 query_embedding = get_embedding(query_text) # 在集合中查询 results = collection.query( query_embeddings=[query_embedding], n_results=n_results ) # 整理返回结果 memories = [] if results['documents']: for i in range(len(results['documents'][0])): memory = { 'text': results['documents'][0][i], 'metadata': results['metadatas'][0][i], 'distance': results['distances'][0][i] # 相似度距离，越小越相似 } memories.append(memory) return memories

代码逻辑剖析：

add_memory函数：它接收记忆文本和可选元数据，调用Embedding API生成向量，然后调用collection.add方法，将向量、原始文档、元数据和ID作为一个整体存入。这是Chroma的标准操作。
query_memories函数：它接收用户的当前查询，同样将其向量化，然后使用collection.query方法进行相似性搜索。n_results参数控制返回多少条最相关的记忆。返回的结果包含了记忆文本、元数据和相似度分数。

3.4 将记忆系统集成到AI智能体对话循环中

有了存储和检索的轮子，现在我们需要把它们装到车上——即与主对话逻辑结合起来。

def should_remember(conversation_turn): """ 一个简单的启发式规则，判断本轮对话是否值得存入长期记忆。 这是一个需要根据场景精细调优的核心函数。 """ user_input = conversation_turn.get("user", "") ai_response = conversation_turn.get("ai", "") # 规则1：用户提供了明确的个人信息或偏好 personal_keywords = ["我叫", "我的名字是", "我喜欢", "我讨厌", "我住在", "我的电话是", "记住一下"] if any(keyword in user_input for keyword in personal_keywords): return True, user_input # 记忆内容为用户输入 # 规则2：对话中包含了重要的决策或事实陈述（这里简化处理，实际可用LLM判断） if len(user_input) > 50 and ("是" in user_input or "要" in user_input or "决定" in user_input): # 更佳实践：调用LLM对对话进行摘要，再将摘要存入记忆 summary_prompt = f"请用一句简短的话总结以下对话的核心信息，用于长期记忆：\n用户：{user_input}\nAI：{ai_response}" # 这里调用LLM生成摘要（为简化示例，暂用前100字符代替） memory_content = user_input[:100] + "..." + ai_response[:100] return True, memory_content # 规则3：AI生成了重要的结论或计划 if "计划如下" in ai_response or "结论是" in ai_response: return True, ai_response # 默认不记忆 return False, None def chat_with_memory(user_input, conversation_history=[]): """ 带记忆的聊天函数，这是智能体的核心循环。 """ # 1. 检索相关记忆 relevant_memories = query_memories(user_input, n_results=3) memory_context = "" if relevant_memories: memory_context = "\n--- 相关记忆 ---\n" for mem in relevant_memories: memory_context += f"- {mem['text']}\n" memory_context += "-----------------\n" print(f"[检索到 {len(relevant_memories)} 条相关记忆]") # 2. 构建给LLM的提示词（Prompt），注入记忆上下文 system_prompt = """你是一个有帮助的AI助手，并且拥有长期记忆。以下是一些你过去与用户交流的相关记忆，供你参考。请利用这些记忆，更好地理解用户当前的需求和上下文。""" full_prompt = f"{system_prompt}\n{memory_context}\n用户：{user_input}" # 将本次对话加入临时会话历史（用于短期上下文） conversation_history.append({"role": "user", "content": user_input}) # 3. 调用LLM生成回复（这里简化了消息列表的构建） # 实际应用中，需要管理token长度，可能会截断或摘要过长的conversation_history try: response = client.chat.completions.create( model="gpt-3.5-turbo", # 或 "gpt-4" messages=[ {"role": "system", "content": system_prompt}, *conversation_history[-6:], # 只保留最近6轮作为短期上下文 {"role": "user", "content": f"{memory_context}当前问题：{user_input}"} ], temperature=0.7, ) ai_response = response.choices[0].message.content except Exception as e: ai_response = f"抱歉，我在思考时遇到了问题：{e}" # 4. 将本轮对话加入短期历史 conversation_history.append({"role": "assistant", "content": ai_response}) # 5. 判断本轮是否生成新长期记忆，并存储 current_turn = {"user": user_input, "ai": ai_response} should_remember_flag, memory_to_store = should_remember(current_turn) if should_remember_flag and memory_to_store: metadata = { "session_id": "default_session", # 实际应用中应为唯一会话ID "type": "conversation_turn" } add_memory(memory_to_store, metadata) return ai_response, conversation_history # 6. 简单的对话循环示例 if __name__ == "__main__": print("AI智能体（带持久记忆）已启动。输入‘退出’来结束对话。") history = [] while True: user_input = input("\n你：") if user_input.lower() in ["退出", "exit", "quit"]: print("对话结束。") break response, history = chat_with_memory(user_input, history) print(f"AI：{response}")

集成逻辑详解：

检索先行：在回答用户问题前，先用query_memories函数，以用户当前输入为查询条件，从向量库中拉取相关的历史记忆。
上下文构建：将检索到的记忆文本，作为“系统提示词”或“上下文”的一部分，注入到发给LLM的请求中。这相当于在模型思考前，先给了它一份“参考资料”。
生成回复：LLM基于短期会话历史+长期记忆上下文+当前问题，生成更精准、个性化的回复。
记忆写入判断：在得到AI回复后，通过should_remember函数判断本轮对话是否包含有价值信息。这个函数是记忆系统的“守门员”，其策略直接影响记忆库的质量。示例中给出了几个简单的启发式规则，但最佳实践是使用另一个LLM调用来做判断和摘要生成，这能极大提升记忆的准确性。
存储记忆：如果判断需要记忆，则调用add_memory函数，将处理好的记忆文本存入向量数据库。

4. 高级优化与生产级考量

上面的代码是一个可运行的原型。但要用于实际项目，还需要考虑很多优化点。

4.1 记忆的摘要与清洗

直接存储原始对话文本是次优的。它占用的存储空间大，且包含大量无关信息（如问候语、语气词），会干扰检索精度。

优化方案：在should_remember函数中，引入一个“记忆加工”步骤。

def summarize_for_memory(user_input, ai_response): """使用LLM将一轮对话总结成精炼的记忆语句。""" prompt = f""" 请将以下对话提炼成一个简洁、客观的事实性陈述句，用于AI助手的长期记忆。只输出陈述句本身。 对话： 用户：{user_input} 助手：{ai_response} 记忆陈述： """ try: response = client.chat.completions.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": prompt}], temperature=0.1, # 低温度，确保输出稳定、事实性 max_tokens=100 ) summary = response.choices[0].message.content.strip() # 清理可能出现的引号 summary = summary.strip('"').strip("'") return summary if summary else None except Exception as e: print(f"记忆摘要生成失败：{e}") return None # 在 should_remember 函数中，当决定要记忆时： # memory_to_store = summarize_for_memory(user_input, ai_response)

这样，存入向量库的将不再是“用户说：‘我喜欢吃披萨和意大利面。’ AI回复：‘好的，我记下了。’”，而是精炼的“用户的食物偏好是披萨和意大利面。”

4.2 检索策略的优化

简单的相似性搜索可能返回一些时间久远或相关性不高的记忆。

优化方案：

元数据过滤：在query时加入where过滤条件。例如，只检索某个特定会话(session_id)、某种记忆类型(type)或某个时间范围(timestamp)内的记忆。

results = collection.query( query_embeddings=[query_embedding], n_results=n_results, where={"session_id": "current_session_id"} # 只检索当前会话的记忆 # where={"timestamp": {"$gte": "2024-01-01"}} # 只检索2024年以后的记忆 )

混合搜索：结合关键词搜索（BM25）和向量搜索，进行重排序（Rerank），以兼顾字面匹配和语义匹配。这需要更复杂的库（如rank_bm25）或使用支持混合搜索的数据库（如Weaviate）。
时间衰减：在应用层对检索结果进行排序时，给近期记忆更高的权重。例如，相似度分数 = 向量相似度 * 时间衰减因子。

4.3 记忆的管理与维护

记忆库不能只增不减，否则会变得臃肿不堪。

去重：在add_memory前，可以先进行一次检索，如果存在高度相似（向量距离极小）的旧记忆，则可以选择更新其元数据（如刷新时间戳）而非新增。
遗忘/归档：实现一个后台任务，定期清理过于陈旧（例如一年前）、或长期未被检索到的记忆。也可以提供手动管理界面，让用户删除或修正错误的记忆。
记忆分类：在元数据中增加category字段（如“用户偏好”、“项目信息”、“事实知识”），便于更精细的检索和管理。

4.4 使用LangChain框架进行重构

上述代码是“裸写”的，便于理解原理。在实际生产中，使用LangChain可以极大地简化代码，并获得更健壮、功能更丰富的记忆系统。

from langchain_openai import ChatOpenAI, OpenAIEmbeddings from langchain_chroma import Chroma from langchain.memory import VectorStoreRetrieverMemory from langchain.chains import ConversationChain from langchain.prompts import PromptTemplate # 1. 使用LangChain组件初始化 llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.7) embeddings = OpenAIEmbeddings(model="text-embedding-3-small") # 2. 初始化Chroma向量库（LangChain封装版） vectorstore = Chroma( collection_name="langchain_agent_memory", embedding_function=embeddings, persist_directory="./chroma_langchain_db" ) # 3. 创建检索器，并包装成LangChain的Memory对象 retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) memory = VectorStoreRetrieverMemory(retriever=retriever) # 4. 定义带有记忆上下文的提示词模板 template = """你是一个有帮助的AI助手。以下是一些之前对话中相关的上下文： {history} （以上是相关记忆，并非当前对话的连续历史） 当前对话： Human: {input} AI:""" prompt = PromptTemplate(input_variables=["history", "input"], template=template) # 5. 创建对话链 conversation = ConversationChain( llm=llm, prompt=prompt, memory=memory, verbose=True # 开启verbose可以看到记忆检索和注入的过程 ) # 6. 运行对话 response = conversation.predict(input="你好，还记得我喜欢吃什么吗？") print(response) # LangChain会自动调用memory.save_context来保存新的对话到向量库

使用LangChain后，记忆的存储、检索和上下文管理都被抽象化了，开发者只需关注业务逻辑和提示词工程，代码更加简洁和模块化。

5. 常见问题、故障排查与性能调优

在实际部署中，你肯定会遇到各种问题。以下是我总结的一些常见坑点和解决方案。

5.1 记忆检索不准确或无关

症状：AI的回答似乎没有用到记忆，或者用错了记忆。
排查步骤：
1. 检查存储：调用collection.peek()或collection.count()查看记忆是否成功存入。
2. 检查检索：在query_memories函数中打印出检索到的记忆文本和相似度分数，看它们是否真的与当前查询相关。
3. 分析嵌入模型：不同的嵌入模型对同一文本的向量化结果差异很大。确保用于存储和查询的嵌入模型是同一个。对于中文场景，OpenAI的text-embedding-3系列对中文支持很好，但如果你用开源模型，务必选择针对中文优化的（如BAAI/bge-large-zh-v1.5）。
4. 优化查询文本：有时用户的查询很短（如“它怎么样？”），缺乏语义信息。可以尝试将用户的当前查询与其最近的几句对话历史拼接起来，再去做检索，以提供更丰富的上下文。
调优建议：
- 调整n_results：增加返回数量（如从3调到5），可能能覆盖到更相关的记忆。
- 调整相似度阈值：在query后，过滤掉相似度距离（distance）过大的结果。余弦相似度距离范围是0-2，值越小越相似。可以设定一个阈值，如只保留距离小于0.3的记忆。
- 优化记忆文本质量：这是最根本的。确保存入的是精炼的摘要，而不是冗长的原始对话。

5.2 上下文长度超限（Token Overflow）

症状：调用LLM API时返回context_length_exceeded错误。
原因：检索到的记忆太多，加上对话历史，导致提示词总长度超过了模型的上限。
解决方案：
1. 限制记忆条数和长度：在query_memories中严格限制返回条数（如3条）。对每条返回的记忆文本进行长度截断（如只取前200个字符）。
2. 动态摘要：如果检索到的记忆文本很长，可以实时调用LLM对其进行二次摘要，压缩后再注入上下文。
3. 使用具有更长上下文窗口的模型：例如，GPT-4 Turbo支持128K上下文。
4. 使用LangChain的上下文压缩检索器：LangChain提供了ContextualCompressionRetriever，可以与LLMChainExtractor结合，在检索后自动对文档进行摘要压缩。

5.3 存储与检索性能瓶颈

症状：对话响应变慢，尤其是第一次检索时。
排查与优化：
1. 本地vs云端：Chroma在本地首次加载大量数据时可能会慢。对于生产环境，考虑使用Pinecone等云服务，它们提供更快的索引和检索速度。
2. 索引类型：Chroma默认使用HNSW（Hierarchical Navigable Small World）索引，这是一种近似最近邻搜索算法，在速度和精度上有很好的平衡。通常无需更改。
3. 批量操作：如果需要初始化或导入大量历史数据，使用collection.add的批量接口，一次性传入多个embeddings,documents,metadatas,ids列表，效率远高于循环单条插入。
4. 异步处理：记忆的存储（add_memory）可以改为异步操作，不阻塞主对话线程。用户得到AI回复后，系统在后台慢慢处理记忆存储。

5.4 成本控制

使用OpenAI的Embedding和ChatCompletion API会产生费用。

监控用量：在OpenAI控制台设置用量警报。
缓存嵌入向量：对于相同的文本，其嵌入向量是固定的。可以在本地建立一个简单的缓存（如SQLite或字典），在调用get_embedding前先查缓存，避免重复计算。
使用更小的嵌入模型：text-embedding-3-small比-large便宜很多，且对于许多任务来说精度足够。
切换到开源模型：长期来看，如果记忆量巨大，使用本地部署的开源嵌入模型（如通过sentence-transformers库）是零边际成本的选择，尽管初期有部署成本。

为AI智能体赋予持久记忆，是从一个“聪明的鹦鹉”升级为“得力的伙伴”的关键一步。这个过程没有银弹，需要你根据智能体的具体任务、交互频率和用户群体，不断地调整记忆策略、检索方式和摘要算法。我从一个简单的原型开始，逐步迭代到如今相对稳定的系统，最大的体会是：记忆的质量远比数量重要。一个充满噪音和冗余的记忆库，比一个空白的记忆库更糟糕。因此，请务必花时间打磨你的should_remember和记忆摘要逻辑，这是整个系统智能与否的“大脑皮层”。开始动手吧，从第一个add_memory调用开始，你的AI智能体将开始拥有它自己的故事。

查看全文

http://www.jsqmd.com/news/894018/