当前位置：首页 > news >正文

AI智能体开发框架解析：从模块化架构到实战应用

news 2026/5/9 1:03:11

1. 项目概述：一个面向开发者的智能体构建框架

最近在GitHub上看到一个挺有意思的项目，叫hh-openclaw-agent。乍一看这个仓库名，你可能会有点懵——“hh”是啥？“openclaw”又是什么？但如果你对AI智能体（Agent）开发感兴趣，或者正在寻找一个能帮你快速构建、测试和部署智能体应用的工具，那这个项目绝对值得你花时间研究一下。

简单来说，hh-openclaw-agent是一个开源的、模块化的智能体开发框架。它的核心目标，是让开发者，尤其是那些希望将大型语言模型（LLM）能力集成到具体业务流程中的开发者，能够像搭积木一样，快速组装出功能强大、逻辑清晰的AI智能体。这里的“智能体”，指的可不是简单的聊天机器人，而是能够理解复杂指令、调用多种工具（比如搜索网络、读写数据库、执行代码）、进行多轮规划并最终完成一个具体任务的自主程序。

我自己在尝试将LLM能力产品化的过程中，就经常遇到这样的痛点：模型API调用很简单，但要把一个完整的、可靠的智能体系统跑起来，需要处理任务拆解、工具调度、状态管理、错误处理、记忆持久化等一大堆“脏活累活”。自己从头搭建这套基础设施，不仅耗时费力，而且容易陷入细节，偏离业务核心。hh-openclaw-agent的出现，正是为了解决这个问题。它提供了一套经过设计的架构和一系列可复用的组件，把智能体开发的通用模式给抽象和封装好了。你可以把它理解为一个“智能体操作系统”或者“智能体中间件”，你只需要关心你的业务逻辑和工具定义，底层的执行引擎、工作流编排、记忆管理等都交给框架来处理。

这个项目适合谁呢？首先，肯定是AI应用开发者，无论你是想做一个智能客服、自动数据分析助手，还是一个能自动编写和测试代码的编程搭档，这个框架都能提供坚实的基础。其次，对于研究AI智能体架构的研究者或学生，这个开源项目本身就是一个非常好的学习案例，你可以清晰地看到一个生产级智能体系统是如何被组织和构建的。最后，对于任何对AI自动化感兴趣的技术爱好者，通过这个框架，你能以相对低的门槛，亲手创造一个能“思考”和“行动”的AI程序，这种体验是非常独特的。

2. 核心架构与设计哲学拆解

要理解hh-openclaw-agent的价值，我们不能只停留在“它能用”的层面，必须深入其设计内核，看看它到底是怎么把智能体这个复杂概念给“结构化”的。这部分的思考，往往比具体的代码调用更重要。

2.1 模块化与解耦：像组装电脑一样构建智能体

这个框架最核心的设计思想就是模块化。它没有把智能体做成一个庞然大物，而是将其拆解成几个职责清晰、相互独立的组件。通常，一个完整的智能体系统会包含以下核心模块：

大脑（Brain/Core）：这是智能体的决策中心，通常由一个大语言模型（如GPT-4、Claude或开源模型）担任。它的职责是理解用户输入、进行推理、制定计划（Plan）并决定下一步调用哪个工具。
工具集（Tools）：这是智能体的“手”和“脚”。一个只能“想”不能“做”的智能体是没用的。工具可以是任何可执行的功能，比如：搜索引擎API、数据库查询函数、代码执行器、文件读写操作，甚至是调用另一个Web服务。框架需要提供一套标准化的方式来定义、注册和管理这些工具。
规划器（Planner）：对于复杂任务，智能体需要将其分解为一系列可执行的子步骤。规划器就负责这个“任务拆解”的工作。有些框架采用链式思维（Chain-of-Thought）让LLM自己规划，有些则提供更结构化的规划模板。hh-openclaw-agent很可能实现或集成了一种高效的规划策略。
记忆系统（Memory）：智能体需要有“记忆”才能进行多轮对话和持续任务。记忆系统负责存储和检索历史对话、工具执行结果、任务状态等。它可能包括短期记忆（当前会话）和长期记忆（向量数据库存储的持久化知识）。
执行引擎（Executor）：这是驱动整个智能体运转的“发动机”。它按照规划器产生的计划，依次调用工具，处理工具返回的结果，管理执行状态（成功、失败、重试），并将中间结果反馈给“大脑”进行下一轮决策。
状态管理与容错（State & Fault Tolerance）：智能体执行过程中会处于各种状态（如“规划中”、“执行工具A”、“等待用户输入”）。框架需要有一套机制来管理这个状态机。同时，工具调用可能会失败，网络可能不稳定，框架必须提供重试、回退、超时处理等容错机制。

hh-openclaw-agent的巧妙之处在于，它将这些模块之间的接口定义得非常清晰。你可以轻松地替换其中的某个部分。比如，你觉得默认的规划策略不够好，你可以实现自己的Planner类并替换进去；你觉得内存不够用，可以换一个更强大的向量数据库后端。这种设计给了开发者极大的灵活性。

注意：模块化带来的一个挑战是模块间的通信开销和状态同步。设计时需要仔细定义数据流（如智能体的思考过程、工具调用的输入输出）的格式，确保所有模块都说“同一种语言”。通常框架会定义一个核心的AgentState或Context对象，在整个执行生命周期中传递。

2.2 工作流编排：从线性执行到复杂图谱

早期的智能体框架大多是线性的：接收输入 -> 模型思考 -> 调用工具 -> 返回结果。但对于真实世界的复杂任务，这种线性流程远远不够。比如，一个“帮我分析上周销售数据并生成报告”的任务，可能需要先验证用户权限，然后从数据库拉取数据，接着进行数据清洗和计算，最后调用文本生成模型撰写报告，期间可能还需要向用户确认某个异常值。

因此，现代智能体框架必须支持工作流（Workflow）或任务图（Task Graph）的编排。hh-openclaw-agent很可能提供了这样的能力。它允许开发者定义任务之间的依赖关系，形成一个有向无环图（DAG）。执行引擎会按照依赖关系并发或顺序地执行任务，并处理任务之间的数据传递。

举个例子，你可以定义这样一个工作流：

任务A：获取用户ID，查询权限。
任务B：依赖任务A的成功结果，从数据库获取销售数据。
任务C：依赖任务B的数据，进行数据清洗。
任务D：依赖任务C清洗后的数据，生成分析图表。
任务E：依赖任务C的数据和任务D的图表路径，调用LLM生成报告文本。

这种编排能力，使得智能体能够处理高度复杂、多步骤的自动化流程，真正逼近“数字员工”的能力。

2.3 与现有生态的集成：站在巨人的肩膀上

一个框架能否成功，其生态集成能力至关重要。hh-openclaw-agent作为一个开源项目，必然需要与现有的AI和开发工具链无缝集成。

模型层：它应该支持主流的LLM API（如OpenAI、Anthropic、Google Gemini）以及本地部署的开源模型（通过Llama.cpp、vLLM、Ollama等）。框架会抽象出一个统一的LLMProvider接口，让切换模型就像改个配置参数一样简单。
工具层：它应该提供简便的方式将Python函数、API接口封装成工具。更理想的是，它能与LangChain Tools或LlamaIndex Tools这类社区标准兼容，让开发者可以直接利用海量的现有工具。
记忆层：短期记忆可能用内存或Redis，长期记忆则很可能集成主流的向量数据库，如Pinecone、Weaviate、Qdrant，或者本地的ChromaDB、FAISS。
部署与监控：成熟的框架会考虑如何将开发好的智能体部署为API服务（比如用FastAPI封装），并提供基本的日志、指标监控（如每次调用的耗时、Token使用量、工具调用成功率），方便线上运维。

从项目名中的“open”也能看出，其设计是倾向于开放和集成的，而不是搞一套封闭的体系。

3. 核心组件深度解析与实操要点

了解了宏观架构，我们深入到几个最关键的组件，看看在hh-openclaw-agent中它们具体是如何工作的，以及在实际使用时需要注意哪些坑。

3.1 工具（Tools）的定义、注册与安全调用

工具是智能体与外界交互的桥梁。框架如何设计工具系统，直接决定了智能体的能力边界和安全性。

1. 工具定义：通常，你需要用一个装饰器或一个基类来声明一个工具。一个完整的工具定义需要包含：

名称（name）：唯一标识符，如search_web。
描述（description）：这是给LLM看的！必须清晰、准确地说明这个工具是干什么的、输入是什么、输出是什么。LLM全靠这个描述来决定是否以及如何调用它。例如：“在互联网上搜索相关信息。输入是一个查询字符串。返回搜索结果的摘要列表。”
参数模式（args_schema）：定义工具接受的参数及其类型（字符串、数字、布尔值等）。这为LLM生成正确的调用参数提供了结构化约束。
执行函数（_run）：工具的实际逻辑代码。

# 伪代码示例 from hh_openclaw_agent.tools import tool @tool(name="get_weather", description="获取指定城市的当前天气。输入是城市名称（字符串）。") def get_weather(city: str) -> str: # 调用天气API的逻辑 api_url = f"https://api.weather.com/v1/city/{city}" response = requests.get(api_url) # ... 处理响应 return f"{city}的天气是{weather_condition}，温度{temp}度。"

2. 工具注册与管理：定义好的工具需要注册到一个中央的ToolRegistry中。智能体在执行时，会从这个注册表中查询可用的工具列表和它们的描述。框架通常会提供自动发现和加载工具模块的机制。

3. 安全调用——最大的坑：这是工具系统最需要警惕的部分。让LLM任意调用工具，相当于给了它执行任意代码的能力，极其危险。

权限控制：框架应该支持工具级别的权限。例如，某些工具（如“读写数据库”、“执行shell命令”）只能被授权给特定的智能体或用户使用。
参数验证与净化：在执行工具前，必须对LLM生成的参数进行严格的类型验证和内容净化，防止注入攻击。比如，如果工具参数是一个文件路径，必须检查其是否在允许的目录范围内。
用户确认：对于高风险操作（如删除数据、发送邮件），框架应支持配置“需用户确认”的开关，在执行前暂停并请求用户明确批准。
资源限制：为工具执行设置超时时间和资源（CPU/内存）限制，防止恶意或错误调用导致系统瘫痪。

实操心得：在描述工具时，要尽可能精确和限制范围。模糊的描述会导致LLM滥用工具。例如，与其说“操作文件”，不如说“读取指定路径的文本文件内容”。同时，建议为所有工具实现一个“模拟模式”（dry-run），在开发测试阶段，工具只打印将要执行的操作而不实际执行，这能极大提升开发安全性。

3.2 记忆（Memory）系统的实现策略

记忆系统让智能体有了“上下文”的概念。hh-openclaw-agent的记忆系统很可能采用分层设计。

1. 短期记忆（会话记忆）：这通常是一个简单的列表或缓冲区，保存当前对话轮次中的消息（用户输入、智能体回复、工具调用及结果）。当上下文长度超过LLM的限制时，需要采用某种摘要或压缩策略，将早期的、不重要的信息压缩，保留关键信息。常见的策略有：

滑动窗口：只保留最近N条消息。
摘要压缩：当对话轮次较多时，调用LLM对之前的对话历史生成一个简短的摘要，然后用摘要替代原始的长历史。
关键信息提取：自动识别并提取对话中的实体（如人名、地点、任务目标）、承诺、待办事项等，将其结构化存储。

2. 长期记忆（向量记忆/知识库）：这是智能体“学习”和“积累经验”的地方。它通常基于向量数据库实现。

写操作：智能体在运行过程中产生的有价值信息（如工具执行的重要结果、用户提供的关键资料、智能体自己总结的知识点），可以被转换成文本，再通过嵌入模型（Embedding Model）转化为向量，存入向量数据库。
读操作（检索）：当智能体需要相关信息时，将当前的问题或上下文也转化为向量，在向量数据库中进行相似性搜索，召回最相关的几条“记忆”，并将其作为上下文提供给LLM。

3. 状态记忆（任务记忆）：对于需要多步执行的长任务，智能体需要记住自己做到哪一步了，各个步骤的结果是什么。这通常通过一个持久化的TaskState对象来实现。这个对象会随着工作流的执行而更新，即使智能体进程重启，也能从上次中断的地方继续。

注意事项：

记忆的关联性：存入长期记忆时，一定要打好“标签”或“元数据”，比如关联的用户ID、会话ID、任务ID、创建时间等。这样在检索时才能精准地找到属于当前上下文的相关记忆，避免把用户A的记忆混入用户B的对话中。
记忆的更新与清理：记忆不是只增不减的。需要考虑记忆的更新（新信息覆盖旧信息）和清理（过时、错误信息的淘汰）策略，否则记忆库会变得臃肿且低效。
成本与性能：每次调用向量数据库都有延迟和成本。需要精心设计检索策略，比如设置相似度阈值，避免召回不相关的记忆；或者对高频使用的记忆进行缓存。

3.3 规划（Planning）与推理（Reasoning）引擎

这是智能体的“思考”过程，也是体现其智能水平的核心。hh-openclaw-agent可能提供了多种规划策略供选择。

1. ReAct（Reason + Act）模式：这是目前最主流、最基础的范式。智能体的每次“思考-行动”循环包含三步：

Thought（思考）：分析当前状况，决定下一步做什么。
Action（行动）：调用一个工具，并传入参数。
Observation（观察）：获取工具执行的结果。这个循环会一直持续，直到智能体认为任务完成，最终输出一个Final Answer。框架需要提供标准的提示词模板来引导LLM遵循这个格式输出。

2. 计划-执行模式（Plan-and-Execute）：对于复杂任务，先让LLM制定一个完整的、分步骤的计划（Plan），然后再按部就班地执行。这比ReAct的零散思考更有全局观。框架需要提供一种结构来表述这个计划（比如一个任务列表），并跟踪每个任务的完成状态。

3. 基于工作流的规划：这是更高级的模式。开发者可以预定义一些常见的工作流模板（比如“数据分析流程”、“客服处理流程”）。当用户提出请求时，智能体首先进行“工作流识别”，选择一个最匹配的模板，然后将用户的具体需求填充到该模板的变量中，生成一个具体的、可执行的任务图。这种模式结合了预设结构的可靠性和LLM的灵活性。

实操要点：

提示词工程是关键：规划的质量极度依赖你给LLM的提示词（Prompt）。你需要清晰地定义任务目标、可用工具、输出格式要求。在hh-openclaw-agent中，这些提示词模板应该是可配置甚至可编程的。
处理规划失败：LLM生成的计划可能是不可行的（比如调用了不存在的工具，或参数不合理）。框架必须能检测到这种失败，并有一个“回退”机制，比如让LLM重新规划，或者转由更简单的线性ReAct模式执行。
混合规划：在实际应用中，往往采用混合策略。先用“计划-执行”模式制定大纲，然后在每个子步骤中使用ReAct模式进行微调和执行。框架应该允许这种嵌套和组合。

4. 从零开始构建一个智能体：完整实操流程

理论说了这么多，我们动手用hh-openclaw-agent（或其设计理念）来构建一个实用的智能体。假设我们要做一个“智能技术文档查询助手”，它能够理解用户关于某个技术项目（比如它自己）的问题，从文档库中查找信息，并给出准确的回答。

4.1 环境准备与项目初始化

首先，我们需要一个干净的Python环境。强烈建议使用虚拟环境。

# 创建并激活虚拟环境 python -m venv openclaw-env source openclaw-env/bin/activate # Linux/macOS # 或 openclaw-env\Scripts\activate # Windows # 安装框架核心库（假设它已发布到PyPI） pip install hh-openclaw-agent # 安装可能需要的依赖，如OpenAI SDK、向量数据库客户端 pip install openai chromadb requests

接下来，初始化一个项目目录。一个良好的结构有助于管理复杂度。

my_tech_doc_agent/ ├── config.yaml # 配置文件（API密钥、模型设置等） ├── main.py # 主程序入口 ├── tools/ # 自定义工具目录 │ ├── __init__.py │ └── doc_search_tool.py ├── workflows/ # 工作流定义目录（可选） │ └── doc_qa_workflow.py └── knowledge_base/ # 存放文档源文件和向量数据库 ├── raw_docs/ └── chroma_db/

在config.yaml中，存放敏感信息和可调参数：

openai: api_key: ${OPENAI_API_KEY} # 建议从环境变量读取 model: gpt-4-turbo-preview embedding: model: text-embedding-3-small # OpenAI的嵌入模型 vector_db: type: chroma persist_directory: ./knowledge_base/chroma_db agent: max_iterations: 10 # ReAct循环最大次数，防止死循环

4.2 构建知识库与文档检索工具

智能体需要知识来源。我们先将项目文档（比如Markdown文件）处理并存入向量数据库。

步骤1：文档加载与分割文档通常很长，需要分割成较小的“块”（chunks）以便检索。分割时要注意保持语义的完整性（比如按段落或章节分割）。

# 这是一个简化的文档处理脚本 prepare_kb.py from langchain_community.document_loaders import DirectoryLoader, TextLoader from langchain_text_splitters import RecursiveCharacterTextSplitter import chromadb from chromadb.config import Settings from openai import OpenAI import os # 1. 加载文档 loader = DirectoryLoader('./knowledge_base/raw_docs', glob="**/*.md", loader_cls=TextLoader) documents = loader.load() # 2. 分割文档 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) docs = text_splitter.split_documents(documents) # 3. 初始化向量数据库客户端 chroma_client = chromadb.PersistentClient(path="./knowledge_base/chroma_db") collection = chroma_client.get_or_create_collection(name="tech_docs") # 4. 使用嵌入模型生成向量并存入数据库 openai_client = OpenAI(api_key=os.getenv("OPENAI_API_KEY")) for i, doc in enumerate(docs): # 生成嵌入向量 response = openai_client.embeddings.create( model="text-embedding-3-small", input=doc.page_content ) embedding = response.data[0].embedding # 存入ChromaDB collection.add( embeddings=[embedding], documents=[doc.page_content], metadatas=[doc.metadata], # 可以存入来源文件、页码等元数据 ids=[f"doc_{i}"] ) print("知识库构建完成！")

步骤2：创建文档检索工具现在，我们需要创建一个工具，让智能体能够查询这个知识库。

# tools/doc_search_tool.py from hh_openclaw_agent.tools import tool from openai import OpenAI import chromadb import os @tool(name="search_tech_docs", description="从技术文档知识库中检索与问题相关的信息。输入是一个查询字符串。返回最相关的几条文档片段。") def search_tech_docs(query: str) -> str: """ 根据用户查询，从向量数据库中检索相关文档。 """ # 初始化客户端 chroma_client = chromadb.PersistentClient(path="./knowledge_base/chroma_db") collection = chroma_client.get_collection(name="tech_docs") openai_client = OpenAI(api_key=os.getenv("OPENAI_API_KEY")) # 将查询语句也转化为向量 response = openai_client.embeddings.create( model="text-embedding-3-small", input=query ) query_embedding = response.data[0].embedding # 在向量数据库中搜索 results = collection.query( query_embeddings=[query_embedding], n_results=3 # 返回最相关的3条 ) if results and results['documents']: # 将检索结果拼接成一段文本 retrieved_text = "\n\n---\n\n".join(results['documents'][0]) return f"根据你的问题，我从文档中找到以下相关信息：\n\n{retrieved_text}" else: return "在现有文档中未找到相关信息。"

这个工具现在可以被智能体调用了。当用户问“这个框架如何定义工具？”时，智能体会调用search_tech_docs("如何定义工具")，工具会返回相关的文档片段。

4.3 配置与组装智能体

有了核心工具，我们开始组装智能体。在main.py中：

# main.py import asyncio from hh_openclaw_agent import Agent, AgentConfig from hh_openclaw_agent.llm import OpenAIChatModel from hh_openclaw_agent.memory import ConversationBufferMemory from tools.doc_search_tool import search_tech_docs import yaml import os # 加载配置 with open('config.yaml', 'r') as f: config = yaml.safe_load(f) async def main(): # 1. 初始化LLM llm = OpenAIChatModel( model=config['openai']['model'], api_key=os.getenv("OPENAI_API_KEY"), temperature=0.1 # 低温度，让回答更确定、更少创造性 ) # 2. 初始化记忆系统（这里用简单的对话缓冲记忆） memory = ConversationBufferMemory(max_tokens_limit=2000) # 3. 准备工具列表 tools = [search_tech_docs] # 可以继续添加其他工具，如计算器、网络搜索等 # 4. 创建智能体配置 agent_config = AgentConfig( name="TechDocHelper", llm=llm, memory=memory, tools=tools, max_iterations=config['agent']['max_iterations'], system_message="你是一个专业的技术文档助手。你的主要职责是使用`search_tech_docs`工具，从知识库中查找信息来回答用户关于技术框架的问题。如果工具返回的信息不足以回答问题，请如实告知用户。回答要准确、简洁、基于事实。" ) # 5. 实例化智能体 agent = Agent(config=agent_config) # 6. 运行一个示例对话 print("智能体已启动。输入'退出'或'quit'结束对话。") while True: try: user_input = input("\n用户: ") if user_input.lower() in ['退出', 'quit', 'exit']: print("对话结束。") break # 运行智能体 response = await agent.run(task=user_input) print(f"\n助手: {response}") except KeyboardInterrupt: break except Exception as e: print(f"\n发生错误: {e}") if __name__ == "__main__": asyncio.run(main())

这个简单的脚本创建了一个具备对话记忆、并能调用文档检索工具的智能体。系统提示词（system_message）至关重要，它设定了智能体的角色和行为准则，引导它优先使用我们提供的工具。

4.4 运行、测试与迭代优化

运行python main.py，你就可以开始和你的智能体对话了。测试时，要覆盖多种情况：

简单查询：“hh-openclaw-agent是做什么的？”（应触发工具调用并返回答案）
多轮对话：先问“怎么安装？”，接着问“安装后需要配置什么？”（测试记忆是否有效）
工具边界测试：问一个知识库之外的问题，比如“今天的天气怎么样？”（智能体应回答它无法处理，或告知能力范围）
复杂/组合问题：“请比较这个框架和LangChain在工具调用上的区别。”（考验智能体能否通过多次检索和组合信息来回答）

在测试过程中，你可能会发现一些问题：

检索不准：返回的文档片段不相关。可能需要调整文档分割的块大小（chunk_size）和重叠量（chunk_overlap），或者优化嵌入模型。
智能体不调用工具：LLM可能倾向于直接用自己的知识回答，而不是调用工具。需要强化系统提示词，比如明确说“你必须使用search_tech_docs工具来获取信息”，或者在提示词中加入一些工具调用的示例（Few-shot Learning）。
回答冗长或格式不佳：调整LLM的温度（temperature）参数，或在系统提示词中要求“回答简洁，使用列表或要点”。

优化是一个持续的过程。你可以通过查看智能体完整的“思考过程”日志（通常框架会提供这个功能）来诊断问题所在，是规划不对、工具选择错误，还是参数生成有问题。

5. 常见问题、排查技巧与进阶优化

在实际开发和部署中，你会遇到各种各样的问题。下面是一些典型问题及其解决思路，以及让智能体变得更强大的进阶方向。

5.1 典型问题排查清单

问题现象	可能原因	排查步骤与解决方案
智能体陷入死循环，不断重复调用同一个工具。	1.`max_iterations`设置过高或未生效。 2. LLM无法从工具返回的结果中解析出有效信息，导致它认为任务未完成。 3. 工具返回的结果格式混乱，LLM无法理解。	1. 检查并调低`max_iterations`（如设为5-10）。 2. 在系统提示词中明确告诉LLM如何判断任务完成（例如：“如果你找到了明确的答案，就直接输出最终答案。”）。 3. 优化工具返回的文本格式，使其清晰、结构化。
LLM拒绝调用工具，总是试图自己回答问题。	1. 系统提示词不够强硬，未强制要求使用工具。 2. 工具描述不够清晰，LLM不知道何时该用它。 3. LLM自身知识足够回答该问题（对于已知知识）。	1. 强化提示词，例如：“你必须使用提供的工具来获取信息，严禁仅凭自身知识猜测。” 2. 优化工具描述，明确其适用场景和输入输出。 3. 这有时是期望行为。如果必须用工具，可在提示词中强调“即使你知道，也请用工具验证”。
工具调用参数错误，例如类型不对或缺少参数。	1. 工具的`args_schema`定义不清晰或与函数签名不匹配。 2. LLM未能正确理解用户意图并映射到参数。	1. 检查并修正工具的参数模式定义，确保类型注解准确。 2. 在提示词中为LLM提供工具调用的示例（Few-shot）。 3. 在工具函数内部增加更健壮的类型转换和验证。
检索工具返回的结果不相关。	1. 文档分割策略不佳，破坏了语义。 2. 嵌入模型不适合该领域文本。 3. 查询语句本身表述模糊。	1. 尝试不同的分割器（如按标题分割`MarkdownHeaderTextSplitter`）。 2. 尝试不同的嵌入模型（如`text-embedding-3-large`或开源模型）。 3. 实现“查询重写”：让LLM先将用户问题改写成更利于检索的多个关键词或陈述句，再用其检索。
多轮对话中，智能体忘记之前的上下文。	1. 记忆缓冲区已满，旧消息被丢弃。 2. 记忆摘要功能未开启或效果不好。	1. 增加`max_tokens_limit`，或使用更高效的内存结构。 2. 启用或优化记忆摘要功能。可以考虑在每轮对话后，自动用LLM生成一个当前对话的简短摘要，替换掉原始的长历史。
智能体响应速度慢。	1. LLM API调用延迟高。 2. 工具本身执行慢（如网络请求）。 3. 向量检索耗时。	1. 考虑使用更快的模型（如GPT-3.5-Turbo），或对回答进行流式输出以提升感知速度。 2. 为工具设置合理的超时，并考虑异步调用。 3. 优化向量索引，或使用更快的向量数据库；对常见查询结果进行缓存。

5.2 性能与成本优化实战

当智能体从Demo走向生产，性能和成本就成为关键考量。

1. 减少LLM调用次数与Token消耗：

缓存：对频繁出现的、结果固定的用户查询（如“你是谁？”）和工具调用结果进行缓存。
思维压缩：在ReAct循环中，不是每次都把完整的“Thought-Action-Observation”历史喂给LLM。可以只保留最近几轮和关键的观察结果，或者用LLM对之前的步骤进行摘要。
选择性记忆：不是所有对话和工具结果都需要存入长期记忆或留在短期上下文里。设计规则过滤掉无关紧要的信息。
模型分级：对不同的任务使用不同成本的模型。例如，用便宜快速的模型（如GPT-3.5-Turbo）进行意图识别和简单响应，用强大但昂贵的模型（如GPT-4）进行复杂规划和关键答案生成。

2. 提升工具调用效率：