当前位置：首页 > news >正文

Cheshire Cat AI：基于微服务与插件化的AI智能体框架实战指南

news 2026/5/13 9:15:21

1. 项目概述：一个为AI智能体而生的微服务框架

如果你正在寻找一个能够快速构建、高度定制且易于集成的AI智能体框架，那么Cheshire Cat AI（柴郡猫）绝对值得你花时间深入了解。我最初接触它，是因为厌倦了在现有聊天机器人框架上“打补丁”的繁琐——要么扩展性太差，加个新功能就得大动干戈；要么API设计得过于复杂，想把它作为后端服务嵌入到自己的应用里，比从头写一个还费劲。Cheshire Cat AI的出现，恰好解决了这些痛点。它的核心定位非常清晰：一个API优先、以微服务形式交付的AI智能体框架。这意味着你可以把它看作一个功能完备的“AI大脑”服务，通过标准的WebSocket和REST API与你的前端应用、移动App或其他任何系统对话，轻松为你的产品注入智能对话和决策能力。

这个框架的名字来源于《爱丽丝梦游仙境》里那只神出鬼没、总是带着神秘微笑的柴郡猫，寓意着AI智能体可以像这只猫一样，灵活地出现、消失，并留下有价值的“微笑”（即智能响应）。它的设计哲学是“开箱即用，深度可定制”。你不需要从零开始搭建RAG（检索增强生成）系统、处理复杂的对话状态管理，或是自己实现工具调用（Function Calling）。这些构建现代AI应用所必需的核心组件，它都已经为你准备好了，并且以一种高度模块化的方式呈现，允许你通过插件机制进行任意改造。

从技术栈来看，它基于Python构建，100%容器化（Docker），内置了Qdrant作为向量数据库来处理文档的嵌入和检索，并通过LangChain兼容几乎任何主流的大语言模型（LLM），无论是OpenAI的GPT系列、Anthropic的Claude，还是开源的Llama、Mistral等。更重要的是，它原生支持多用户和细粒度的权限控制，可以轻松与你现有的身份认证系统（如Keycloak、Auth0等）集成，这使得它不仅仅是一个玩具，而是能直接用于生产级的企业应用。

2. 核心架构与设计哲学解析

2.1 为什么是“微服务”架构？

在深入代码之前，理解Cheshire Cat AI选择微服务架构的初衷至关重要。这直接决定了它的使用场景和优势。传统的AI应用开发，尤其是聊天机器人，常常与特定的前端（如某个Web页面或Messenger平台）强耦合。业务逻辑、对话管理、模型调用全部糅合在一起，导致系统难以维护、扩展性差，更无法作为一项通用能力提供给其他服务调用。

Cheshire Cat AI彻底打破了这种模式。它将智能体的核心能力——包括对话理解、记忆管理、工具执行、知识检索——全部封装成一个独立的、可通过网络访问的服务。这样做带来了几个显而易见的好处：

技术栈解耦：你的前端可以用React、Vue、Flutter，甚至是一个命令行工具，只要它能发送HTTP请求或建立WebSocket连接，就能与后端的“猫”对话。后端服务的迭代升级不会影响前端。
资源隔离与弹性伸缩：AI模型推理，尤其是大语言模型，是计算和内存密集型任务。将其作为独立服务部署，你可以根据负载单独对这个服务进行扩缩容，而不必动整个应用。
易于集成：任何需要AI能力的内部系统（如CRM、客服平台、知识库）都可以通过调用Cheshire Cat AI的API来获得智能对话功能，实现了AI能力的“服务化”。
统一的管控界面：它自带了一个功能丰富的管理面板（Admin Panel），你可以在这里统一管理所有智能体的配置、插件、对话历史、上传的知识文档等，运维非常方便。

这种设计使得Cheshire Cat AI非常适合作为企业级AI中台的一个核心组件，或者作为快速验证AI产品想法的后端基石。

2.2 核心组件拆解：猫的“五脏六腑”

要驾驭这只“猫”，你需要了解它的几个核心子系统是如何协同工作的。下图展示了其核心数据流与组件交互：

flowchart TD A[用户请求<br>WebSocket/REST API] --> B[请求入口<br>HTTP/WebSocket 服务器] B --> C{请求类型判断} C -->|普通对话| D[对话处理引擎] C -->|工具调用| E[工具执行器] C -->|表单交互| F[表单处理器] C -->|管理操作| G[管理API] D --> H[上下文组装] H --> I[大语言模型<br>LLM] I --> J[响应生成] E --> K[插件系统<br>Mad Hatter] K --> L[自定义工具] E --> M[内置工具] F --> N[表单定义] N --> O[结构化数据收集] subgraph P [记忆与知识库] Q[工作记忆<br>对话历史] R[长期记忆<br>向量存储 Qdrant] S[文档记忆<br>上传文件] end H --> P P --> H J --> B L --> E M --> E O --> F B --> T[返回响应]

对话引擎与工作流：这是智能体的“大脑”。当用户发送一条消息时，引擎会执行一系列标准化步骤：首先，从向量数据库和对话历史中检索相关上下文（记忆）；然后，将这些上下文与用户当前问题组合成完整的提示词（Prompt）；接着，调用配置好的大语言模型生成回复；最后，解析回复中可能包含的工具调用指令，并执行相应的工具。整个过程是高度可配置的，你可以通过“钩子”（Hooks）在任何一个步骤介入，修改其行为。

记忆系统：这是智能体显得“有智商”的关键。Cheshire Cat AI采用了分层记忆设计：

工作记忆：存储当前会话的短期对话历史，确保AI能理解上下文连贯性。
长期记忆：这是其内置RAG能力的核心。所有你上传的文档（TXT、PDF、Markdown等）都会被切分、编码成向量，并存储到Qdrant中。当用户提问时，系统会自动从这些文档中检索最相关的片段，作为生成回答的依据。这相当于给了AI一个可随时查阅的、海量的外部知识库。
文档记忆：指用户上传的原始文件本身，方便管理和回溯。

插件系统（Mad Hatter）：这是框架灵活性的灵魂。Mad Hatter允许开发者通过编写Python插件来扩展智能体的几乎所有方面。你可以：

添加新工具：让AI学会调用新的API或执行新的计算任务。
拦截并修改流程：通过“钩子”在对话生成前、后，或工具调用时插入自定义逻辑。
创建对话式表单：引导用户通过多轮对话完成结构化信息的收集（如下订单、填问卷）。
定制提示词模板：彻底改变AI的角色设定和回答风格。

插件以独立的文件夹形式存在，热加载，无需重启服务，极大地提升了开发效率。

工具调用：框架原生支持类似OpenAI Function Calling的机制。你可以将任何Python函数注册为“工具”，并为其提供自然语言描述。AI在对话中会自主判断是否需要调用某个工具，并自动提取函数所需的参数。工具执行的结果会被反馈给AI，由AI组织成最终的自然语言回复给用户。这是实现AI与真实世界（数据库、API、系统命令）交互的核心手段。

3. 从零开始部署与核心配置实战

3.1 极速部署：五分钟让猫跑起来

最快体验Cheshire Cat AI的方式就是使用Docker。确保你的机器上已经安装了Docker和Docker Compose。

单命令体验（适合快速测试）：

docker run --rm -it -p 1865:80 ghcr.io/cheshire-cat-ai/core:latest

执行这条命令后，Docker会从GitHub容器仓库拉取最新的镜像并运行。-p 1865:80将容器内的80端口映射到你本机的1865端口。--rm参数意味着容器停止后会自动删除，所有数据都会丢失，所以这只适用于临时试用。

访问http://localhost:1865/admin，你就会看到Cheshire Cat AI的管理后台。第一次进入时，需要你进行一些初始配置，最重要的是设置一个管理员密码以及配置大语言模型。

生产级部署（使用Docker Compose）：对于正式使用，强烈推荐使用Docker Compose，因为它能更好地管理服务依赖和数据持久化。官方推荐了一个docker-compose.yml模板：

version: '3.8' services: cheshire-cat-core: image: ghcr.io/cheshire-cat-ai/core:latest ports: - "1865:80" environment: - CORE_HOST=0.0.0.0 - CORE_PORT=80 # 设置你的Qdrant数据库地址，如果使用下面独立的qdrant服务，就用这个 - QDRANT_HOST=cheshire-cat-qdrant - QDRANT_PORT=6333 # 设置LLM，例如使用OpenAI - LLM_MODEL=gpt-4 - OPENAI_API_KEY=your_openai_api_key_here # 启用管理后台并设置密码 - ADMIN_PASSWORD=your_secure_admin_password volumes: # 持久化数据卷，确保插件、上传文件、配置等数据不丢失 - cat-data:/app/cat/data - cat-logs:/app/cat/logs depends_on: - cheshire-cat-qdrant cheshire-cat-qdrant: image: qdrant/qdrant:latest ports: - "6333:6333" volumes: - qdrant-data:/qdrant/storage command: /bin/bash -c "./qdrant --uri http://0.0.0.0:6333" volumes: cat-data: cat-logs: qdrant-data:

创建一个docker-compose.yml文件，将上述内容粘贴进去，并替换OPENAI_API_KEY和ADMIN_PASSWORD为你的实际值。然后运行：

docker-compose up -d

这样，Cheshire Cat AI核心服务和Qdrant向量数据库就会在后台运行，并且所有数据都会保存在本地的Docker卷中，即使容器重启也不会丢失。

注意：环境变量ADMIN_PASSWORD是访问管理后台的密码，务必设置一个强密码。首次设置后，密码会被哈希存储。如果你后续想修改密码，需要在管理后台的“设置”中操作，而不是直接修改环境变量。

3.2 核心配置详解：让猫听懂你的话

部署完成后，首次登录管理后台 (http://localhost:1865/admin)，你需要完成几个关键配置，智能体才能正常工作。

1. 大语言模型配置这是智能体的“智力”来源。在“设置” -> “大语言模型”页面，你可以配置LLM。

提供商：支持OpenAI、Azure OpenAI、Ollama（本地模型）、Anthropic等。通过LangChain集成，理论上可以接入任何兼容的模型。
API密钥：填写对应提供商的有效API密钥。
模型名称：选择具体的模型，如gpt-4-turbo-preview,claude-3-opus-20240229,llama2(如果使用Ollama)等。
温度：控制生成文本的随机性。值越高（如0.8），回答越创造性、多样化；值越低（如0.1），回答越确定、保守。对于需要准确性的任务（如基于文档的问答），建议设置在0.1-0.3之间。

2. 嵌入模型配置这是RAG功能的核心，负责将文本转换为向量。在“设置” -> “嵌入模型”页面配置。

通常，如果你使用OpenAI的LLM，对应的嵌入模型选择text-embedding-3-small或text-embedding-3-large即可，性价比和效果都不错。
如果你在本地运行，可以使用all-MiniLM-L6-v2这类开源模型，通过Ollama或HuggingFace集成。
关键点：嵌入模型的选择会影响检索质量。通常建议LLM和嵌入模型来自同一技术体系（如都用OpenAI的），或者在语义空间上对齐，这样检索到的片段对LLM生成答案更友好。

3. 向量数据库连接如果你按照上述Docker Compose配置，Qdrant服务已经在内网联通，地址为cheshire-cat-qdrant:6333，框架会自动连接。如果你使用外部Qdrant实例或云服务，需要在此处填写正确的Host、Port和API Key。

4. 通用设置

语言：设置智能体的主要响应语言。
个性化：可以在这里设置AI的默认名称、角色和欢迎语。不过，更强大的角色定制是通过插件和提示词钩子实现的。

完成这些配置后，你的“柴郡猫”就已经具备了基本的对话和知识库问答能力。你可以尝试在聊天界面直接提问，或者先上传一些文档到“记忆” -> “文档记忆”中，再提问相关的问题，体验RAG的效果。

4. 插件开发深度实战：打造专属智能体

Cheshire Cat AI最大的魅力在于其插件系统。通过插件，你可以将这只通用的“猫”训练成专属于你业务场景的专家。下面我将通过一个完整的例子，带你开发一个“天气查询助手”插件。

4.1 插件结构与生命周期

一个插件本质上是一个符合特定结构的Python包。在cat/data/plugins/目录下（Docker部署中对应你挂载的cat-data卷里的plugins文件夹），创建一个新的文件夹，例如weather_assistant。其基本结构如下：

weather_assistant/ ├── plugin.json # 插件元数据 ├── requirements.txt # Python依赖 ├── main.py # 插件主逻辑（包含钩子、工具、表单的定义） └── .env # 可选，用于存储API密钥等敏感信息

plugin.json是这个插件的“身份证”：

{ "name": "Weather Assistant", "version": "1.0.0", "description": "A plugin that allows the Cheshire Cat to fetch current weather information.", "author_name": "Your Name", "author_url": "https://your-website.com", "plugin_url": "https://github.com/your-repo/weather-assistant", "tags": "weather, api, tools", "thumb": "https://via.placeholder.com/150", "version": "1.0.0" }

requirements.txt列出了插件需要的额外Python库，例如我们可能需要requests来调用天气API：

requests>=2.28.0

框架在启动时会扫描plugins目录，加载所有有效的插件。插件中的钩子（Hooks）会自动注册到对应的事件上，工具（Tools）和表单（Forms）也会被自动发现和加载。

4.2 实现核心功能：工具与钩子

我们的目标是让AI能回答“北京天气怎么样？”这类问题。这需要两个步骤：1) 让AI知道有“查询天气”这个能力；2) 实现这个能力。

第一步：创建天气查询工具在main.py中，我们首先实现一个工具函数。这个函数会调用一个公开的天气API（例如 Open-Meteo）来获取数据。

import requests from cat.mad_hatter.decorators import tool from pydantic import BaseModel, Field # 首先，定义一个工具输入参数的模型，这有助于AI更准确地提取参数 class WeatherQueryInput(BaseModel): location: str = Field(description="The city name for weather query, e.g., 'Beijing', 'London'.") days: int = Field(default=1, description="Number of days for forecast. Default is 1 (today).") # 使用 @tool 装饰器注册这个函数为一个工具 # return_direct=True 表示工具执行的结果将直接作为AI的回复，不再经过LLM加工（适合结果已经很清晰的情况） @tool(return_direct=True, args_schema=WeatherQueryInput) def get_weather(location: str, days: int = 1, cat=None): """ Get the current weather or forecast for a specific location. Use this when the user asks about weather conditions. """ # 这里使用Open-Meteo的免费API，无需密钥 base_url = "https://api.open-meteo.com/v1/forecast" # 简化的地理编码：在实际项目中，你可能需要更精确的地理编码服务 # 这里我们假设location就是城市名，API能处理 params = { "latitude": 52.52, # 示例坐标（柏林），实际应根据location动态获取 "longitude": 13.41, "current_weather": True, "forecast_days": days, "timezone": "auto" } # 注意：上述坐标是固定的，仅作演示。 # 真实实现需要调用地理编码API将城市名转换为经纬度。 # 例如：先用一个地理编码API获取坐标，再用这个坐标查询天气。 try: response = requests.get(base_url, params=params, timeout=10) response.raise_for_status() # 检查HTTP错误 data = response.json() current = data.get("current_weather", {}) temperature = current.get("temperature") windspeed = current.get("windspeed") weathercode = current.get("weathercode") # 将天气代码转换为可读描述（简化版） weather_desc = _decode_weather_code(weathercode) return f"The current weather in {location} (demo coordinates) is {weather_desc.lower()}. Temperature is {temperature}°C with wind speed of {windspeed} km/h." except requests.exceptions.RequestException as e: # 记录错误并返回用户友好的信息 cat.log.error(f"Weather API error: {e}") return f"Sorry, I couldn't fetch the weather for {location} at the moment. Please try again later." def _decode_weather_code(code: int) -> str: """简单映射天气代码到描述""" weather_map = { 0: "Clear sky", 1: "Mainly clear", 2: "Partly cloudy", 3: "Overcast", 45: "Foggy", 48: "Depositing rime fog", 51: "Light drizzle", # ... 可以补充更多映射 } return weather_map.get(code, "Unknown conditions")

第二步：通过钩子定制AI行为现在AI有了查询天气的工具，但它的回答可能还是太通用。我们可以用一个钩子来微调它的角色设定，让它更像个天气专家。

from cat.mad_hatter.decorators import hook @hook def agent_prompt_prefix(prefix: str, cat) -> str: """ 修改AI的提示词前缀，为其注入特定的角色和指令。 这个钩子在每次组装发送给LLM的最终提示词前被调用。 """ original_prefix = prefix # 在原有前缀基础上，追加我们的指令 custom_instruction = """ You are a friendly and concise weather assistant. Your primary function is to help users get weather information. When a user asks about the weather, you should automatically use the `get_weather` tool to fetch accurate data. Keep your responses focused on the weather data. If the location is ambiguous, ask for clarification (e.g., 'Beijing, China or Beijing, Indiana?'). """ return original_prefix + "\n" + custom_instruction

第三步：测试插件

将完整的weather_assistant文件夹放入cat/data/plugins/。
重启Cheshire Cat AI服务（如果插件是热加载支持的，可能无需重启，但首次加载建议重启）。
进入管理后台的“插件”页面，你应该能看到“Weather Assistant”插件处于“已安装”状态。
转到聊天界面，尝试提问：“What‘s the weather like in Berlin today?”。观察AI的回复，它应该会调用get_weather工具并返回天气信息。

实操心得：工具函数的描述（"""Get the current weather..."""）非常重要！LLM正是通过这段描述来理解何时该调用这个工具。描述要清晰、具体，说明工具的用途和输入参数的意义。args_schema的使用能极大提升参数提取的准确性，强烈推荐。

4.3 高级功能：对话式表单

除了工具，插件系统还支持“对话式表单”。这适用于需要引导用户完成多步信息收集的场景，比如订餐、预约、用户反馈等。下面我们实现一个简单的“城市天气订阅”表单。

from pydantic import BaseModel, Field, validator from cat.experimental.form import form, CatForm from datetime import time import json # 1. 定义要收集的数据结构 class WeatherSubscription(BaseModel): city_name: str = Field(description="The full name of the city to subscribe to.") notification_time: str = Field(description="Preferred time for daily weather notification (HH:MM format in 24h).") days_ahead: int = Field(default=3, description="How many days of forecast to receive (1-7).", ge=1, le=7) # 使用Pydantic验证器确保时间格式正确 @validator('notification_time') def validate_time_format(cls, v): try: time.fromisoformat(v) # 简单验证，实际可能需要更复杂的解析 except ValueError: raise ValueError('Time must be in HH:MM format (24h), e.g., "08:30" or "18:00".') return v # 2. 创建表单类 @form class SubscriptionForm(CatForm): # 表单基础信息 name = "Weather Subscription" description = "Subscribe to daily weather updates for a city." model_class = WeatherSubscription # 关联的数据模型 # 触发词：用户说这些句子时，表单开始 start_examples = [ "I want to subscribe to weather updates.", "Set up a daily weather report for me.", "Can you notify me about the weather?", ] # 停止词：用户说这些句子时，取消或退出表单 stop_examples = [ "Never mind, cancel the subscription.", "Stop, I don't want to subscribe anymore.", "Exit the weather subscription form.", ] # 是否在提交前要求用户确认 ask_confirm = True # 提交表单后的处理逻辑 def submit(self, form_data: WeatherSubscription): # 这里应该是实际的业务逻辑：将订阅信息存入数据库、调用通知服务等。 # 本例中我们只是模拟保存。 subscription_info = { "city": form_data.city_name, "time": form_data.notification_time, "forecast_days": form_data.days_ahead } # 假设我们有一个简单的文件来存储订阅（生产环境请用数据库） try: with open("/app/cat/data/weather_subscriptions.json", "a") as f: f.write(json.dumps(subscription_info) + "\n") except Exception as e: self.cat.log.error(f"Failed to save subscription: {e}") return { "output": "Sorry, I couldn't save your subscription due to a technical issue. Please try again later." } # 返回给用户的成功消息 return { "output": f"Perfect! You are now subscribed to daily weather updates for {form_data.city_name}. " f"You'll receive a {form_data.days_ahead}-day forecast every day at {form_data.notification_time}. " f"You can say 'cancel my subscription' anytime to stop." }

当用户触发表单后，AI会进入一个引导式对话，依次询问WeatherSubscription模型中定义的每个字段（city_name,notification_time,days_ahead）。它会根据字段的描述和验证规则来引导用户输入有效信息。在收集完所有信息并确认后，调用submit方法执行实际业务逻辑。

5. 生产环境部署、监控与故障排查

5.1 安全与性能配置

将Cheshire Cat AI用于生产环境，需要考虑以下几个关键方面：

1. 网络与安全

反向代理：永远不要将Cheshire Cat AI的端口（默认1865）直接暴露在公网。使用Nginx或Traefik作为反向代理，配置SSL/TLS（HTTPS），并设置适当的防火墙规则。
身份验证：管理后台 (/admin) 和API都需要保护。除了内置的ADMIN_PASSWORD，对于多用户场景或集成到现有系统，你需要配置外部身份提供商。框架支持通过环境变量设置JWT_SECRET和配置OAuth2，可以与Keycloak、Auth0等集成。
API密钥管理：LLM和嵌入模型的API密钥通过环境变量传入，切勿写入代码或配置文件。可以使用Docker Secrets或云服务商提供的密钥管理服务。

2. 资源与性能

向量数据库优化：Qdrant的性能对RAG体验至关重要。对于大量文档，需要考虑：
- 索引类型：Qdrant支持HNSW和全量扫描。HNSW适合高维向量快速近似搜索，是默认推荐。
- 向量维度：与你选择的嵌入模型维度匹配（如text-embedding-3-small是1536维）。错误配置会导致无法存储或检索。
- 持久化与备份：确保Qdrant的数据卷 (qdrant-data) 定期备份。可以考虑使用Qdrant Cloud等托管服务以获得更好的可用性。
LLM调用优化：
- 设置超时与重试：在LangChain的模型配置中，可以设置请求超时和失败重试策略，避免因网络波动或提供商暂时不可用导致整个请求卡住。
- 使用流式响应：对于长文本生成，启用WebSocket的流式响应可以极大提升用户体验，实现打字机效果。
内存管理：Docker容器默认内存限制可能不足。在docker-compose.yml中为cheshire-cat-core服务设置内存限制和交换空间。
```
services: cheshire-cat-core: # ... 其他配置 deploy: resources: limits: memory: 2G reservations: memory: 1G
```

5.2 监控与日志

清晰的日志是排查问题的生命线。Cheshire Cat AI的日志默认输出到标准输出，并被Docker收集。

查看日志：

# 查看所有服务的日志 docker-compose logs # 跟踪核心服务的实时日志 docker-compose logs -f cheshire-cat-core # 查看特定服务的错误日志 docker-compose logs cheshire-cat-core | grep -i error

日志级别：可以通过环境变量LOG_LEVEL控制日志详细程度，如DEBUG,INFO,WARNING,ERROR。生产环境建议设为INFO或WARNING，避免DEBUG产生过多日志。
关键日志位置：
- 插件加载错误：如果插件有语法错误或依赖缺失，会在启动日志中明确显示。
- LLM API调用失败：网络超时、认证失败、额度不足等问题都会记录在案。
- 工具执行异常：插件中工具函数抛出的异常会被捕获并记录。

5.3 常见问题与排查技巧

以下是我在部署和使用过程中遇到的一些典型问题及解决方法：

问题1：启动后管理页面无法访问，日志显示数据库连接错误。

现象：docker-compose up后，访问localhost:1865/admin报错或白屏，日志中有qdrant连接超时的错误。
排查：
1. 检查docker-compose ps确认cheshire-cat-qdrant服务状态是否为Up。
2. 检查docker-compose.yml中QDRANT_HOST环境变量是否正确指向了服务名cheshire-cat-qdrant（在Docker Compose网络中，可以使用服务名作为主机名）。
3. 进入核心服务容器内部手动测试连接：docker-compose exec cheshire-cat-core curl http://cheshire-cat-qdrant:6333。
解决：通常是Qdrant服务启动较慢，核心服务已经启动并尝试连接。可以修改核心服务的depends_on条件，或增加重启策略。
```
services: cheshire-cat-core: depends_on: cheshire-cat-qdrant: condition: service_healthy # 需要Qdrant定义healthcheck restart: on-failure
```

问题2：AI回答“我不知道”或回答不相关，但文档已上传。

现象：上传了PDF知识库，但提问时AI无法从文档中找到答案，而是基于其内部知识生成，或直接说不知道。
排查：
1. 检查文档处理状态：在管理后台“记忆”->“文档记忆”中，确认文件状态是否为“已处理”。如果状态是“待处理”或“错误”，说明文档解析或向量化失败。
2. 检查嵌入模型：确认嵌入模型配置正确且API可用。尝试在“设置”中测试嵌入模型连接。
3. 检查检索相关性：这可能是最复杂的问题。在“设置”->“对话设置”中，可以调整“相关文档数量”和“相似度阈值”。数量太少可能漏掉关键信息，阈值太高可能检索不到任何文档。可以尝试将数量从默认的3提高到5，阈值从0.7降低到0.5进行测试。
4. 检查文档质量：文档是否清晰、结构良好？过于扫描的图片PDF、复杂的表格可能解析效果差。尝试上传纯文本或Markdown文件测试。
解决：优化文档（转换为清晰文本），调整检索参数，或考虑使用更高质量的嵌入模型。

问题3：自定义工具不被AI调用。

现象：编写了工具插件，但AI在对话中似乎“忘记”了它，从不使用。
排查：
1. 检查工具描述：工具函数的文档字符串（"""..."""）是否清晰描述了工具的功能和适用场景？LLM依赖这个描述做决策。描述要具体，例如“查询某城市未来几天的天气预报”，而不是笼统的“获取天气信息”。
2. 检查参数模型：是否使用了args_schema？这能极大提升参数提取的准确性。确保Field中的description字段写清楚了每个参数的含义和示例。
3. 查看日志：在管理后台的设置中开启更详细的日志，或在聊天时观察后台日志，看AI在规划步骤时是否考虑了你的工具，以及参数提取是否失败。
4. 测试工具直接调用：在插件开发页面或通过API直接调用工具函数，确认其本身能正常工作并返回正确结果。
解决：重写工具描述使其更精准，使用args_schema明确参数，并确保工具函数逻辑健壮（良好的错误处理）。

问题4：插件修改后不生效。

现象：修改了main.py中的代码，但AI行为没有变化。
排查：
1. 确认插件已加载：管理后台“插件”页面，确认插件处于“已安装”状态，且版本号无误。
2. 检查热重载：Cheshire Cat AI支持部分插件热重载，但并非所有更改都能立即生效。特别是修改了plugin.json或新增了文件，可能需要重启服务。
3. 检查Python语法错误：一个简单的语法错误会导致整个插件加载失败。查看核心服务日志，过滤你的插件名，看是否有ImportError或SyntaxError。
4. 清除Python缓存：有时Python的__pycache__会导致旧代码被加载。可以进入容器，删除插件目录下的__pycache__文件夹。
```
docker-compose exec cheshire-cat-core rm -rf /app/cat/data/plugins/your_plugin_name/__pycache__
```
解决：最可靠的方法是重启Cheshire Cat AI核心服务：docker-compose restart cheshire-cat-core。

问题5：多用户会话混淆。

现象：多个用户同时聊天时，AI的回复似乎串台了，提到了其他用户的对话内容。
排查：
1. 确认用户隔离：Cheshire Cat AI的核心设计是支持多用户且会话隔离的。确保你的前端在调用API或建立WebSocket连接时，传递了正确的、唯一的用户ID。
2. 检查记忆隔离：工作记忆（对话历史）是基于用户ID隔离的。但长期记忆（上传的文档）默认是全局共享的。如果你需要完全隔离的用户知识库，这是一个高级配置，可能需要通过插件钩子来动态切换不同用户的向量集合（Collection）。
3. 检查WebSocket连接：如果使用WebSocket，确保每个前端会话都建立了独立的连接，并在连接初始化时发送了正确的用户身份信息。
解决：仔细阅读官方文档中关于多用户和身份验证的部分，确保客户端集成符合规范。对于需要严格知识隔离的场景，可以考虑为每个用户或租户部署独立的Cheshire Cat AI实例。

通过理解这些核心概念、掌握部署配置、深入插件开发并熟悉常见问题的排查方法，你应该能够 confidently 将Cheshire Cat AI集成到你的项目中，构建出强大、灵活且可控的AI智能体。这个框架的平衡之道在于，它既提供了足够强大的开箱即用功能，让你能快速启动，又通过精巧的插件系统给了你无限的定制空间，避免了被框架锁死的风险。

查看全文

http://www.jsqmd.com/news/807808/