当前位置：首页 > news >正文

基于本地大语言模型的AI助手中间件：ai-berkshire部署与集成指南

news 2026/6/30 2:46:14

最近在 GitHub 上，一个名为ai-berkshire的项目悄然走红。它没有炫酷的界面，也没有复杂的算法，但它的定位却非常精准：为 AI 应用开发者提供一个开箱即用的、基于本地大语言模型（LLM）的“智能副驾”。

如果你正在尝试将 LLM 集成到自己的桌面应用、工具链或自动化流程中，可能会遇到几个典型痛点：

依赖云端 API：调用 OpenAI、Claude 等接口，不仅产生费用，还涉及数据安全和网络延迟问题。
部署复杂：自己部署 Llama.cpp、Ollama 等框架，需要处理模型下载、环境配置、API 封装等一系列繁琐步骤。
功能单一：很多本地模型服务只提供基础的文本补全，缺乏像智能助手那样的对话管理、上下文记忆、工具调用等高级能力。

ai-berkshire项目正是瞄准了这些痛点。它本质上是一个轻量级的、可编程的本地 AI 助手后端。你可以把它理解为一个“本地化的、可深度定制的 ChatGPT 服务端”。它基于成熟的本地推理引擎（如 Llama.cpp），封装了对话、工具调用、记忆等上层应用逻辑，并通过标准的 HTTP API 或 SDK 暴露给前端或其他应用。

这篇文章将带你彻底拆解ai-berkshire。我们不仅会完成从零到一的部署和基础对话，更会深入其架构，探讨如何将其集成到你自己的项目中，实现诸如代码解释、文档分析、自动化脚本生成等实用功能。你会发现，拥有一个完全受控、可私有化部署的“AI 副驾”，其工程价值远超想象。

1. ai-berkshire 解决了什么问题？谁需要它？

在深入代码之前，我们必须先明确ai-berkshire的核心价值。它不是一个面向终端用户的聊天机器人 App，而是一个面向开发者的 AI 能力中间件。

1.1 核心价值：将本地 LLM 工程化

许多开发者体验过在命令行用ollama run llama2进行对话，但这离“集成到应用”还有很大距离。你需要考虑：

会话管理：如何保持多轮对话的上下文？
工具扩展：如何让模型调用本地函数（如查询数据库、执行命令）？
状态持久化：如何保存聊天历史？
并发与性能：如何服务多个客户端？
标准化接口：如何提供类似 OpenAI API 的格式，方便现有生态工具（如 LangChain）接入？

ai-berkshire打包解决了这些问题。它提供了一个开箱即用的服务，你只需要关心两件事：1) 提供模型文件；2) 定义你的业务逻辑（工具函数）。

1.2 典型应用场景

集成开发环境（IDE）插件开发：为你的 IDE 插件提供一个本地的代码补全、解释、重构建议引擎。
企业内部知识库助手：连接公司内部文档，构建一个安全、离线的智能问答系统。
自动化运维与脚本助手：让 AI 根据自然语言描述，自动执行或生成 Shell、Python 脚本。
桌面应用智能化：为任何桌面软件（如笔记软件、设计工具）添加 AI 对话能力，所有数据留在本地。
AI 应用原型快速验证：在依赖昂贵的云端 API 之前，先用本地模型快速验证产品创意和交互流程。

如果你属于以下角色，那么ai-berkshire值得你重点关注：

全栈/后端工程师：希望为产品添加 AI 功能，但顾虑数据隐私和成本。
工具链开发者：正在构建开发者工具，并想融入 AI 辅助能力。
技术负责人：评估团队内 AI 能力的私有化部署方案。
AI 应用爱好者：希望深入了解如何将 LLM 从“玩具”变成“工具”。

2. 核心架构与概念解析

ai-berkshire的架构清晰体现了其“中间件”的定位。理解这几个核心概念，是后续灵活使用它的关键。

2.1 架构总览

项目采用了典型的分层设计：

[你的应用/前端] | v [HTTP API / SDK] <--- ai-berkshire 暴露的接口层 | v [会话管理 & 工具调度] <--- ai-berkshire 核心逻辑层 | v [模型推理引擎适配层] <--- 封装 Llama.cpp, vLLM 等 | v [本地大语言模型文件] <--- GGUF 格式的模型文件

模型层：底层是量化后的模型文件（通常是.gguf格式），由llama.cpp或同类引擎加载和推理。
适配层：ai-berkshire封装了与不同推理引擎的交互细节，提供统一的模型调用接口。
核心逻辑层：这是项目的精华所在，负责管理对话会话（Session）、维护聊天历史（Memory）、解析模型输出、调度工具（Tool）执行。
接口层：提供 RESTful API（类似 OpenAI API 格式）和/或编程语言 SDK（如 Python），供上层应用调用。

2.2 关键概念解释

会话（Session）：一次独立的对话上下文。包含了用户与助手的所有消息历史。每个会话有唯一 ID，应用可以通过该 ID 继续之前的对话。
记忆（Memory）：指会话历史如何被存储和管理。默认可能是在内存中，但可以扩展为持久化到数据库。ai-berkshire的核心能力之一就是智能地管理上下文窗口，将最相关的历史信息提供给模型。
工具（Tool）：这是让 AI 从“聊天”走向“执行”的关键。一个工具本质上是一个函数，AI 可以决定在何时调用它。例如，你可以定义一个execute_shell工具，当用户说“列出当前目录文件”时，AI 会调用这个工具并返回结果。
推理后端（Backend）：指实际运行模型的引擎，如llama.cpp(llamacpp)、vLLM等。ai-berkshire支持配置不同的后端，以兼容不同的模型格式和硬件优化。

3. 环境准备与快速开始

我们将以最常用的llama.cpp后端为例，在 Linux/macOS 系统上完成部署。Windows 用户可以通过 WSL2 获得类似体验。

3.1 前置条件

操作系统：Linux (推荐 Ubuntu 22.04+) 或 macOS。需要终端操作能力。
Python：版本 3.8 或以上。这是运行ai-berkshire主程序所必需的。
C++ 编译环境：用于编译llama.cpp。
硬件：至少 8GB 可用内存。使用 CPU 推理即可，有 NVIDIA GPU 并配置好 CUDA 可获得加速。
模型文件：一个量化后的 GGUF 格式模型。我们将使用Mistral-7B-Instruct-v0.2的 Q4_K_M 量化版作为示例，它体积、速度和效果比较均衡。

3.2 第一步：获取 ai-berkshire 代码

# 克隆项目仓库 git clone https://github.com/xbtlin/ai-berkshire.git cd ai-berkshire # 创建并激活 Python 虚拟环境（强烈推荐） python3 -m venv venv source venv/bin/activate # Linux/macOS # Windows: venv\Scripts\activate # 安装项目依赖 pip install -r requirements.txt

3.3 第二步：准备推理后端与模型

ai-berkshire默认可能不包含推理引擎，我们需要单独准备llama.cpp。

# 回到上级目录，克隆并编译 llama.cpp cd .. git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j4 # 根据你的 CPU 核心数调整，例如4核用 -j4 # 如果使用 GPU，请参考 llama.cpp 文档启用 CUDA 编译 # 编译完成后，会生成一个 `main` 可执行文件

接下来，下载一个合适的模型。我们可以从 Hugging Face 社区下载。

# 在 llama.cpp 目录下创建 models 文件夹 mkdir models cd models # 使用 curl 下载 Mistral-7B-Instruct 的 Q4_K_M 量化模型 (约 4.5GB) # 注意：链接可能变化，请从 https://huggingface.co/TheBloke 查找最新链接 curl -L -o mistral-7b-instruct-v0.2.Q4_K_M.gguf https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf

3.4 第三步：配置 ai-berkshire

回到ai-berkshire项目目录，我们需要创建一个配置文件来指定模型路径和后端。

cd ../../ai-berkshire cp config.example.yaml config.yaml # 复制示例配置文件

用文本编辑器打开config.yaml，进行关键配置：

# config.yaml 核心配置示例 model: # 模型文件的绝对路径或相对于项目根目录的路径 path: "../llama.cpp/models/mistral-7b-instruct-v0.2.Q4_K_M.gguf" # 模型上下文长度，根据模型能力设置，4096 是常见值 context_length: 4096 backend: # 指定使用 llama.cpp 后端 type: "llamacpp" # llama.cpp 可执行文件 main 的路径 executable: "../llama.cpp/main" # 推理参数，根据你的硬件调整 args: - "-t" - "4" # 使用 4 个 CPU 线程 - "-c" - "4096" # 上下文长度，与上面一致 # 如果有 GPU，可以添加 -ngl 参数来指定层数到 GPU # - "-ngl" # - "20" server: host: "127.0.0.1" port: 8000 # 启用类似 OpenAI 的 API 格式 openai_api_compatible: true # 工具定义 (后续扩展) tools: []

配置要点说明：

model.path：务必指向你下载的.gguf模型文件。
backend.executable：指向编译好的llama.cpp/main文件。
backend.args：-t参数控制 CPU 线程数，通常设置为物理核心数。-c是上下文长度。
server.openai_api_compatible：设置为true后，ai-berkshire会提供/v1/chat/completions等端点，这让你能直接使用 OpenAI SDK 或 LangChain 来调用本地服务，兼容性极强。

4. 启动服务与基础对话测试

配置完成后，就可以启动服务了。

4.1 启动 AI 服务

在ai-berkshire项目根目录下执行：

python main.py # 或者指定配置文件 python main.py --config config.yaml

如果一切正常，终端会显示模型加载进度，最后输出类似以下信息：

INFO: Started server process [12345] INFO: Waiting for application startup. INFO: Model loaded successfully: ../llama.cpp/models/mistral-7b-instruct-v0.2.Q4_K_M.gguf INFO: Application startup complete. INFO: Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)

注意：首次加载模型可能需要几十秒到几分钟，取决于模型大小和硬盘速度。

4.2 测试 API 接口

服务启动后，我们首先测试基础的 OpenAI 兼容 API。打开另一个终端，使用curl命令：

curl http://127.0.0.1:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", # 这里模型名可以任意，服务端会忽略并使用配置的模型 "messages": [ {"role": "system", "content": "你是一个乐于助人的助手。"}, {"role": "user", "content": "用Python写一个函数，计算斐波那契数列的第n项。"} ], "max_tokens": 500, "temperature": 0.7 }'

你应该会收到一个 JSON 响应，其中choices[0].message.content包含了模型生成的代码。这个接口与 OpenAI 官方 API 格式完全一致，意味着你可以将现有代码中的openai.api_base指向http://127.0.0.1:8000/v1，即可无缝切换到本地模型（当然，需要处理可能的性能差异）。

4.3 使用 Python SDK 进行对话

ai-berkshire项目可能提供了自己的 Python 客户端，或者我们可以直接使用openai包。这里演示后一种更通用的方式：

# test_client.py import openai # 配置客户端指向本地服务 client = openai.OpenAI( base_url="http://127.0.0.1:8000/v1", # 关键：指向本地兼容端点 api_key="not-needed" # 本地服务通常不需要密钥，但有些框架要求非空 ) # 发起对话 response = client.chat.completions.create( model="local-model", # 模型名任意 messages=[ {"role": "system", "content": "你是一个代码专家，回答要简洁准确。"}, {"role": "user", "content": "解释一下什么是递归函数，并给出一个例子。"} ], stream=False, # 设为 True 可以流式输出 max_tokens=300 ) print("助手回复：") print(response.choices[0].message.content)

运行这个脚本，你将获得来自本地 Mistral 模型的回答。至此，一个最基本的本地 AI 对话服务就已经搭建成功了。

5. 核心功能进阶：自定义工具调用

基础对话只是开始，ai-berkshire真正的威力在于工具调用。这允许 AI 模型与你的外部系统、数据或命令行进行交互。

5.1 工具（Tool）的工作原理

定义：开发者编写一个 Python 函数，并用装饰器或配置将其声明为一个“工具”，同时提供自然语言描述。
描述：工具的描述会被转换成提示词的一部分，告诉模型“这个工具能做什么，何时使用它”。
调度：当用户提问时，模型会分析问题，决定是否需要调用工具、调用哪个工具、传入什么参数。
执行：ai-berkshire接收到模型的工具调用请求后，执行对应的 Python 函数。
回复：将工具执行的结果返回给模型，模型再综合结果生成最终的自然语言回复给用户。

5.2 实战：创建一个获取天气的工具

假设我们想让 AI 助手能查询“天气”。由于没有真实的天气 API，我们模拟一个。

首先，需要在ai-berkshire项目中找到或创建工具定义的地方。通常有一个tools/目录或类似的模块。我们创建一个新文件tools/weather_tool.py。

# ai-berkshire/tools/weather_tool.py import json from typing import Dict, Any # 这是一个模拟的天气数据函数 def get_current_weather(location: str, unit: str = "celsius") -> str: """ 获取指定城市的当前天气情况。 Args: location: 城市名，例如 "北京", "上海"。 unit: 温度单位，"celsius" 表示摄氏度，"fahrenheit" 表示华氏度。 Returns: 返回一个描述天气的字符串。 """ # 模拟数据 weather_data = { "beijing": {"condition": "晴朗", "temperature": 22, "humidity": "40%"}, "shanghai": {"condition": "多云", "temperature": 25, "humidity": "65%"}, "hangzhou": {"condition": "小雨", "temperature": 18, "humidity": "85%"}, } location_key = location.lower() if location_key in weather_data: data = weather_data[location_key] temp = data["temperature"] if unit == "fahrenheit": temp = temp * 9/5 + 32 unit_str = "华氏度" else: unit_str = "摄氏度" return f"{location}的天气是{data['condition']}，温度{temp}{unit_str}，湿度{data['humidity']}。" else: return f"抱歉，未找到{city}的天气信息。" # 工具定义需要符合 ai-berkshire 的格式 # 通常是一个字典，包含函数引用和描述 weather_tool = { "type": "function", "function": { "name": "get_current_weather", "description": "获取某个城市的当前天气情况。", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "城市名称，例如：北京、上海", }, "unit": { "type": "string", "enum": ["celsius", "fahrenheit"], "description": "温度单位", } }, "required": ["location"], }, }, # 指向实际的执行函数 "callable": get_current_weather }

接下来，我们需要修改config.yaml，将这个工具注册到系统中。

# config.yaml (部分更新) tools: - name: "get_current_weather" description: "获取某个城市的当前天气情况。" # 指向我们定义的函数，这里假设我们将 weather_tool 模块放在了正确位置 module_path: "tools.weather_tool" function_name: "get_current_weather" # 或者使用直接的配置方式（取决于 ai-berkshire 的具体实现） # 这里展示一种可能的配置方式，实际请参考项目文档 spec: type: "function" function: name: "get_current_weather" description: "获取某个城市的当前天气情况。" parameters: type: "object" properties: location: type: "string" description: "城市名称" unit: type: "string" enum: ["celsius", "fahrenheit"] required: ["location"]

重要：工具注册的具体方式取决于ai-berkshire项目的实际设计。上述代码和配置是概念性示例。你需要查阅项目的README.md或源码中的tools模块，以了解正确的工具定义和注册方法。常见的方式是通过装饰器或在一个中央配置文件中列出所有工具类。

5.3 测试工具调用

重启ai-berkshire服务以使新工具生效。然后使用客户端进行测试：

# test_tool.py import openai import json client = openai.OpenAI(base_url="http://127.0.0.1:8000/v1", api_key="none") # 这次我们让模型自行决定是否调用工具 response = client.chat.completions.create( model="local-model", messages=[ {"role": "user", "content": "杭州今天天气怎么样？"} ], # 关键：告诉模型可以使用哪些工具 tools=[{ "type": "function", "function": { "name": "get_current_weather", "description": "获取某个城市的当前天气情况。", "parameters": { "type": "object", "properties": { "location": {"type": "string", "description": "城市名称"}, "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]} }, "required": ["location"] } } }], tool_choice="auto", # 让模型自动选择 ) message = response.choices[0].message print("模型的第一轮回复（可能包含工具调用请求）:") print(message) # 如果模型决定调用工具，message.tool_calls 会非空 if message.tool_calls: tool_call = message.tool_calls[0] print(f"\n模型请求调用工具: {tool_call.function.name}") print(f"参数: {tool_call.function.arguments}") # 在实际的 ai-berkshire 服务中，这一步是自动完成的。 # 这里我们模拟客户端手动执行工具并发送结果回去。 # 通常，你需要将 tool_call.id 和结果一起发送给 /v1/chat/completions 接口。 # 具体流程请参考项目的“工具调用”示例或文档。

在集成了工具调用的完整流程中，ai-berkshire服务端会自动处理工具的执行和结果的回传，最终给用户一个包含天气信息的自然语言回复。通过这个机制，你可以扩展出无数可能：查询数据库、发送邮件、控制智能家居、执行代码等等。

6. 集成到现有应用：以 Flask Web 应用为例

现在，我们已经有了一个功能完整的本地 AI 后端。如何将它用到自己的项目里？这里以一个简单的 Flask Web 应用为例，展示集成方法。

6.1 创建 Flask 应用

# app.py from flask import Flask, request, jsonify, render_template_string import openai import os app = Flask(__name__) # 配置 OpenAI 客户端指向本地 ai-berkshire 服务 client = openai.OpenAI( base_url=os.getenv("AI_BACKEND_URL", "http://127.0.0.1:8000/v1"), api_key="not-needed" ) # 一个简单的 HTML 前端 HTML_TEMPLATE = """ <!DOCTYPE html> <html> <head><title>本地 AI 助手</title></head> <body> <h2>与你的本地 AI 对话</h2> <div id="chat" style="height:400px; overflow-y:scroll; border:1px solid #ccc; padding:10px;"> <!-- 对话历史将在这里显示 --> </div> <input type="text" id="message" placeholder="输入你的问题..." style="width:80%;"> <button onclick="sendMessage()">发送</button> <script> function addMessage(role, content) { const chatDiv = document.getElementById('chat'); const msg = document.createElement('p'); msg.innerHTML = `<strong>${role}:</strong> ${content}`; chatDiv.appendChild(msg); chatDiv.scrollTop = chatDiv.scrollHeight; } async function sendMessage() { const input = document.getElementById('message'); const userMessage = input.value.trim(); if (!userMessage) return; input.value = ''; addMessage('你', userMessage); const response = await fetch('/chat', { method: 'POST', headers: {'Content-Type': 'application/json'}, body: JSON.stringify({message: userMessage}) }); const data = await response.json(); addMessage('助手', data.reply); } </script> </body> </html> """ @app.route('/') def index(): return render_template_string(HTML_TEMPLATE) @app.route('/chat', methods=['POST']) def chat(): user_message = request.json.get('message', '') if not user_message: return jsonify({'error': '消息为空'}), 400 try: # 调用本地 AI 服务 response = client.chat.completions.create( model="local-model", messages=[ {"role": "system", "content": "你是一个有用的助手，回答要清晰友好。"}, {"role": "user", "content": user_message} ], max_tokens=500, temperature=0.7 ) ai_reply = response.choices[0].message.content return jsonify({'reply': ai_reply}) except Exception as e: return jsonify({'error': str(e)}), 500 if __name__ == '__main__': # 确保 ai-berkshire 服务已在 8000 端口运行 app.run(debug=True, port=5000)

6.2 运行与测试

在一个终端，确保ai-berkshire服务正在运行 (python main.py)。

在另一个终端，运行 Flask 应用：

export FLASK_APP=app.py flask run --port=5000 # 或直接 python app.py

打开浏览器，访问http://127.0.0.1:5000。
在输入框中提问，例如“用Python写一个冒泡排序”，页面将通过 Flask 后端调用本地的ai-berkshire服务并返回结果。

这个例子展示了如何将ai-berkshire作为后端服务嵌入到标准 Web 架构中。你可以用同样的方式集成到 Django、FastAPI、Node.js 或任何能发送 HTTP 请求的客户端中。

7. 性能调优与常见问题排查

将本地模型用于生产或高频测试，性能是关键。以下是一些优化思路和常见问题。

7.1 性能调优建议

优化方向	具体措施	说明
硬件利用	使用 GPU 推理	在`config.yaml`的`backend.args`中为`llama.cpp`添加`-ngl [层数]`参数，将模型部分层卸载到 GPU。层数越多，GPU 内存占用越大。
调整 CPU 线程数	`-t`参数设置为物理核心数，通常能获得最佳性能。超线程不一定有帮助，可以多尝试。
推理参数	调整上下文长度 (`-c`)	根据实际对话长度设置，不要盲目设大。更长的上下文会消耗更多内存和计算。
使用量化模型	优先使用`Q4_K_M`、`Q5_K_M`等量化等级，在精度和速度间取得平衡。`Q8`或`F16`模型对内存要求高。
批处理	启用批处理推理	如果`ai-berkshire`或`llama.cpp`支持，批处理能提高并发请求下的吞吐量。
模型选择	选择更小的模型	7B 参数模型是性能和能力的折中。对于简单任务，可尝试 3B 或更小的模型，速度更快。

7.2 常见问题排查表

问题现象	可能原因	排查步骤	解决方案
服务启动失败，提示`Model file not found`	模型路径配置错误	1. 检查`config.yaml`中`model.path`。 2. 确认路径是绝对路径或相对于服务启动目录的正确相对路径。	使用绝对路径，或确保从项目根目录启动服务。
加载模型时卡住或崩溃	内存不足	1. 使用`htop`或任务管理器查看内存占用。 2. 检查模型大小和可用内存。	1. 关闭不必要的程序。 2. 使用量化程度更高的模型（如 Q4 代替 Q8）。 3. 增加虚拟内存（交换空间）。
API 请求返回`404`或`500`	服务未正常启动或配置错误	1. 检查服务日志是否有错误。 2. 确认`server.port`和请求地址一致。 3. 确认`openai_api_compatible`为`true`。	1. 根据日志修复配置。 2. 使用`curl http://127.0.0.1:8000/health`(如果存在)检查健康状态。
模型回复速度极慢	CPU 模式且线程数设置不当	1. 检查`backend.args`中的`-t`参数。 2. 使用`top`查看 CPU 使用率。	1. 将`-t`设置为物理核心数。 2. 考虑使用 GPU 推理。
工具调用不生效	工具定义或注册方式错误	1. 检查`config.yaml`中`tools`配置格式。 2. 查看服务启动日志，是否成功加载工具模块。 3. 确认工具函数的描述清晰，模型能理解。	1. 严格参照项目文档或示例定义工具。 2. 在工具描述中提供清晰的使用示例。
回复内容乱码或胡言乱语	模型未适配或系统提示词冲突	1. 检查模型是否为`Instruct`(指令微调) 版本。 2. 检查发送的`system`提示词是否与模型训练格式冲突。	1. 使用知名的指令微调模型，如`Mistral-Instruct`,`Llama2-Chat`。 2. 尝试清空或简化`system`提示词。

8. 生产环境部署与安全最佳实践

如果计划将ai-berkshire用于团队或轻度生产环境，以下几点至关重要。

8.1 部署建议

使用进程管理器：不要直接通过python main.py在前台运行。使用systemd(Linux)、supervisor或pm2来管理进程，实现开机自启、崩溃重启和日志轮转。

# 示例 systemd 服务文件 /etc/systemd/system/ai-berkshire.service [Unit] Description=AI Berkshire Local LLM Service After=network.target [Service] User=your_username WorkingDirectory=/path/to/ai-berkshire Environment="PATH=/path/to/venv/bin" ExecStart=/path/to/venv/bin/python main.py --config /path/to/ai-berkshire/config.yaml Restart=always RestartSec=10 [Install] WantedBy=multi-user.target

置于反向代理之后：使用 Nginx 或 Caddy 作为反向代理，可以处理 SSL/TLS 加密、负载均衡（如果你部署了多个实例）、静态文件和访问控制。
资源隔离：考虑使用 Docker 容器化部署，便于环境隔离和版本管理。

8.2 安全注意事项

网络暴露：默认绑定在127.0.0.1是安全的。如果需要在局域网或公网访问，必须设置防火墙规则和身份验证。ai-berkshire本身可能不提供强认证，依赖反向代理（如 Nginx 基础认证）或上游应用的身份验证。
工具调用权限：这是最大的安全风险。你定义的工具（如execute_shell）拥有与ai-berkshire进程相同的权限。务必遵循最小权限原则：
- 绝对不要提供能直接执行任意命令或访问敏感文件的工具。
- 如果必须提供，则严格限制参数范围，进行白名单校验。
- 考虑在沙箱环境（如 Docker 容器）中运行工具。
输入输出过滤：对用户输入和模型输出进行适当的过滤和清理，防止提示词注入或生成恶意内容。
日志与审计：记录所有对话和工具调用请求，便于事后审计和问题排查。