当前位置：首页 > news >正文

构建AI智能体调度平台：从微服务架构到工程实践

news 2026/5/16 4:55:07

1. 项目概述：一个面向智能体的“Airbnb”式调度平台

最近在折腾AI智能体（Agent）相关的项目，发现一个挺有意思的现象：大家把模型、工具链、工作流都搭好了，但真要让多个智能体协同工作，或者把智能体能力开放出去给别人调用，管理起来就特别麻烦。这感觉就像你家里装修，水电工、木工、油漆工都找齐了，但缺一个靠谱的“工长”来协调排期、分配任务、监督进度。Xiaoher-C/agentbnb这个项目，在我看来，就是试图扮演这个“智能体工长”的角色。

简单来说，agentbnb是一个为AI智能体提供调度、管理和服务化能力的平台。它的名字灵感来源于“Airbnb”，寓意着让智能体像房源一样，可以被轻松“发布”、“发现”和“租用”。你不再需要关心智能体具体跑在哪台服务器、用什么环境，只需要通过平台的标准接口去调用它，完成你需要的任务。这对于想构建复杂多智能体应用，或者希望将自己训练的智能体能力产品化的开发者来说，是一个非常有价值的中间件。

我自己在尝试构建客服、内容生成、数据分析等涉及多个AI模块的场景时，就深受智能体间通信混乱、状态管理困难、资源分配不均之苦。agentbnb这类平台的出现，正是为了解决这些工程化痛点。它适合以下几类人：一是AI应用开发者，希望快速集成多种智能体能力而无需重复造轮子；二是智能体模型的提供方，希望有一个标准化的渠道来部署和运营自己的AI服务；三是技术团队负责人，需要一套可观测、可管理、可扩展的智能体协作框架来支撑业务。

2. 核心设计思路：解耦、调度与服务化

2.1 为什么需要智能体调度平台？

在深入agentbnb的具体实现前，我们先聊聊为什么单纯的智能体框架（比如LangChain、AutoGen）还不够。这些框架提供了构建单个或简单协作智能体的工具包，但当智能体数量增多、交互逻辑变复杂、并且需要7x24小时稳定对外提供服务时，就会暴露出几个关键问题：

资源隔离与弹性伸缩：不同的智能体可能对计算资源（GPU/CPU）、内存、依赖库有不同要求。把所有智能体塞进同一个环境，容易引发依赖冲突，并且无法根据单个智能体的负载进行独立扩缩容。一个翻译智能体请求量暴增，不应该影响旁边一个负责图表生成的智能体。

生命周期与状态管理：智能体往往是有状态的，一次对话的上下文、执行到哪一步了、临时存储的数据等。在分布式环境下，如何保证智能体实例崩溃后能恢复状态？如何管理智能体的创建、销毁、休眠和唤醒？这些都是框架层通常不直接解决的。

统一的通信与发现机制：智能体A如何知道智能体B提供了什么能力？调用地址是什么？协议是什么？如果B的地址变了怎么办？需要一个类似“服务注册与发现中心”的组件，让智能体之间能透明地互相调用。

可观测性与治理：平台运营者需要知道每个智能体的调用量、响应时间、成功率、资源消耗，甚至能对敏感操作进行审计和流控。这在多个团队共享智能体池的场景下尤为重要。

agentbnb的设计目标，正是将智能体的业务逻辑与基础设施管理解耦。开发者专注于实现智能体本身的能力（即“房源”的装修和配置），而平台负责解决“房源”的挂牌、预订、入住安排、保洁维护等一系列运营问题。

2.2 架构概览与核心组件

虽然我没有看到agentbnb的全部源码，但根据其项目名、描述以及同类平台（如微软的AutoGen Studio、一些开源的Agent Server）的常见模式，可以推断其核心架构通常包含以下几层：

1. 智能体抽象层：定义什么是“智能体”。一个智能体通常包含几个基本要素：唯一的ID、一段描述其能力的元数据（名称、功能描述、输入输出格式）、具体的执行入口（比如一个HTTP端点、一个函数、或一个Grpc服务）。平台会提供一个SDK或基类，让开发者按照规范来封装自己的智能体逻辑。

2. 注册与发现中心：这是平台的“目录服务”。智能体启动后，会向这个中心注册自己的信息。其他服务或智能体可以通过查询这个中心，找到所需能力的智能体及其访问地址。这通常通过一个“智能体注册表”数据库和相应的查询API来实现。

3. 调度与路由引擎：这是平台的大脑。当收到一个任务请求时，调度器需要决定由哪个（或哪几个）智能体来执行。决策可能基于智能体的能力匹配度、当前负载、优先级、甚至成本。在复杂工作流中，它还要负责智能体间的调用顺序和数据传递。

4. 执行环境与运行时：为智能体提供安全的沙箱环境。这可能包括容器化（Docker）隔离、虚拟环境（Conda/Venv）管理，确保智能体之间的依赖互不干扰。运行时还负责监控智能体的资源使用情况，并在异常时进行重启或迁移。

5. 通信总线：智能体之间、客户端与智能体之间通信的管道。常见的方式包括基于HTTP REST API、消息队列（如RabbitMQ, Kafka）、或发布订阅系统。平台需要定义一套标准的通信协议，例如任务请求格式、结果返回格式、错误处理规范。

6. 管理与监控台：提供给管理员和开发者的Web界面或CLI工具，用于查看智能体状态、部署新智能体、查看日志、监控指标、设置调度策略等。

提示：在设计自己的智能体平台时，切忌一开始就追求大而全。可以从最核心的“注册发现”和“HTTP代理路由”功能做起，先解决智能体互相找不到的问题，再逐步叠加调度、监控等高级功能。

3. 关键实现细节与实操要点

3.1 如何定义与封装一个智能体？

这是接入平台的第一步，也是最关键的一步。一个好的智能体抽象应该足够简单，让开发者能快速上手；又足够灵活，能覆盖各种类型的AI能力。

一个典型的智能体接口定义可能如下（以Python伪代码为例）：

class Agent: def __init__(self, agent_id: str, name: str, description: str, version: str): self.agent_id = agent_id self.metadata = { "name": name, "description": description, "version": version, "input_schema": {...}, # 定义输入参数的JSON Schema "output_schema": {...}, # 定义输出结果的JSON Schema } async def execute(self, task_input: dict, context: dict) -> dict: """ 核心执行方法。 task_input: 客户端传入的任务参数。 context: 平台提供的上下文，如会话ID、用户信息、上游智能体结果等。 返回一个字典格式的结果。 """ # 开发者在这里实现智能体的核心逻辑 # 可以是调用本地模型、调用API、执行代码等 result = await self._do_actual_work(task_input, context) return {"status": "success", "data": result} async def health_check(self) -> bool: """健康检查，平台会定期调用。""" return True

封装要点：

声明式元数据：input_schema和output_schema至关重要。它们不仅用于生成API文档，更是调度器进行能力匹配和输入验证的依据。使用JSON Schema可以清晰地定义参数类型、是否必填、枚举值等。
异步优先：智能体的执行往往涉及网络IO（调用模型API、访问数据库），使用异步（async/await）可以极大提高平台的并发处理能力。
上下文注入：context参数是平台为智能体提供的“全局变量”，可以包含本次任务链的ID、用户身份、以及其他共享数据。这避免了智能体之间通过复杂参数传递上下文。
标准化响应：执行方法的返回格式应该统一，至少包含status（如 “success”, “error”）和data字段。错误信息可以放在error字段中，便于平台统一处理。

实操心得：在早期，可以不用强制所有智能体都继承某个基类，而是采用“适配器”模式。对于已有的、不符合接口的代码，写一个简单的Wrapper类将其包裹成标准接口即可。这降低了接入门槛。

3.2 实现高效的注册与发现机制

注册中心可以简单理解为一个数据库表，但为了高性能和高可用，需要考虑更多。

表结构设计示例：

CREATE TABLE agents ( id VARCHAR(64) PRIMARY KEY, name VARCHAR(255) NOT NULL, description TEXT, endpoint VARCHAR(512) NOT NULL, -- 智能体的实际调用地址，如 http://192.168.1.10:8080/run health_endpoint VARCHAR(512), -- 健康检查地址 status ENUM('UP', 'DOWN', 'OUT_OF_SERVICE') DEFAULT 'UP', capabilities JSON, -- 存储智能体的能力标签，如 ["translation", "zh-en", "text"] load_factor INT DEFAULT 0, -- 当前负载，用于调度 last_heartbeat TIMESTAMP, -- 最后心跳时间 metadata JSON, -- 扩展元数据，如版本、作者、输入输出schema created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP );

发现机制：

拉取模式：客户端定期从注册中心拉取全量或增量的智能体列表。实现简单，但实时性有延迟。
推送模式：注册中心在智能体状态变化时，主动通知订阅的客户端（如通过WebSocket或消息队列）。实时性好，但系统更复杂。
混合模式：对于服务发现（如另一个智能体寻找伙伴），可以采用客户端内嵌轻量级发现库（类似微服务中的客户端发现），直接查询注册中心API。对于管理台等实时性要求高的场景，采用WebSocket推送。

健康检查与保活：智能体需要定期（如每30秒）向注册中心发送心跳。注册中心如果一段时间（如90秒）没收到心跳，则将智能体状态标记为DOWN或OUT_OF_SERVICE，调度器将不再向其分发任务。一个健壮的设计是，智能体在启动时注册，在关闭前主动注销。同时，平台侧也要有定时任务，清理长时间无心跳的“僵尸”注册记录。

注意：注册中心的地址（IP和端口）对于所有智能体和客户端必须是可访问的。在生产环境中，通常使用域名和负载均衡器来指向注册中心集群，避免单点故障。

3.3 设计调度与路由策略

调度器是平台智能化的体现。最简单的调度是随机或轮询，但一个实用的调度器需要考虑更多因素。

调度决策流程：

请求解析：客户端请求包含任务类型和参数。调度器首先解析请求，确定需要哪些“能力”。
能力匹配：根据“能力”标签，从注册中心查询所有状态为UP且具备该能力的智能体列表。
筛选与排序：
- 负载均衡：选择当前load_factor最低的智能体。负载因子可以根据并发请求数、CPU使用率等计算。
- 地理位置：如果智能体部署在全球多个区域，优先选择离请求来源近的，以降低延迟。
- 版本偏好：客户端可以指定需要的智能体版本，调度器进行匹配。
- 成本优化：不同智能体可能运行在不同规格的机器上，调用成本不同。调度器可以在满足SLA的前提下选择成本更低的。
执行与容错：将请求转发给选中的智能体。如果调用失败（超时或返回错误），调度器应能根据策略进行重试（可能选择另一个智能体）或快速失败。

路由策略示例：假设我们有三个提供“文本摘要”能力的智能体：summarizer-v1,summarizer-v2-fast,summarizer-v2-accurate。

默认路由：客户端不指定版本时，路由到默认的summarizer-v2-fast。
版本路由：客户端请求头带X-Agent-Version: v1，则路由到summarizer-v1。
能力标签路由：客户端可以指定更细的标签，如{"capability": "summarization", "mode": "accurate"}，则路由到summarizer-v2-accurate。

实操心得：调度策略可以做成可插拔的模块。初期实现一个简单的“加权轮询”或“最少连接数”策略就够用。后期再逐步增加基于预测的智能调度。策略配置最好能热更新，无需重启调度器。

4. 平台搭建与核心环节实现

4.1 技术栈选型与考量

构建一个像agentbnb这样的平台，技术选型决定了开发效率和后期维护成本。以下是一个基于云原生理念的参考技术栈：

组件	候选技术	选型考量
后端框架	FastAPI, Spring Boot (Java), Go (Gin/Echo)	FastAPI是Python生态的绝佳选择。它异步性能好，自动生成OpenAPI文档，与Python AI生态（PyTorch, Transformers）无缝集成。如果团队以Java为主，Spring Boot是稳健之选。Go则在性能和并发上有优势。
服务注册与发现	etcd, Consul, ZooKeeper, Redis, 自研数据库	etcd/Consul是专为服务发现设计的分布式键值存储，提供强一致性和Watch机制，但引入额外组件。对于中小规模，用Redis（配合Pub/Sub）或关系型数据库（如PostgreSQL）实现简化版，可以降低复杂度。
消息通信	HTTP REST, gRPC, Message Queue (RabbitMQ, Kafka)	HTTP REST最简单通用，智能体实现门槛最低。gRPC性能更好，适合内部高频调用。消息队列解耦更彻底，支持异步任务和广播，但复杂度高。建议初期用HTTP，关键路径考虑gRPC。
执行隔离	Docker容器, Kubernetes Pod, 进程隔离	Docker提供完整的环境隔离，是最安全的方式，适合运行任意代码的智能体。管理成本较高。进程隔离（用虚拟环境）更轻量，适合信任的、纯Python的智能体。K8s则提供了强大的编排能力，适合生产级部署。
数据存储	PostgreSQL, MySQL, MongoDB	智能体元数据、任务日志、审计信息等结构化数据，用PostgreSQL很合适。如果需要存储非结构化的会话历史或大块数据，可以搭配MongoDB或MinIO（对象存储）。
监控与日志	Prometheus, Grafana, ELK Stack (Elasticsearch, Logstash, Kibana)	Prometheus收集平台和智能体的指标（QPS、延迟、错误率）。Grafana用于可视化仪表盘。日志集中收集到ELK或Loki中，便于排查问题。

选型建议：不要盲目追求新技术。如果你的团队精通Python，那么 FastAPI + PostgreSQL + Docker 的组合能让你快速搭建出原型。稳定性压倒一切，优先选择团队熟悉的技术。

4.2 核心API设计与实现

平台需要对外暴露一套清晰的API，供客户端调用和智能体注册。

1. 智能体注册API (POST /api/v1/agents)

from pydantic import BaseModel from typing import List, Optional import uuid class AgentRegisterRequest(BaseModel): name: str description: str endpoint: str # 智能体自身的执行端点 health_check_endpoint: Optional[str] = None capabilities: List[str] = [] metadata: dict = {} # 包含input_schema, output_schema等 @app.post("/api/v1/agents") async def register_agent(request: AgentRegisterRequest): # 1. 验证endpoint是否可达（可选，可做简单健康检查） # 2. 生成唯一agent_id agent_id = f"agent_{uuid.uuid4().hex[:8]}" # 3. 将信息存入数据库 db_agent = { "agent_id": agent_id, "status": "UP", **request.dict(), "last_heartbeat": datetime.utcnow() } await db.agents.insert_one(db_agent) # 4. 可能触发事件，通知调度器有新的智能体上线 await message_queue.publish("agent.registered", {"agent_id": agent_id}) return {"agent_id": agent_id, "status": "registered"}

2. 任务执行API (POST /api/v1/execute)这是客户端最常调用的接口。

class TaskRequest(BaseModel): capability: str # 所需能力，如 "image_generation" parameters: dict # 任务参数 agent_id: Optional[str] = None # 可选，指定某个智能体 # 其他元数据：优先级、超时时间、回调地址等 @app.post("/api/v1/execute") async def execute_task(request: TaskRequest): # 1. 根据capability或指定的agent_id，通过调度器选择一个智能体 selected_agent = await scheduler.select_agent(request.capability, request.agent_id) if not selected_agent: raise HTTPException(status_code=404, detail="No available agent found") # 2. 可选：根据智能体的input_schema验证parameters # 3. 构造转发请求，添加平台上下文（如request_id, user_id） context = { "platform_request_id": str(uuid.uuid4()), "timestamp": datetime.utcnow().isoformat() } payload = { "task_input": request.parameters, "context": context } # 4. 异步调用选中的智能体 try: async with httpx.AsyncClient(timeout=30.0) as client: response = await client.post( selected_agent.endpoint + "/run", json=payload, headers={"Content-Type": "application/json"} ) response.raise_for_status() result = response.json() except (httpx.TimeoutException, httpx.RequestError) as exc: # 调用失败，更新智能体状态，可能触发重试逻辑 await update_agent_status(selected_agent.id, "DOWN") # 这里可以嵌入重试逻辑，选择另一个智能体重试 raise HTTPException(status_code=503, detail=f"Agent unavailable: {exc}") # 5. 记录任务日志（异步进行，避免阻塞主流程） asyncio.create_task(log_task_execution(request, selected_agent, result)) # 6. 返回结果给客户端 return result

3. 智能体发现与查询API (GET /api/v1/agents)

@app.get("/api/v1/agents") async def list_agents(capability: Optional[str] = None, status: Optional[str] = None): query = {} if capability: query["capabilities"] = capability if status: query["status"] = status agents = await db.agents.find(query).to_list(100) # 过滤掉敏感信息，只返回公开元数据 return [{"agent_id": a["agent_id"], "name": a["name"], "description": a["description"], "status": a["status"], "capabilities": a["capabilities"]} for a in agents]

实操心得：API设计要遵循RESTful风格，并做好版本管理（/api/v1/）。所有对智能体的调用都要设置合理的超时时间（如30秒），并使用异步客户端，防止一个慢速智能体拖垮整个平台。返回给客户端的错误信息要友好，但日志里要记录详细的内部错误，方便排查。

4.3 智能体生命周期管理

平台不能只负责“派活”，还得负责“后勤保障”，即智能体的全生命周期管理。

部署与启动：

镜像打包：为每个智能体创建Docker镜像，包含代码、依赖和环境。使用多阶段构建减小镜像体积。
配置注入：智能体启动时需要知道注册中心的地址、自己的身份令牌等。这些配置通过环境变量或配置文件注入，不要硬编码在镜像里。
健康检查集成：在智能体镜像中，除了业务服务，还要提供一个/health端点，用于平台探活。这个端点应该检查关键依赖（如模型、数据库）是否就绪。

伸缩与负载均衡：

水平伸缩：当某个智能体的请求队列持续过长，平台应能自动触发扩容。这需要与K8s或云服务商的API集成，创建新的智能体实例并注册。
负载均衡器：对于同一智能体的多个实例，平台内部（或通过外部负载均衡器如Nginx）需要将请求均匀分发。可以使用轮询、最少连接等算法。

版本升级与回滚：

蓝绿部署：部署新版本智能体（v2）时，先注册新实例，但不将流量切过去。通过管理台手动将一部分流量导入v2进行测试。测试无误后，逐步将流量从v1切换到v2。出现问题则快速切回v1。
平台支持：平台API应支持按版本路由。这样，即使v2已经上线，部分重要客户端仍可指定使用稳定的v1版本，实现平滑过渡。

监控与告警：

关键指标：每个智能体的QPS、平均响应时间、错误率、资源使用率（CPU/内存）。
业务指标：根据智能体类型定义，如图文生成智能体的“图片生成耗时”、“审美评分”；代码生成智能体的“代码通过率”。
告警规则：当错误率超过5%持续5分钟，或响应时间P99大于10秒时，触发告警（邮件、钉钉、Slack）。

注意：智能体的生命周期管理是平台最复杂的部分之一。建议初期以手动管理为主，自动化脚本为辅。待核心流程跑通后，再逐步实现自动化伸缩和部署。切忌一开始就追求全自动化，容易陷入基础设施的泥潭。

5. 常见问题与排查技巧实录

在实际搭建和运营agentbnb这类平台的过程中，你会遇到各种各样的问题。下面是我总结的一些典型坑点和解决思路。

5.1 智能体失联与“僵尸”服务

问题现象：调度器将任务路由到一个智能体，但调用超时失败。查看注册中心，该智能体状态仍是UP。

排查思路：

检查网络连通性：从平台服务器ping/telnet智能体所在机器的IP和端口。可能是防火墙规则、安全组配置错误，或者智能体容器/进程崩溃但端口未释放。
检查智能体健康检查：直接调用智能体的/health端点，看是否正常响应。可能是智能体内部依赖（如数据库、模型文件）出现问题，导致服务假死。
检查心跳机制：确认智能体的心跳任务是否在正常运行。如果是定时任务，是否因为线程阻塞、异常退出而停止。
检查注册中心：查看该智能体的last_heartbeat时间。如果远远超过心跳间隔（如设定30秒心跳，但记录显示5分钟前），说明心跳没有成功更新到数据库。可能是网络问题，也可能是数据库压力大导致更新慢。

解决方案与预防：

加强健康检查：智能体的健康检查不应只是“进程存活”，而应检查核心功能。例如，一个翻译智能体，可以在/health里尝试翻译一个简单句子，验证模型是否加载成功。
设置合理的超时和重试：平台调用智能体时，设置连接超时（如5秒）和读取超时（如25秒）。第一次调用失败后，立即将智能体标记为“可疑”，并选择另一个实例重试。
实现主动摘除：注册中心应有后台线程，定期扫描last_heartbeat过期的记录，自动将其状态改为DOWN。这可以作为心跳失败的最后保障。
完善日志：在智能体启动、心跳发送、注册中心更新状态等关键环节打上详细的日志，并带上唯一请求ID，方便串联整个生命周期。

5.2 任务执行超时与雪崩

问题现象：某个智能体处理某个特定任务特别慢（例如，处理一个超长文本），导致任务队列堆积。后续请求持续等待，最终大量超时，平台整体响应变慢甚至瘫痪。

排查思路：

定位慢速智能体：查看监控仪表盘，找到响应时间P99或P999异常高的智能体。
分析任务特征：查看该智能体的慢速请求日志，分析输入参数是否有共性（如文本长度、图片分辨率特别大）。
检查资源瓶颈：登录智能体所在服务器，查看CPU、内存、GPU、磁盘IO是否达到瓶颈。可能是单个任务消耗资源过大，也可能是并发太多导致资源争抢。

解决方案与预防：

任务超时控制：在平台层面和智能体层面设置双重超时。平台调用智能体超时（如30秒）则直接返回失败，避免阻塞。智能体内部处理也应设置超时，防止某个子操作卡死。
实现熔断机制：当某个智能体的错误率或慢速比例超过阈值（如50%请求超过10秒），调度器暂时熔断对该智能体的调用，直接返回失败或降级到备用方案。一段时间后（如1分钟）进入半开状态，尝试放少量流量探测是否恢复。
任务队列与限流：为每个智能体设置一个任务队列和并发数限制。例如，限制某个GPU密集型智能体最多同时处理3个任务，后续请求在队列中等待或立即返回“服务繁忙”。这保护了智能体不被压垮。
输入验证与裁剪：在平台转发请求前，根据智能体声明的input_schema进行验证。对于文本长度、文件大小等，可以设置硬性限制，超过则直接拒绝，并提示用户“输入过长”。
异步任务模式：对于预计执行时间很长的任务（超过1分钟），不应采用同步HTTP调用。可以改为异步模式：客户端提交任务后立即返回一个task_id，客户端随后轮询或通过WebSocket回调来获取结果。平台将任务放入消息队列，由智能体异步消费。

5.3 智能体版本冲突与依赖地狱

问题现象：智能体A升级后，依赖了新的库版本，导致与智能体B所需的旧版本冲突。或者，平台升级了基础环境，导致部分智能体无法运行。

排查思路：

检查错误日志：智能体启动失败或执行时报错，通常会有明确的导入错误（ImportError）或运行时错误。
对比环境：对比能正常运行的旧环境与当前环境的pip list或conda list，找出有版本差异的包。
审查Dockerfile：检查智能体的Dockerfile中是否固定了关键依赖的版本。

解决方案与预防：

严格的容器隔离：这是最根本的解决方案。每个智能体必须运行在自己独立的Docker容器中，拥有完全隔离的Python环境。这样，智能体A用TensorFlow 2.10，智能体B用TensorFlow 2.15，互不影响。
使用轻量级基础镜像：推荐使用python:3.11-slim这类小型镜像作为基础，在镜像内用虚拟环境或直接pip install安装依赖。避免使用臃肿的、包含大量预装库的AI基础镜像，以减少冲突风险和镜像体积。
依赖清单锁定：在智能体项目中提供requirements.txt或pyproject.toml文件，并使用pip-tools或poetry锁定所有依赖的确切版本。在Docker构建时，依据锁定的版本文件安装。
提供基础工具镜像：对于团队内部，可以维护一个包含常用AI框架（如PyTorch、Transformers）和平台SDK的基础镜像。智能体基于此镜像构建，只需安装自己独有的少量包。这能加快构建速度，并确保基础依赖一致。

5.4 安全与权限控制缺失

问题现象：任何知道平台地址的人都可以调用智能体；智能体可以未经授权访问平台内部数据库或其他服务。

排查思路：这是一个设计阶段就该考虑的问题。如果上线后发现，需要紧急评估风险。

解决方案与预防：

API认证与授权：平台的所有API（除健康检查）都应要求身份验证。可以使用API Key、JWT令牌或OAuth 2.0。在调度器转发请求给智能体时，也应携带一个内部服务令牌，智能体端验证此令牌后才执行。
智能体间调用的安全：智能体A调用智能体B时，不应直接使用B的内部地址，而应通过平台网关。平台网关负责鉴权、限流和审计。这样，即使B的地址暴露，外部也无法直接调用。
网络隔离：将智能体运行在独立的网络命名空间或子网中，通过平台网关与之通信。智能体不应有直接访问互联网或内部核心数据库的权限。如果智能体需要访问外部资源，应通过平台提供的安全代理或预先配置好的白名单。
输入输出过滤与审计：对用户输入进行严格的过滤和转义，防止注入攻击。对智能体的输出内容（特别是文本生成类）进行必要的审核，防止产生有害内容。所有任务执行记录都应审计日志，便于追溯。

实操心得：安全是一个持续的过程。建议在项目初期就引入最少权限原则。可以先用一个简单的API Key认证，然后逐步完善角色权限控制（RBAC），区分普通用户、智能体开发者、管理员等不同角色。定期进行安全扫描和渗透测试。

查看全文

http://www.jsqmd.com/news/826127/