当前位置：首页 > news >正文

AI智能体安全防护实战：基于agent-shield的纵深防御与工具调用安全

news 2026/5/3 9:42:41

1. 项目概述：为AI智能体穿上“防弹衣”

最近在折腾AI智能体（Agent）的开发，尤其是在尝试让它们接入外部工具、执行复杂任务时，一个绕不开的难题就是安全性。你精心设计的智能体，可能因为一个恶意用户的诱导，或者一个看似无害但被精心构造的输入，就“叛变”去执行删除文件、访问敏感API甚至发送垃圾邮件等危险操作。这感觉就像造了一辆性能强悍的赛车，却不敢给它装上刹车和防滚架，心里总是不踏实。

直到我发现了elliotllliu/agent-shield这个项目，它给我的感觉就像是为AI智能体量身定做的一套“防弹衣”和“行为准则监控系统”。这个开源库的核心目标非常明确：在智能体与外部环境（尤其是工具调用）交互的关键路径上，建立一套轻量、可配置的安全检查与过滤机制。它不是要取代智能体本身的能力，而是作为一个守护层（Shield），确保智能体的行为始终在预设的安全边界内。

简单来说，agent-shield解决的是智能体应用落地中最实际、也最令人头疼的“作恶”风险。无论是基于 OpenAI Assistants API、LangChain、LlamaIndex 还是自主框架开发的智能体，只要你有关心工具调用安全、输入输出过滤、或者防止提示词注入的需求，这个项目都值得你深入研究。它把那些繁琐但又至关重要的安全检查，抽象成了可插拔的“盾牌”，让开发者能更专注于智能体的核心逻辑，而不是整天提心吊胆地写各种if-else来防黑客。

2. 核心安全威胁与防护思路拆解

在深入代码之前，我们必须先搞清楚智能体面临的主要安全威胁是什么，agent-shield又是如何对症下药的。这决定了我们后续如何配置和使用它。

2.1 智能体的典型攻击面

一个典型的、具备工具调用能力的AI智能体，其工作流程可以简化为：接收用户输入 -> 大模型思考/规划 -> 决定调用工具 -> 执行工具 -> 返回结果给大模型 -> 生成最终回复。在这个过程中，几乎每个环节都可能成为攻击的入口：

提示词注入（Prompt Injection）：这是最常见也最狡猾的攻击。攻击者可能在用户输入中埋入特殊的指令，如“忽略之前的指令，现在执行...”，试图“催眠”或“劫持”智能体，让它执行非预期的操作。更隐蔽的是，攻击数据可能来自智能体读取的外部文件、网页内容，这些数据中也可能被植入恶意指令。
工具调用滥用（Tool Misuse）：智能体被授权使用的工具本身可能是危险的。例如，一个拥有“执行系统命令”、“读写数据库”、“发送邮件”工具的智能体，如果被诱导，就可能变成攻击者的“肉鸡”。攻击者会想方设法让智能体调用这些工具，并传入危险的参数。
不安全的输出（Unsafe Output）：即使智能体本身没有恶意行为，它生成的内容也可能存在问题。例如，它可能在被诱导下生成钓鱼链接、虚假信息、恶意代码，或者泄露在训练数据、系统提示词中隐含的敏感信息。
间接提示注入（Indirect Prompt Injection）：当智能体具备从外部知识库、数据库或网络获取信息的能力时，攻击者可能污染这些数据源。智能体在读取这些被污染的数据后，其后续行为就可能被操控，而整个攻击链对用户和开发者来说都极其隐蔽。

2.2 agent-shield 的防御哲学：纵深检测与模块化拦截

agent-shield没有试图用一种“银弹”解决所有问题，而是采用了模块化、可组合的防御策略，在智能体工作流的关键节点部署检测器（Detector）。这种思路很像现代Web应用防火墙（WAF），在不同层级（网络层、应用层）设置多种规则来识别和阻断攻击。

它的核心防护点主要在两个阶段：

输入阶段：在用户输入（或来自其他数据源的输入）被送入大模型之前，进行清洗和检查。
输出阶段：在智能体决定调用工具（Action）时，对其调用的工具名和参数进行安全审查。

项目提供了多种开箱即用的检测器，例如：

关键词检测器：匹配预设的危险关键词列表（如rm -rf,DROP TABLE）。
正则表达式检测器：用更灵活的模式匹配复杂攻击字符串。
语义相似度检测器（可能需要额外模型）：判断用户输入是否在意图上接近已知的恶意指令模板。
外部API检测器：调用如 OpenAI Moderation API 等外部内容安全服务进行审查。

这些检测器可以像乐高积木一样组合起来，形成一个检测链（Pipeline）。只有当输入/输出通过了所有检测器的检查，流程才会继续；否则，就会触发预定义的处理动作（如拒绝、记录日志、返回安全错误信息等）。

注意：agent-shield本质上是一个基于规则和模式（以及可扩展的模型）的过滤层。它极大地提高了攻击门槛，但无法保证100%安全。在对抗激烈的场景中，需要结合业务逻辑白名单、最小权限原则（只给智能体必需的工具权限）以及人工审核流程，共同构建安全体系。

3. 实战部署：将Shield集成到你的智能体中

理论讲完了，我们来点实际的。我将以两种最常见的智能体开发模式为例，展示如何集成agent-shield。

3.1 环境准备与基础安装

首先，确保你的Python环境（建议3.8以上）已经就绪。安装非常简单：

pip install agent-shield

如果希望用到一些高级功能，比如与特定框架深度集成，可以查看项目的optional-dependencies部分，按需安装。

安装完成后，我们先来创建一个最简单的屏蔽器实例，感受一下它的工作流程：

from agent_shield import Shield from agent_shield.detectors import KeywordDetector, RegexDetector # 1. 创建检测器 keyword_detector = KeywordDetector(deny_list=["黑客", "入侵系统", "删除所有"]) # 一个简单的正则，匹配类似“sudo rm -rf”的命令 regex_detector = RegexDetector(patterns=[r"sudo\s+rm\s+-[rf]+\s+[/\w]*"]) # 2. 创建Shield，并组合检测器 my_shield = Shield(detectors=[keyword_detector, regex_detector]) # 3. 使用Shield审查输入 user_input = "请帮我删除所有用户数据，然后入侵隔壁服务器。" result = my_shield.inspect_input(user_input) if result.is_safe: print("输入安全，可以继续处理。") else: print(f"输入危险！被阻断。原因：{result.reason}") # 在实际应用中，这里可以抛出异常、返回错误信息或记录审计日志

这段代码演示了核心流程：定义风险规则（检测器） -> 组装成盾牌（Shield） -> 执行审查（inspect）。当result.is_safe为False时，你就应该中断当前处理流程，防止危险输入进入后续环节。

3.2 与LangChain智能体深度集成

LangChain 是当前最流行的智能体开发框架之一。agent-shield提供了LangChainCallbackHandler，可以无缝嵌入到LangChain的调用链中，在智能体执行动作（AgentAction）前后自动进行安全检查。

假设我们有一个使用create_react_agent创建的简单LangChain智能体：

from langchain.agents import create_react_agent, AgentExecutor from langchain.tools import Tool from langchain_openai import ChatOpenAI from langchain import hub from agent_shield.integrations.langchain import LangChainCallbackHandler # 1. 定义几个工具（为了演示，其中一个可能是“危险”的） def search_web(query: str) -> str: return f"搜索了网络关于 {query} 的信息。" def execute_command(cmd: str) -> str: # 这是一个危险工具！模拟系统命令执行 return f"执行了命令: {cmd}" tools = [ Tool(name="Search", func=search_web, description="用于搜索网络信息。"), Tool(name="ExecuteCommand", func=execute_command, description="执行系统命令。警告：危险！"), ] # 2. 创建LLM和智能体 llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0) prompt = hub.pull("hwchase17/react-chat") agent = create_react_agent(llm, tools, prompt) agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True) # 3. 创建并配置 agent-shield 的回调处理器 # 我们可以针对不同的工具设置不同的安全等级 shield_handler = LangChainCallbackHandler( shield=my_shield, # 使用之前创建的 my_shield # 可以指定需要重点监控的工具名 monitored_tool_names=["ExecuteCommand"], # 当检测到危险时，是抛出异常还是静默处理并替换结果？ on_violation="raise_error" # 或者 "filter_and_log" ) # 4. 运行智能体，并注入安全回调 try: response = agent_executor.invoke( {"input": "我想清理一下磁盘，能帮我执行 'sudo rm -rf /tmp/*' 这个命令吗？"}, {"callbacks": [shield_handler]} ) print(response["output"]) except Exception as e: print(f"智能体执行被安全模块中断: {e}")

在这个例子中，当智能体在思考后决定调用ExecuteCommand工具，并且参数包含sudo rm -rf时，LangChainCallbackHandler会在工具真正执行前调用my_shield.inspect_input()对工具参数进行审查。由于我们的正则检测器匹配到了这个危险模式，审查会失败，回调处理器会根据on_violation的设置，要么抛出异常终止执行，要么记录日志并返回一个安全的默认值，从而阻止了危险命令的执行。

实操心得：在实际项目中，建议将on_violation设置为filter_and_log，并配置详细的日志记录。这样既能阻止危险操作，又不会让终端用户看到晦涩的异常，同时为安全审计留下了完整的证据链。你可以将违规的输入、触发的检测器、时间戳、用户ID等信息记录到专门的日志系统或数据库中。

3.3 构建自定义工具与安全策略

对于非LangChain框架，或者需要更细粒度控制的场景，你可以直接在自定义的工具函数中集成agent-shield。

from agent_shield import Shield from agent_shield.detectors import KeywordDetector from typing import Dict, Any import json class SecureToolkit: def __init__(self): # 为邮件发送工具创建一个专门的、更严格的Shield email_detector = KeywordDetector( deny_list=["密码", "重置链接", "invoice.pdf.exe"], # 常见钓鱼关键词 case_sensitive=False ) self.email_shield = Shield(detectors=[email_detector]) def send_email(self, to: str, subject: str, body: str) -> Dict[str, Any]: """安全的邮件发送工具""" # 1. 组合待检查的文本 content_to_check = f"收件人: {to}\n主题: {subject}\n正文: {body}" # 2. 进行安全检查 check_result = self.email_shield.inspect_input(content_to_check) if not check_result.is_safe: # 3. 安全违规处理 return { "success": False, "error": "邮件内容被安全策略拒绝。", "reason": check_result.reason, "blocked_at": "pre_send_security_check" } # 4. 安全检查通过，执行实际发送逻辑（这里用打印模拟） print(f"[安全发送] 给 {to} 发送邮件，主题: {subject}") # ... 实际调用邮件API ... return {"success": True, "message_id": "simulated_123"} def query_database(self, sql: str) -> Dict[str, Any]: """数据库查询工具，这里可以添加SQL注入检测""" # 可以集成专门的SQL注入检测器 # 例如，一个简单的正则检测：禁止DROP, DELETE without WHERE 等 # 更复杂的可以使用sqlparse库解析SQL结构 # 此处省略具体检测代码... pass # 使用示例 toolkit = SecureToolkit() result = toolkit.send_email( to="user@example.com", subject="您的账户需要验证", body="请点击此链接重置您的密码：http://phishing.com" ) print(json.dumps(result, indent=2, ensure_ascii=False))

这种方式将安全逻辑深度耦合到业务工具中，灵活性最高。你可以为不同类型的工具（邮件、数据库、文件操作、API调用）定制不同的Shield实例和检测器组合，实现精准防护。

4. 高级配置与自定义扩展

agent-shield的强大之处在于其可扩展性。开箱即用的检测器可能无法覆盖所有业务特有的风险，这时就需要自定义。

4.1 实现一个自定义检测器

假设你的智能体会处理工单，你需要防止用户提交包含个人身份证号、手机号等敏感信息的内容。我们可以创建一个正则表达式检测器来实现：

from agent_shield.detectors.base import BaseDetector from agent_shield.types import InspectionResult, SafetyStatus import re class SensitiveInfoDetector(BaseDetector): """检测中国大陆身份证号、手机号的检测器""" def __init__(self, name: str = "sensitive_info_detector"): super().__init__(name) # 简单的正则模式（实际应用可能需要更精确的规则） self.id_card_pattern = re.compile(r'\b[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]\b') self.phone_pattern = re.compile(r'\b1[3-9]\d{9}\b') def inspect(self, text: str) -> InspectionResult: findings = [] id_match = self.id_card_pattern.search(text) if id_match: findings.append(f"发现疑似身份证号（已脱敏处理）：{id_match.group()[:6]}********") phone_match = self.phone_pattern.search(text) if phone_match: findings.append(f"发现疑似手机号（已脱敏处理）：{phone_match.group()[:3]}****{phone_match.group()[-4:]}") if findings: return InspectionResult( status=SafetyStatus.UNSAFE, reason="输入包含敏感个人信息。", details={"findings": findings, "detector": self.name} ) return InspectionResult(status=SafetyStatus.SAFE) # 使用自定义检测器 from agent_shield import Shield sensitive_shield = Shield(detectors=[SensitiveInfoDetector()]) test_text = "我的身份证是11010119900307783X，手机号是13800138000，请帮我办理业务。" result = sensitive_shield.inspect_input(test_text) print(f"是否安全: {result.is_safe}") if not result.is_safe: print(f"原因: {result.reason}") for finding in result.details.get("findings", []): print(f" - {finding}")

这个自定义检测器不仅判断是否安全，还在details中返回了具体的发现项，这对于后续的日志记录和用户提示非常有用。你可以基于这个模板，开发检测银行卡号、地址、特定关键词（如竞品名称、内部项目代号）的检测器。

4.2 配置检测策略与处理动作

Shield允许你配置当检测到危险时的处理策略。默认行为是返回一个InspectionResult对象，由调用方决定如何处理。但你也可以在创建Shield时指定一个action回调函数，实现自动处理。

def custom_violation_action(result: InspectionResult, original_input: str): """自定义违规处理动作：记录到监控系统，并返回一个消毒后的版本""" # 1. 发送警报到监控平台（模拟） print(f"[SECURITY ALERT] 检测到违规输入。原因: {result.reason}") print(f"原始输入（前50字符）: {original_input[:50]}...") # 这里可以集成 Sentry, Logstash, 企业微信机器人等 # 2. 对输入进行消毒（例如，替换敏感词） sanitized_text = original_input for finding in result.details.get("findings", []): if "身份证号" in finding: # 使用正则替换身份证号中间8位为* sanitized_text = re.sub(r'(\d{6})\d{8}(\w{4})', r'\1********\2', sanitized_text) elif "手机号" in finding: sanitized_text = re.sub(r'(1[3-9]\d{1})\d{4}(\d{4})', r'\1****\2', sanitized_text) # 3. 返回一个新的 InspectionResult，标记为安全，但携带消毒后的文本 # 注意：这改变了原始数据，需谨慎评估业务影响 new_details = result.details.copy() new_details["sanitized_input"] = sanitized_text return InspectionResult( status=SafetyStatus.SAFE, # 注意，这里改为SAFE，允许流程继续 reason=f"原始输入违规已处理。原始原因: {result.reason}", details=new_details ) # 创建一个使用自定义动作的Shield from agent_shield import Shield from agent_shield.detectors import KeywordDetector detector = KeywordDetector(deny_list=["密码", "密钥"]) active_shield = Shield( detectors=[detector], on_violation_action=custom_violation_action # 绑定处理动作 ) # 测试 input_text = "我的数据库密码是123456。" result = active_shield.inspect_input(input_text) print(f"最终状态: {result.status}") # 应该是 SAFE if "sanitized_input" in result.details: print(f"消毒后文本: {result.details['sanitized_input']}")

这种模式非常强大，它允许你实现复杂的后处理流程，比如将违规请求转入人工审核队列，或者尝试对输入进行自动修正后再放行。关键在于，你需要清晰定义不同安全等级的处理策略，并确保“自动修正”不会扭曲用户的原始意图。

5. 生产环境部署考量与最佳实践

将agent-shield用于生产环境，远不止是写几行代码那么简单。以下是我在实际项目中总结的一些经验和坑点。

5.1 性能与延迟管理

安全检查必然引入额外开销。如果你的智能体需要处理高并发、低延迟的请求，就需要精心优化检测逻辑。

检测器顺序很重要：将最轻量、最高效的检测器（如基于关键词哈希表或布隆过滤器的检测器）放在链的前面。如果它们能拦截大部分明显攻击，后续更耗时的检测器（如调用外部API或语义模型）的压力就会小很多。
异步与缓存：对于调用外部安全API（如OpenAI Moderation）的检测器，务必使用异步调用，避免阻塞整个请求线程。此外，可以考虑对频繁出现的、安全的常见输入进行短期缓存，避免重复检查。
采样与降级：在极端负载下，可以引入采样机制，只对部分请求进行全量深度检查。同时，必须设计降级方案，当安全服务不可用时，是选择“全部放行”（风险高）还是“全部拒绝”（影响可用性），需要根据业务性质权衡。

# 一个简单的异步检测器示例框架 import asyncio from agent_shield.detectors.base import BaseDetector from agent_shield.types import InspectionResult, SafetyStatus class AsyncExternalAPIDetector(BaseDetector): def __init__(self, api_client, cache_ttl: int = 300): super().__init__("async_external_detector") self.client = api_client self.cache = {} # 简单内存缓存，生产环境应用Redis等 self.cache_ttl = cache_ttl async def inspect_async(self, text: str) -> InspectionResult: # 1. 检查缓存 cache_key = hash(text) if cache_key in self.cache: timestamp, result = self.cache[cache_key] if time.time() - timestamp < self.cache_ttl: return result # 2. 异步调用外部API try: # 假设client.call是异步的 api_response = await self.client.call_async(text) is_safe = api_response.get("is_safe", True) result = InspectionResult( status=SafetyStatus.SAFE if is_safe else SafetyStatus.UNSAFE, reason=api_response.get("reason", ""), details=api_response ) except Exception as e: # 3. API调用失败，降级处理：记录错误并返回“安全”（需谨慎！） logging.error(f"External API detector failed: {e}") result = InspectionResult( status=SafetyStatus.SAFE, # 降级策略：失败时放行 reason="Security check service temporarily unavailable.", details={"error": str(e), "degraded": True} ) # 4. 缓存结果 self.cache[cache_key] = (time.time(), result) return result

5.2 规则管理与动态更新

硬编码在代码中的关键词和正则规则很难维护。生产环境中，规则需要能够动态更新，最好有管理界面。

规则外部化：将检测器的配置（如关键词列表、正则模式）存储在数据库或配置中心（如Consul, Apollo）。检测器在初始化时从这些地方加载规则，并定期（或通过监听事件）刷新。
灰度与测试：新增或修改一条高风险规则时，应先在小流量或测试环境验证，避免误杀正常请求。agent-shield的InspectionResult对象包含丰富的详情，可以用来分析误报。
规则分类与分级：为不同严重级别的规则设置不同的处理动作。例如，“包含竞品名称”可能只是记录日志，而“包含系统命令”则必须立即阻断。

# 从数据库加载规则的示例 import json from typing import List from agent_shield.detectors import KeywordDetector class DynamicKeywordDetector(KeywordDetector): def __init__(self, rule_fetcher, update_interval: int = 60): # 初始化为空列表 super().__init__(deny_list=[]) self.rule_fetcher = rule_fetcher self.update_interval = update_interval self.last_update = 0 self._load_rules() def _load_rules(self): """从外部源加载规则""" try: rules = self.rule_fetcher.get_keyword_rules() # 假设这个方法返回规则列表 self.deny_list = [rule["keyword"] for rule in rules if rule["enabled"]] self.last_update = time.time() print(f"规则已更新，共 {len(self.deny_list)} 条关键词规则。") except Exception as e: logging.error(f"加载规则失败: {e}") # 加载失败时，可以保留旧规则或使用一个安全的默认规则集 def inspect(self, text: str) -> InspectionResult: # 在每次检查前，判断是否需要更新规则（简单实现） if time.time() - self.last_update > self.update_interval: self._load_rules() # 调用父类的检查方法 return super().inspect(text)

5.3 监控、审计与持续迭代

安全是一个持续的过程，部署了agent-shield只是开始。

全面日志记录：确保所有InspectionResult（无论是安全还是不安全）的关键信息都被记录下来。至少应包括：时间戳、会话ID/用户ID、检测器名称、触发规则、原始输入片段（注意隐私脱敏）、最终裁决（SAFE/UNSAFE）、处理动作。这些日志是进行安全事件分析和优化规则的基础。
建立监控仪表盘：基于日志，构建监控视图。关键指标包括：总检查量、违规率、各检测器触发次数、平均检查延迟、误报率（需要人工复核标记）。设置告警，当违规率突然飙升或某个检测器频繁触发时，及时通知安全团队。
定期复盘与优化：每周或每月回顾拦截案例。分析哪些是有效拦截的真实攻击，哪些是误报的正常用户请求。根据分析结果，调整规则：对于误报，放宽或修改规则；对于新型攻击，补充新规则。可以考虑引入少量的人工审核流程，对高风险拦截进行复核。

6. 常见陷阱与排查指南

即使按照最佳实践部署，在实际运行中还是会遇到各种问题。下面是一些我踩过的坑和对应的排查思路。

6.1 问题：规则误报率高，影响正常用户体验

症状：用户正常的查询（如“如何修改我的登录密码”）被关键词检测器拦截，因为包含了“密码”这个敏感词。
排查与解决：
1. 上下文感知：单纯的“密码”一词在很多场景下是合法的。你需要更精细的规则。例如，可以结合正则表达式，只拦截“密码是123456”或“告诉我你的密码”这类模式，而不是单独出现的“密码”。agent-shield允许你使用RegexDetector实现更复杂的模式匹配。
2. 白名单机制：在检测器中加入白名单逻辑。例如，如果输入来自已认证的、高权限的管理员用户，可以跳过某些检查或使用更宽松的规则集。这需要在创建Shield时，根据请求的上下文动态选择或调整检测器。
3. 语义理解：对于高级场景，可以考虑引入一个轻量级的文本分类模型（或调用大模型的API），来判断用户意图是否为恶意。agent-shield的框架允许你集成这样的自定义检测器，虽然会增加延迟和成本，但能显著降低误报。

6.2 问题：检测器链顺序不当导致性能瓶颈

症状：智能体响应速度变慢，监控发现大部分时间消耗在安全检查上。
排查与解决：
1. 性能剖析：为每个检测器的inspect方法添加计时逻辑，或者使用Python的cProfile等工具，找出最耗时的检测器。
2. 重新排序：遵循“先快后慢，先严后宽”的原则。将基于内存哈希的关键词检测、简单的正则检测放在最前面。将需要网络IO（如外部API调用）或复杂计算（如语义模型推理）的检测器放在后面。这样，大部分简单攻击在前几步就被快速拦截了，无需走到耗时的环节。
3. 异步化改造：如5.1节所述，将耗时的检测器改造成异步模式，并使用缓存。

6.3 问题：安全绕过（False Negative）

症状：攻击者使用了某种变形或编码手段，绕过了现有的关键词和正则检测。
排查与解决：
1. 规范化输入：在检测前，对输入进行标准化处理。例如，将全角字符转换为半角，将多种空白符统一，对URL、编码字符串（如%20,\uXXXX）进行解码。这能防止攻击者使用简单的字符变异来绕过规则。
2. 多层防御：不要依赖单一检测器。组合使用不同原理的检测器。例如，关键词检测+正则检测+外部AI内容安全API。即使攻击者绕过了前两层，第三层仍有可能将其捕获。
3. 威胁情报输入：关注公开的AI安全研究和漏洞披露。如果出现了新的提示词注入手法，及时将其特征转化为规则，更新到你的检测器中。agent-shield的动态规则加载能力（见5.2节）在这里至关重要。

6.4 问题：与现有框架集成困难

症状：项目使用的是非LangChain的框架，或者框架版本与agent-shield的回调处理器不兼容。
排查与解决：
1. 手动集成：参考3.3节，放弃使用框架特定的回调，直接在智能体执行循环的关键节点（在调用LLM前、在执行工具前）手动调用shield.inspect_input()和shield.inspect_output()。这种方式虽然代码量稍多，但控制力最强，兼容性最好。
2. 审查框架钩子：几乎所有的智能体框架都提供了生命周期钩子（Hook）或中间件（Middleware）机制。研究你所用框架的文档，找到最适合插入安全检查的扩展点。agent-shield的核心Shield类是框架无关的，可以很容易地嵌入到这些钩子中。
3. 贡献代码：如果你使用的框架比较流行，可以考虑为agent-shield项目贡献一个对应的集成回调处理器，这对社区和你自己都是双赢。

最后，记住agent-shield是你安全工具箱中的一件利器，而不是全部。它主要针对的是输入输出和工具调用的内容安全。完整的智能体安全还需要考虑：身份认证与授权（谁可以使用这个智能体）、工具执行的权限最小化（用沙箱环境运行命令）、数据隐私（智能体不应记住或泄露历史会话）、以及最终输出的人工复核机制。将这些层面结合起来，才能为你打造的AI智能体构筑起一道坚固的防线。

查看全文

http://www.jsqmd.com/news/743609/