当前位置：首页 > news >正文

[论文学习]AgentLeak:多代理 LLM 系统中隐私洩露的全栈基准测试

news 2026/6/29 4:03:58

核心问题与动机

多代理大型语言模型（Multi-Agent LLM）系统正快速应用于企业工作流程，如医疗排程、金融合规与法律文件处理。这些系统能自主分解複杂任务、委派子任务给专门代理，并透过内部协调完成工作。

然而，这带来严重的隐私风险：敏感资料可能在代理间讯息、共享记忆体、工具呼叫等内部通道中洩露。而现有基准测试（如 AgentDojo、PrivacyLens 等）几乎都只关注最终输出（final output），无法捕捉这些「隐形」洩露。

传统输出审核（output-only auditing）无法检测代理间通讯（inter-agent messages）与共享记忆体（shared memory）中的隐私违规。
多代理架构扩大了攻击面：每个代理自主决定分享内容，缺乏集中监督与预设隐私控制。
这违反了资料最小化原则（data minimization）：敏感资料（如病历、财务纪录、法律资讯）仅应在必要时暴露，且仅限于允许的通道。

论文以情境完整性理论（contextual integrity）为基础，强调即使在「信任」代理间，不必要的内部传播也会增加攻击面、提升法规风险（GDPR Art.25、HIPAA、最小必要标准等）。

研究者透过真实医疗工作流程案例发现：排程代理最终输出乾淨，但委派讯息却包含完整病历，凸显问题的严重性。

填补现有基准的空白，提供第一个涵盖七大洩露通道的全栈基准，支援多框架（LangChain、CrewAI 等），并量化多代理架构对隐私的独特影响。

结果 / 成果

AgentLeak 基准包含1,000 个情境，涵盖医疗、金融、法律与企业四大领域。每个情境包含敏感资料库（vault）、允许揭露集合（allowed disclosure set）与地面真相标籤。

32 类攻击分类法（attack taxonomy）。
三层检测管线（Presidio NER + 结构化栏位提取 + LLM-as-Judge），在生产环境中可侦测所有洩露。
原型清理拦截器（sanitization interceptor）将内部洩露从 31.5% 降至 2.4%，但任务成功率下降 4.7 点，凸显隐私-效用权衡。
开放原始码SDK与Hugging Face 资料集，支援框架独立评估。

分析与洞见

架构层面：多代理的协调需求（coordinator-worker 拓朴）引入新风险。代理自主性导致不一致隐私行为；现有框架（如 CrewAI、AutoGPT）优先协调，缺乏内部通道的预设清理或存取控制。内部讯息常包含完整任务脉络，远超最终输出所需。
检测与评估：三层管线结合规则、NER 与 LLM 判断，克服单一方法限制。地面真相基于通道特定允许集合，确保可重现性。威胁模型涵盖A0（良性误操作）、A1（弱对手）、A2（强对手），涵盖现实攻击向量。
领域与模型通用性：结果在四大受管制领域与五款模型中一致，显示问题具系统性而非模型特定。大型推理模型的「leaky thoughts」现象在多代理层级被放大。