[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents (NeurIPS 2025)
核心问题与动机
随着**自主 AI 代理(Autonomous Web Agents)**能力的快速提升,它们已经能够执行複杂的多步骤任务,例如网购、社群互动、程式码管理等,大幅提升生产力。
然而,这些任务通常需要代理存取使用者的个人敏感资讯(例如信用卡、聊天记录、医疗资料、宗教信仰等)。这引发了严重的隐私疑虑:代理是否能「适当」使用这些资讯,而非不必要地洩漏或处理?
传统隐私研究多聚焦于训练资料的隐私保护(如差分隐私、成员推断攻击),或仅透过简单提示(probing)询问 LLM 是否「应该」揭露某资讯。但这些方法忽略了实际执行情境(inference-time in action):代理在真实多步骤、互动式的网页环境中,是否会无意中将无关敏感资讯融入动作(如输入表单、发布贴文)?
先前工作(如 ConfAIde、PrivacyLens)多为对话式或模拟环境,缺乏端到端的真实性与多模态支援。
核心概念「Data Minimization」(资料最小化):代理仅在任务「必要」时使用敏感资讯。例如,用社安号报税是必要的,但在网购时不该使用。
论文以此原则为基础,提出AgentDAM(Agent DAta Minimization)基准,旨在系统性评估并推动代理在实际动作中遵守此原则。
这是第一个端到端、基于真实(但隔离可控)网页环境(如 WebArena / VisualWebArena)的代理隐私基准,涵盖 Reddit、GitLab、Shopping 等环境。
动机不仅是技术评估,更是呼吁 AI 代理开发者重视「推理时隐私」(inference-time privacy),避免代理在良性环境中仍造成隐私风险,进而影响使用者信任与实际部署。
结果 / 成果
基准建构:包含246 个真实任务,使用合成但逼真的 user_data(长文聊天/笔记)。每个任务包含相关与无关敏感资讯,涵盖6 大类:个人联络、宗教政治、就业、金融、教育、医疗。任务设计透过人类註解 + LLM 生成,确保多样性与自然性。支援文字(axtree)与多模态(截图 + SOM)输入。
评估框架:採用双轴评估
- Utility(任务成功率):由环境状态自动判断
- Privacy(洩漏率):使用 GPT-4o 作为 LLM Judge(CoT 推理),分析代理每一步动作是否洩漏 SENSITIVE DATA,人类验证一致性达98%。提供完整 trajectory 追踪。
主要实验结果(无 mitigation 时):
- GPT 系列(4o、4o-mini、4-turbo)隐私表现较差,洩漏率约25%-46%(privacy score 约 0.54–0.75),但 utility 较高。
- Llama-3 系列与 Claude-3.5-Sonnet (computer-use)隐私意识较强(~90%),但 utility 可能稍低。
- 多模态输入略提升 utility,对 privacy 影响有限。
- Probing vs. End-to-End:仅提示 LLM 询问隐私往往高估安全性(尤其 GPT),无法捕捉实际动作中的洩漏,也无法衡量 utility-privacy 权衡。
Mitigation 成效:提出 privacy-aware system prompt + CoT 示范(告知敏感类别、提供范例),显着降低洩漏率(多数模型提升至90%+,最高近 94%),但会略微降低 utility(偶有过度拒绝任务)。Pre-/Post-filtering 效果不佳。
开源完整基准、资料集与评估程式码,便于未来代理测试与改进。
分析与洞见
优势与创新
- 真实性:使用自託管真实网页副本(非纯模拟),支援多模态与长 horizon 任务,远优于先前文字-only 或对话式基准。
- 可扩展性:易适配现有 web navigation agents(如基于 LLM/VLM 的 scaffolding)。
- 细緻性:区分「必要」与「无关」敏感资讯,LLM Judge 处理上下文 nuance(如匿名化是否算洩漏)。
- 互补性:与训练时隐私、对抗攻击研究互补,聚焦 benign 环境下的 inference-time 风险。
局限与边缘考量
- 资料为合成虚构情境,虽逼真但可能未完全涵盖真实世界的複杂性或 adversarial 攻击。
- 任务规模有限(246 个),集中于特定三个网站;未来可扩展更多环境/任务类型。
- Mitigation 仍非完美,存在 utility 下降(如 false denial-of-service),显示资料最小化与任务完成间的根本权衡。
- 依赖强大 LLM Judge,可能引入自身偏差;人类验证虽高,但大规模时成本高。
- 模型差异:更强大的模型(如 GPT)在 utility 上优势明显,但 privacy 控制较弱,显示 scaling 未必自然解决隐私问题。Llama/Claude 在 privacy 上较保守,可能因训练或提示差异。
更广洞见
当前代理在「思考」隐私时表现良好,但在多步骤执行中易「忘记」或混淆资讯。这凸显 LLM 代理的上下文管理与指令遵循挑战。
隐私不是静态属性,而是动态动作中的emergent 行为,需端到端基准才能准确测量。长期而言,这可能影响代理在企业/个人助理中的採用,特别是涉及高敏感资料的领域(如金融、医疗)。
相关考量:结合其他安全机制(如 prompt injection 防禦、工具隔离)或未来架构(如专用 privacy module)可能更有效。基准也为「可解释代理」或「对齐」研究提供新视角。
结论
AgentDAM是一项及时且重要的贡献,清晰定义并量化了自主网路代理的资料最小化问题,揭示当前前沿模型(GPT、Llama、Claude)在实际部署中仍存在显着隐私洩漏风险。
虽然 prompting-based mitigation 有帮助,但结果强调需更多研究开发能原生优先考量隐私的代理架构。
文章连结:
- arXiv: https://arxiv.org/abs/2503.09780
- PDF: https://arxiv.org/pdf/2503.09780.pdf
