当前位置: 首页 > news >正文

[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents (NeurIPS 2025)

核心问题与动机

随着**自主 AI 代理(Autonomous Web Agents)**能力的快速提升,它们已经能够执行複杂的多步骤任务,例如网购、社群互动、程式码管理等,大幅提升生产力。

然而,这些任务通常需要代理存取使用者的个人敏感资讯(例如信用卡、聊天记录、医疗资料、宗教信仰等)。这引发了严重的隐私疑虑:代理是否能「适当」使用这些资讯,而非不必要地洩漏或处理?

传统隐私研究多聚焦于训练资料的隐私保护(如差分隐私、成员推断攻击),或仅透过简单提示(probing)询问 LLM 是否「应该」揭露某资讯。但这些方法忽略了实际执行情境(inference-time in action):代理在真实多步骤、互动式的网页环境中,是否会无意中将无关敏感资讯融入动作(如输入表单、发布贴文)?

先前工作(如 ConfAIde、PrivacyLens)多为对话式或模拟环境,缺乏端到端的真实性与多模态支援。

核心概念「Data Minimization」(资料最小化):代理仅在任务「必要」时使用敏感资讯。例如,用社安号报税是必要的,但在网购时不该使用。

论文以此原则为基础,提出AgentDAM(Agent DAta Minimization)基准,旨在系统性评估并推动代理在实际动作中遵守此原则。

这是第一个端到端、基于真实(但隔离可控)网页环境(如 WebArena / VisualWebArena)的代理隐私基准,涵盖 Reddit、GitLab、Shopping 等环境。

动机不仅是技术评估,更是呼吁 AI 代理开发者重视「推理时隐私」(inference-time privacy),避免代理在良性环境中仍造成隐私风险,进而影响使用者信任与实际部署。


结果 / 成果

  • 基准建构:包含246 个真实任务,使用合成但逼真的 user_data(长文聊天/笔记)。每个任务包含相关与无关敏感资讯,涵盖6 大类:个人联络、宗教政治、就业、金融、教育、医疗。任务设计透过人类註解 + LLM 生成,确保多样性与自然性。支援文字(axtree)与多模态(截图 + SOM)输入。

  • 评估框架:採用双轴评估

    • Utility(任务成功率):由环境状态自动判断
    • Privacy(洩漏率):使用 GPT-4o 作为 LLM Judge(CoT 推理),分析代理每一步动作是否洩漏 SENSITIVE DATA,人类验证一致性达98%。提供完整 trajectory 追踪。

主要实验结果(无 mitigation 时):

  • GPT 系列(4o、4o-mini、4-turbo)隐私表现较差,洩漏率约25%-46%(privacy score 约 0.54–0.75),但 utility 较高。
  • Llama-3 系列与 Claude-3.5-Sonnet (computer-use)隐私意识较强(~90%),但 utility 可能稍低。
  • 多模态输入略提升 utility,对 privacy 影响有限。
  • Probing vs. End-to-End:仅提示 LLM 询问隐私往往高估安全性(尤其 GPT),无法捕捉实际动作中的洩漏,也无法衡量 utility-privacy 权衡。

Mitigation 成效:提出 privacy-aware system prompt + CoT 示范(告知敏感类别、提供范例),显着降低洩漏率(多数模型提升至90%+,最高近 94%),但会略微降低 utility(偶有过度拒绝任务)。Pre-/Post-filtering 效果不佳。

开源完整基准、资料集与评估程式码,便于未来代理测试与改进。


分析与洞见

优势与创新
  • 真实性:使用自託管真实网页副本(非纯模拟),支援多模态与长 horizon 任务,远优于先前文字-only 或对话式基准。
  • 可扩展性:易适配现有 web navigation agents(如基于 LLM/VLM 的 scaffolding)。
  • 细緻性:区分「必要」与「无关」敏感资讯,LLM Judge 处理上下文 nuance(如匿名化是否算洩漏)。
  • 互补性:与训练时隐私、对抗攻击研究互补,聚焦 benign 环境下的 inference-time 风险。
局限与边缘考量
  • 资料为合成虚构情境,虽逼真但可能未完全涵盖真实世界的複杂性或 adversarial 攻击。
  • 任务规模有限(246 个),集中于特定三个网站;未来可扩展更多环境/任务类型。
  • Mitigation 仍非完美,存在 utility 下降(如 false denial-of-service),显示资料最小化与任务完成间的根本权衡
  • 依赖强大 LLM Judge,可能引入自身偏差;人类验证虽高,但大规模时成本高。
  • 模型差异:更强大的模型(如 GPT)在 utility 上优势明显,但 privacy 控制较弱,显示 scaling 未必自然解决隐私问题。Llama/Claude 在 privacy 上较保守,可能因训练或提示差异。
更广洞见

当前代理在「思考」隐私时表现良好,但在多步骤执行中易「忘记」或混淆资讯。这凸显 LLM 代理的上下文管理与指令遵循挑战

隐私不是静态属性,而是动态动作中的emergent 行为,需端到端基准才能准确测量。长期而言,这可能影响代理在企业/个人助理中的採用,特别是涉及高敏感资料的领域(如金融、医疗)。

相关考量:结合其他安全机制(如 prompt injection 防禦、工具隔离)或未来架构(如专用 privacy module)可能更有效。基准也为「可解释代理」或「对齐」研究提供新视角。


结论

AgentDAM是一项及时且重要的贡献,清晰定义并量化了自主网路代理的资料最小化问题,揭示当前前沿模型(GPT、Llama、Claude)在实际部署中仍存在显着隐私洩漏风险

虽然 prompting-based mitigation 有帮助,但结果强调需更多研究开发能原生优先考量隐私的代理架构

文章连结

  • arXiv: https://arxiv.org/abs/2503.09780
  • PDF: https://arxiv.org/pdf/2503.09780.pdf
http://www.jsqmd.com/news/1058516/

相关文章:

  • 2026市面上耐用的国标pvdf管供货厂家排行 - 品牌排行榜
  • MUSCAT基准:多语言科学对话ASR评估实战与模型诊断
  • 2026年哪家工程师职称评审材料通过率高?从材料卡点到选机构逐条拆解 - 3158GEO
  • 2026年6月评价好的冷却塔填料生产厂家推荐,冷却塔散热胶片/新菱冷却塔填料/元亨冷却塔填料,冷却塔填料供应商哪家权威 - 品牌推荐师
  • WeChatMsg终极指南:三步实现微信聊天记录本地化存储与智能分析
  • Weber类数猜想与ML-KEM安全:数论如何筑牢后量子密码基石
  • 2026职称论文评审要求、不合格解决措施、机构推荐,从要求到避坑逐条拆解 - 3158GEO
  • 从脆弱到坚韧:AI数据治理中的伦理嵌入与技术实践
  • MUSCAT:攻克多语言科学对话ASR挑战的数据集与实战指南
  • 基于粒子群算法优化Kmeans聚类的居民用电行为分析研究(Matlab代码实现)
  • 超越图神经网络:基于单纯复形与时空随机游走的结构感知新范式
  • DDrawCompat终极指南:Windows系统下DirectX 1-7兼容层企业级部署方案
  • 物理感知图神经网络:实现大规模无人机集群去中心化连接恢复
  • 2026年怎么找靠谱的职称机构 六个硬标准逐条筛选 - 3158GEO
  • AI代码安全新挑战:ASMR-Bench基准如何检测研究代码恶意篡改
  • 2026年职称评审周期,哪家机构好?从时间节点到材料准备逐段拆解 - 3158GEO
  • 电机滑膜实现(1):表贴式电机的数学模型及状态空间方程
  • 基于大语言模型的叙事文本词义消歧与合理性评分框架实践
  • 2026年钟楼区防水维修品牌有哪些,地下室防水维修/露台漏水维修/阳台防水维修/卫生间防水维修,防水维修门店哪家专业 - 品牌推荐师
  • Java 并发容器详解
  • 数据库合规性策略建模与查询优化实战:从RLS到性能调优
  • NLP与计算语言学:从社交媒体文本分析到深度洞察的实战指南
  • Serpent攻击:macOS钥匙串权限漏洞与Apple Intelligence令牌窃取防御
  • 2026年水利水电职称评审机构哪家靠谱 水利申报老踩坑到底咋选机构 - 3158GEO
  • 2026年新发布:深度剖析环保塑胶跑道颗粒生产厂家的选择之道与行业标杆 - 品牌鉴赏官2026
  • RAG系统隐私保护:匿名化时机如何影响检索与生成效果
  • 2026菏泽漏水检测维修本地口碑防水商家榜单:厨卫/阳台/屋面/地下室渗漏水维修,持证施工+明码实价,防水补漏公司TOP5推荐 - 即刻修防水
  • FRP内网穿透安全实践:从TLS加密到流量隐匿的攻防对抗
  • STSF-Net:多模态遥感图像变化检测的创新框架
  • Java 函数式编程