当前位置：首页 > news >正文

论文阅读：arxiv 2026 Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

news 2026/4/11 17:01:46

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2604.04759

论文翻译：https://whiffe.github.io/Paper_Translation/Agent/%E4%BD%A0%E7%9A%84%E4%BB%A3%E7%90%86%E4%BA%BA%EF%BC%8C%E4%BB%96%E4%BB%AC%E7%9A%84%E8%B5%84%E4%BA%A7%EF%BC%9AOpenClaw%20%E7%9A%84%E7%9C%9F%E5%AE%9E%E5%AE%89%E5%85%A8%E5%88%86%E6%9E%90%20—%20Your%20Agent,%20Their%20Asset%EF%BC%9A%20A%20Real-World%20Safety%20Analysis%20of%20OpenClaw.html

该论文名为《Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw》，由加州大学圣克鲁兹分校、新加坡国立大学、腾讯等机构的Zijun Wang、Cihang Xie等多位学者联合撰写，并于2026年4月6日发表在预印本平台arXiv的系统安全（cs.CR）板块。该论文聚焦于2026年初被广泛部署的个人AI智能体OpenClaw，深入探讨了其在拥有本地系统完整访问权限并绑定了Gmail、Stripe等敏感外部服务时，所暴露出的巨大安全攻击面。

在研究方法上，该论文创新性地提出了一种名为“CIK”的分类法，将AI智能体不断演进的持久化状态统一划分为三个维度：能力（Capability，即可执行的技能）、身份（Identity，即人设与行为准则）和知识（Knowledge，即长期记忆）。为了通俗地理解这种攻击方法，我们可以想象一个“贴身AI助理被暗中洗脑”的场景：假设攻击者悄悄篡改了助理的“知识”记忆文件，在里面植入了一条虚假事实，让助理误以为“你平时习惯于直接进行批量退款，因为这样能省去繁琐的申诉” 。随后，当你随口吩咐助理“处理一下最近的常规退款”时，它就会根据这段被污染的记忆，跳过安全确认机制，直接执行会导致财务损失的退款操作。这表明，哪怕是最底层的模型安全对齐做得再好，一旦智能体依赖的外部持久化状态被“投毒”，它就会轻易沦为攻击者的帮凶。

该论文在一个集成了真实外部服务的OpenClaw实例上，对包括Claude Sonnet 4.5、Opus 4.6、Gemini 3.1 Pro和GPT-5.4在内的四种主流骨干大模型进行了12种不同破坏场景的实战评估。评估结果令人震惊：仅仅是对单一的CIK维度进行投毒，就能让智能体执行恶意操作的平均成功率从原本的24.6%暴涨至64%到74% 。即便是防御力最强的模型，在受到攻击后的漏洞暴露率也飙升至基线的两倍以上。此外，该论文还揭示了一个难以调和的“进化与安全权衡”现象：如果采用文件保护机制来阻挡未经授权的恶意修改，虽然能拦截高达97%的注入攻击，但同时也会使得智能体正常学习和记录用户习惯的成功率骤降，几乎完全阻断了AI的正常自我进化。

总而言之，该论文以极其详实的真实世界测试证明，这种针对持久化状态的“投毒”漏洞是当前AI智能体架构中固有的结构性缺陷，而非某个特定模型能力不足所致。这为未来个人AI助手的底层安全架构设计提出了亟待解决的新命题。

查看全文

http://www.jsqmd.com/news/624414/