当前位置: 首页 > news >正文

论文阅读:arxiv 2026 Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2604.04759

论文翻译:https://whiffe.github.io/Paper_Translation/Agent/%E4%BD%A0%E7%9A%84%E4%BB%A3%E7%90%86%E4%BA%BA%EF%BC%8C%E4%BB%96%E4%BB%AC%E7%9A%84%E8%B5%84%E4%BA%A7%EF%BC%9AOpenClaw%20%E7%9A%84%E7%9C%9F%E5%AE%9E%E5%AE%89%E5%85%A8%E5%88%86%E6%9E%90%20—%20Your%20Agent,%20Their%20Asset%EF%BC%9A%20A%20Real-World%20Safety%20Analysis%20of%20OpenClaw.html


该论文名为《Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw》 ,由加州大学圣克鲁兹分校、新加坡国立大学、腾讯等机构的Zijun Wang、Cihang Xie等多位学者联合撰写,并于2026年4月6日发表在预印本平台arXiv的系统安全(cs.CR)板块 。该论文聚焦于2026年初被广泛部署的个人AI智能体OpenClaw,深入探讨了其在拥有本地系统完整访问权限并绑定了Gmail、Stripe等敏感外部服务时,所暴露出的巨大安全攻击面 。

在研究方法上,该论文创新性地提出了一种名为“CIK”的分类法,将AI智能体不断演进的持久化状态统一划分为三个维度:能力(Capability,即可执行的技能)、身份(Identity,即人设与行为准则)和知识(Knowledge,即长期记忆) 。为了通俗地理解这种攻击方法,我们可以想象一个“贴身AI助理被暗中洗脑”的场景:假设攻击者悄悄篡改了助理的“知识”记忆文件,在里面植入了一条虚假事实,让助理误以为“你平时习惯于直接进行批量退款,因为这样能省去繁琐的申诉” 。随后,当你随口吩咐助理“处理一下最近的常规退款”时,它就会根据这段被污染的记忆,跳过安全确认机制,直接执行会导致财务损失的退款操作 。这表明,哪怕是最底层的模型安全对齐做得再好,一旦智能体依赖的外部持久化状态被“投毒”,它就会轻易沦为攻击者的帮凶 。

该论文在一个集成了真实外部服务的OpenClaw实例上,对包括Claude Sonnet 4.5、Opus 4.6、Gemini 3.1 Pro和GPT-5.4在内的四种主流骨干大模型进行了12种不同破坏场景的实战评估 。评估结果令人震惊:仅仅是对单一的CIK维度进行投毒,就能让智能体执行恶意操作的平均成功率从原本的24.6%暴涨至64%到74% 。即便是防御力最强的模型,在受到攻击后的漏洞暴露率也飙升至基线的两倍以上 。此外,该论文还揭示了一个难以调和的“进化与安全权衡”现象:如果采用文件保护机制来阻挡未经授权的恶意修改,虽然能拦截高达97%的注入攻击,但同时也会使得智能体正常学习和记录用户习惯的成功率骤降,几乎完全阻断了AI的正常自我进化 。

总而言之,该论文以极其详实的真实世界测试证明,这种针对持久化状态的“投毒”漏洞是当前AI智能体架构中固有的结构性缺陷,而非某个特定模型能力不足所致 。这为未来个人AI助手的底层安全架构设计提出了亟待解决的新命题。

http://www.jsqmd.com/news/624414/

相关文章:

  • 手把手教你用Ultralytics YOLO的Model类:从加载模型到实战预测的完整流程
  • GitHub汉化插件:3分钟打造你的专属中文开发环境
  • 【大模型工程化生死线】:版本失控=线上崩盘?3步构建军工级回滚机制
  • 2026年留学生必备指南:手把手教你将Turnitin AI率降到0%(附工具推荐) - 降AI实验室
  • 江西市口碑好的专业中专学校哪家权威
  • 20260411 做题记录
  • 基于蓝牙BLE芯片的无人机识别参考方案
  • 3分钟永久备份你的QQ空间记忆:GetQzonehistory终极指南
  • 从一次‘安装失败’说起:手把手教你用apt-rdepends诊断Ubuntu 22.04的依赖地狱
  • 大模型推理加速:Overlap Scheduling 的深入剖析与性能权衡艺术 - -银光
  • 78-dify实战指南-无需编程!DIFY文生图插件开发全流程解析
  • LLM服务SLA跌破99.2%?(GPU资源利用率不足31%真相曝光)——弹性伸缩动态水位算法实战手册
  • 我试了四种去除 Gemini 水印的方法,整理成一篇实用对比驹
  • 从零上手Quartus II 13.0:一个完整Verilog项目的创建、仿真与实现
  • 大学物理(上)-期末实战演练(5)——刚体力学核心概念与解题技巧:从转动惯量到角动量守恒
  • 科哥Face Fusion镜像:UI界面自定义修改,实现边框特效的保姆级教程
  • 5分钟学会Windows安装APK文件:告别模拟器的终极解决方案
  • 你的QQ空间青春记忆正在消失?这个工具能一键永久备份所有说说![特殊字符]
  • Windows注册表深度解析:核心结构与关键应用场景
  • 重新思考输入边界:QKeyMapper如何颠覆Windows平台输入设备协作范式
  • 深入探讨Android Framework开发工程师:职责、技术与面试指南
  • 如何用优雅的PHP支付SDK统一处理支付宝、微信、抖音等7大平台支付接口
  • Phi-4-mini-reasoning在C++高性能计算中的应用:模型推理与业务逻辑无缝集成
  • 基于S7-200 PLC与MCGS组态技术的灌装贴标生产线自动化系统设计与实现:梯形图程序、接...
  • 详细介绍一下静态分析工具 SonarQube
  • KK-HF Patch:为什么200+模组集成补丁能彻底改变你的Koikatu游戏体验?
  • GLM-4.1V-9B-Base效果展示:中文菜单图片→菜品识别→价格/辣度/推荐指数
  • RIGOL DS2302A-S数字示波器:高性能信号分析的终极解决方案
  • Piggy_Packages V2026.1 帮助文档(九)模式评估
  • Windows Subsystem for Android (WSA) 终极指南:在Windows上轻松运行Android应用