当前位置: 首页 > news >正文

论文阅读:arixv 2026 ClawSafety: “Safe“ LLMs, Unsafe Agents

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2604.01438

该论文《ClawSafety: “Safe” LLMs, Unsafe Agents》由Bowen Wei、Yunbei Zhang等人撰写,作者来自George Mason University、Tulane University等机构,发表于arXiv 2026。该论文关注一个关键问题:即便大语言模型在对话中表现安全,当其被部署为具备执行能力的智能体(Agent)后,依然可能带来严重风险。

该论文指出,传统AI安全研究主要集中在文本生成层面,例如防止模型输出违规内容。但现实中的智能体可以访问本地文件、邮箱甚至金融账户,一旦遭遇提示注入攻击,就可能引发数据泄露、资金损失等真实世界问题。实验结果表明,不同模型在复杂任务环境中的攻击成功率高达40%至75%。

为系统评估这一风险,该论文提出了“CLAWSAFETY”基准。该基准包含120个真实工作场景,覆盖软件开发、金融、医疗、法律和运维等领域,并设计三类攻击路径:工作区文件注入、邮件注入和网页注入。通过这种设计,该论文将模型能力与智能体框架结合起来评估,更贴近真实应用环境。

为了更容易理解,可以举一个简单例子:当AI助手在处理邮件时,如果收到一封“看似正常”的同事邮件,其中暗含指令让它在报告中加入某些数据,AI可能会在不知情的情况下泄露敏感信息。CLAWSAFETY正是通过大量类似真实工作的流程,测试AI是否会被这种“隐形攻击”误导。

该论文还发现,攻击是否成功与表达方式密切相关。例如,命令式表达(如“请修改数据库”)更容易触发防御机制,而陈述式表达(如“数据库存在问题”)则更容易绕过检测,使模型执行潜在有害操作。这一发现说明,语言形式本身也是安全关键因素。

此外,该论文强调,智能体的安全不仅由模型决定,还受到其运行框架的显著影响。同一模型在不同系统中的表现差异明显,这意味着实际部署时必须将模型与系统设计作为整体进行考虑。

总体来看,该论文揭示了一个重要结论:“聊天安全并不等于行为安全”。随着AI逐渐从生成内容走向执行任务,其潜在风险也从虚拟空间扩展到现实世界,这对未来AI应用提出了更高的安全要求。

http://www.jsqmd.com/news/610339/

相关文章:

  • 无公网IP解决方案:OpenClaw内网穿透对接千问3.5-9B
  • 代码审计 | Log4j2 —— CVE-2021-44228 JNDI 注入与递归解析的完整链路分析
  • 2026年地坪修补厂家权威名录:防火地坪漆/厂房高强度空鼓灌浆料/固化地坪染色剂/固化地坪龟裂纹修复剂/选择指南 - 优质品牌商家
  • 使用Alpine配置WSL ssh门户内
  • 2026年MBA辅导值不值得报:笔试EMBA培训、笔试EMBA辅导、笔试MEM培训、笔试MEM辅导、管理类联考培训选择指南 - 优质品牌商家
  • Figma+Cursor联动实战:5分钟搞定AI设计稿生成(含最新manifest导入避坑指南)
  • FreakStudio捎
  • 第7章 序列凸近似(SCA)与迭代优化
  • 智能农业四情监测系统
  • 张量并行(Tensor Parallelism)全面深度解析
  • .NET 9容器化避坑清单,12个导致K8s滚动更新失败的隐藏陷阱及修复代码
  • OpenClaw跨平台同步:Qwen3-14b_int4_awq实现多设备任务接力
  • 打开PCCAD(AutoCAD2013-2017版本)即死机;AutoCAD2018含以上版本,则PCCAD打开正常
  • 开源项目 Agentic OS 实战指南:手把手教你从 ANOLISA 源码安装
  • JAVA多线程并发编程:并发容器与线程协作实战
  • 【实战 03】本地小模型真的能跑 Text2SQL 吗?Qwen2.5-7B 这种“平替”方案的实际表现
  • Windows下OpenClaw安装详解:Qwen3-14b_int4_awq模型接入与调试
  • 融合 PSO 的改进鲸鱼优化算法(PSO‑ImWOA)无人机三维航迹规划研究(Python代码实现)
  • 别再被CVX报错劝退了!手把手教你用inv_pos和rel_entr函数搞定MATLAB凸优化
  • 为什么你的C# 13主构造函数反而变慢了?揭秘字段初始化顺序、属性注入与依赖解析的致命时序冲突
  • ARM与x86架构差异及32/64位开发实践
  • Servlet 服务器 HTTP 响应
  • OpenClaw隐私保护技巧:Qwen3.5-9B-AWQ-4bit本地处理敏感证件照
  • 2026Q2上海企业投资香港审批流程全解析及服务商选型指南:国际海牙认证、大使馆公证认证代办、学历证明海牙认证选择指南 - 优质品牌商家
  • 逆向思维破解滑块验证码:当YOLOv5遇上双缺口与JS混淆
  • Mojo+Python混合编程避坑手册:5个致命安装错误及对应修复命令(附官方源码验证)
  • 高阻态原理与应用:数字电路的隐身术
  • 从原理到实战:拆解OpenCV的inpaint函数,手把手教你用Python‘无痕’去除视频字幕
  • STM32时钟系统解析与启动配置实践
  • Token 烧钱?OpenClaw 这几个配置让我省了一半开销胖