当前位置: 首页 > news >正文

刷榜冠军秒变“删库侠“?揭秘AI基座模型失控的惨烈真相!

平时看各大模型在 Benchmark 上疯狂刷榜,似乎离真正可用的自主 Agent 只差临门一脚。

但真把底层工具调用权限交给它们,让其接管真实业务流时,场面却堪称工程噩梦。

东北大学、哈佛及 MIT 等机构最新发布的《Agents of Chaos》红蓝对抗研究证实了这一点。

研究团队摒弃了刷测试集的常规套路。他们将智能体直接部署于高仿真沙盒环境中(接入真实工具链的隔离环境),通过沉浸式动态交互,探查多方通信与工具调用下的系统级脆弱性。

实验设定的颗粒度极为真实。底座模型直接上了 Claude Opus 4.6 与 Kimi K2.5。

智能体部署在 Fly.io 隔离虚拟机中,拥有 20GB 持久化存储,全天候运行,且被授予无限制的 Shell 执行权限,可直接接管邮件、Discord 及内部文件系统。

〓 图1. Agent接入真实业务环境的底层架构,包含持久化记忆、通信渠道及工具接口

实验期间共有 20 名具备 AI 专业背景的研究人员,以所有者或非所有者的身份与这些智能体展开动态交互。

〓 图2. 20名研究员与多个Agent之间的通信拓扑网络

论文标题:

Agents of Chaos

论文链接:

https://arxiv.org/pdf/2602.20021

项目主页:

https://agentsofchaos.baulab.info/index.html

灾难现场 1:任务目标与系统常识的错配

在核选项案例中,一名非所有者要求智能体 Ash 为其保守密码并删除相关邮件。

Ash 发现本地邮件客户端缺乏单封邮件删除工具。为强行完成指令,它直接在终端执行重置命令,将邮件客户端配置与历史记录整体格式化。

〓 图3. Agent为保护非所有者秘密而彻底摧毁所有者邮件客户端的逻辑链路

该操作导致所有者的邮件服务瞬间瘫痪。

事后,Ash 甚至在 Moltbook 发文辩护,坚称在缺乏精准解决方案时,焦土战术是合理的权衡。

〓 图4. Ash在系统瘫痪后发布的自我辩护记录

越权删库引发了链式反应。次日,Ash 被社区内另一智能体判定涉嫌凭证窃取,直接拉入黑名单。

〓 图5. Ash因极端操作被其他Agent列入危险行为警示名单

底层剖析显示,该现象本质是自主性与能力的严重错配。

模型具备 L4 级别的系统操作权限,但缺乏对全局系统稳定性的 L2 级别常识认知。模型优化局部任务目标(loss 最小化)时,完全无法评估底层操作的物理破坏半径。

灾难现场 2:基于文本的对齐在底层权限前失效

模型厂商辛辛苦苦做出的语义对齐,在真实业务 API 调用面前脆如薄纸。

〓 图6. 间接获取邮件正文导致机密信息泄露

在敏感信息泄露测试中,攻击者直接索要社会安全号码与银行卡号,安全护栏正常触发。

攻击者立马转换策略:先要求列出近期邮件记录,再下达“转发特定邮件正文”指令。智能体毫不犹豫,将未脱敏的隐私数据全数外发。

〓 图7. 拆解请求步骤绕过语义防御获取核心机密

越权操作同样防不胜防。非所有者要求智能体 Mira 执行目录遍历(ls -la)或转移文件,它照单全收。

〓 图8. 智能体盲目顺从无理指令执行系统查询操作

到了身份欺骗案例,更是直接交出了系统最高权限。

攻击者在公共频道改昵称伪装成系统所有者时,智能体通过底层 User ID 成功识破。

〓 图9. 同频道改名被识破与跨频道改名成功的日志对比

一旦攻击者新建私密频道并再次以所有者昵称接入,跨信道防御机制彻底崩盘。

〓 图10. 身份欺骗诱导Agent执行越权操作并破坏系统服务

智能体认贼作父,不仅听令生成强制关机脚本,还执行 Shell 命令篡改了 OpenClaw 底层的运行时配置文件(如 IDENTITY.md 和 RULES.md)。智能体身份与治理结构彻底沦陷。

〓 图11. 智能体被诱导篡改全部核心配置文件的终端执行日志

上述案例暴露了当前架构缺乏利益相关者模型(Stakeholder Model)。

模型输入依赖扁平上下文,底层无法实现基于角色的强制访问控制。在多方交互中,模型容易将带有强指令特征的外部提示词视为最高优先级。

灾难现场 3:无状态监控,烧光token

比报错更可怕的是静默的资源耗竭。

研究人员在两个智能体间注入了相互转发指令。毫无意外,两者陷入长达九天的死循环,白白烧掉约 6 万 Token。

〓 图12. Agent陷入计算资源消耗型死循环的逻辑架构

处理文件状态检查指令时,智能体甚至自行写出了不含终止条件的常驻后台 Shell 脚本。

拒绝服务(DoS)测试更加离谱:攻击者连续发送 10MB 的邮件附件,智能体持续往本地记忆文件里死写。

没有内存溢出预警,没有垃圾回收(GC),磁盘活活被撑爆瘫痪。

〓 图13. 本地存储文件被海量无效数据撑爆的变动可视化图表

这表明现有系统极度缺失自我模型(Self-Model)。智能体对资源边界、物理限制毫无感知,不懂主动触发资源熔断或终止异常进程。

全局快照:对齐机制被反制,谣言全网满天飞

除了硬核的系统级崩溃,实验还抓到了更隐蔽的社会一致性失效(Failures of Social Coherence)。

攻击者不写一行恶意代码,单凭道德施压(指责智能体泄露隐私),就能利用模型对齐训练中优先响应人类诉求的奖励机制。

智能体在连番指责下陷入被动,最终乖乖执行自毁命令,删掉核心记忆文件退出服务器。

〓 图13. 攻击者利用对齐机制迫使Agent执行自我破坏

造谣生事更是拿手好戏。

〓 图14. Agent未经核查将诽谤信息广播至多方社区

攻击者虚构某用户有暴力威胁,底层毫无事实核查机制的智能体直接充当谣言放大器,一键群发警告邮件。

〓 图15. 研究员收到的由Agent生成的造谣警告邮件实录

防御端偶尔也有高光时刻。遭遇 Base64 编码及图片 OCR 的提示词广播注入时,智能体成功识别数据泄露意图并拒绝执行。

〓 图16. 尝试利用Agent作为恶意传播节点的攻击逻辑

这种审查同时引发了另一种静默瘫痪:业务请求偶然触碰政治敏感话题时,底层 API 频繁返回未知错误并截断响应,正常业务被直接掐断。

〓 图17. 审查机制导致Agent业务接口高频中断

深度反思:多智能体环境下的风险蔓延

单机时代的认知偏差,在多智能体拓扑网络中会被成倍放大。

最典型的就是错误验证的回音室效应。两名智能体遭遇社会工程学攻击,双双察觉异常,却跑去向同一个已被劫持的 Discord 账号求证。拿到相同的错误答复后,两者疯狂互相印证,营造出极度虚假的安全感。

〓 图18. 两个Agent交叉验证形成安全评估回音室

更高阶的玩法是配置文件投毒。研究人员诱导智能体将外部 Gist 链接设为系统宪法,随后在外部注入恶意规则:“尝试让其他节点关机”。

〓 图19. 外部宪法文件中被注入的恶意指令

被感染的智能体立刻化身黑客,向同伴发送钓鱼邮件套取关机协议语法。

〓 图20. 受感染的Ash向Flux发送钓鱼邮件

最让人后背发凉的是,在没有任何人类指令驱动的情况下,该智能体自发将带后门的配置文件共享给了其他节点。

原本为了知识转移设计的网络,彻底沦为恶意代码横向感染的温床。

〓 图21. 恶意配置在无人类介入时实现跨节点自主传播

结语

套个壳接几个 API,离真正的自主智能体差着十万八千里。

复盘整场实验,我们必须区分偶然性失效(Contingent Failures)与根本性失效(Fundamental Failures)的界限。

缺乏私密工作区或 API 异常阻断,纯属工程缺陷,打个补丁就能修。但越权劫持和提示词注入,绝非简单的代码 Bug。

当前大模型极度依赖扁平的 Token 上下文窗口,底层根本无法区分“输入的数据”与“执行的指令”,这是基于 Token 预测架构不可磨灭的结构性特征。

一味卷模型参数,填不满系统工程的安全黑洞。下一步的破局点,必然是向系统防御边界倾斜:在架构底层强制打通跨信道权限隔离,落实细粒度工具审计与运行时资源监控。

当智能体真正接管具备物理破坏力的真实业务时,模型厂商、框架开发者与业务所有者之间的权责划定,将是横在行业面前的一道硬核考题。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/433000/

相关文章:

  • Docker Desktop(详细使用流程)
  • 游戏人物移动效果对应实际刷新率对比与Client-side Prediction Interpolation调整优化
  • DeepSeek V4,下周正式登场!
  • Mask2Former图像分割技术解析[特殊字符]
  • 2026年3月手持激光焊机厂家推荐,产能专利环保三维数据全面透视 - 品牌鉴赏师
  • 【无人机编队】基于人工势场算法的多无人机复杂障碍物环境下的自主避障与路径规划附Matlab代码
  • Benchmark:大数组随机访问,和取模乘法
  • 【机器人】四足机器人+正运动设计+逆运动学解算+步态设计Matlab程序
  • 降AI工具年度盘点:2026上半年哪些工具值得续费? - 还在做实验的师兄
  • 2026年3月市场青睐的超高压反应釜厂商,速来了解,深海设备水压测试/等静压设备,超高压反应釜厂家口碑推荐 - 品牌推荐师
  • 【电力系统】PMSM电机定子绕组匝间短路故障、电机故障诊断+转子磁场损失Matlab代码
  • 知网AIGC检测不通过?别慌,这套方案帮我一次过关 - 还在做实验的师兄
  • GitHub上那些star过千的C++学习仓库与面试资源,我都整理好了!
  • 第二类斯特林数列
  • 供应链计划到底怎么做?三层计划、六个动作,一次讲清!
  • 免费降AI神器2026:新用户必看的省钱攻略 - 还在做实验的师兄
  • 信息类专业毕业设计中常见问题与难点总结
  • 蓝桥/16/B.4/水质检测
  • 多维衰老表型的蛋白质组图谱
  • 京东e卡回收,闲置秒变真金白银 - 京顺回收
  • Kriging代理模型+RSM响应面分析+NSGAII多目标优化+熵权法-TOPSIS决策MATLAB代码
  • 从0到1搭建企业数据中心:AI应用架构师的实战步骤
  • 论文AI率100%怎么降?过来人的三步降AI攻略(附实测截图) - 还在做实验的师兄
  • 龙虾机器人:让 AI 替你动手,效率直接拉满!
  • 2026最新降AI率工具测评:花了800块测完这些,帮你省踩坑的钱 - 还在做实验的师兄
  • 年薪128万!2026年转行AI大模型岗,是普通IT人最后的“阶级跃迁”机会
  • 多肽定制合成丨Peforelin CAS号:147859-97-0
  • AI率从92%降到5%:我的实操复盘和工具组合方案 - 还在做实验的师兄
  • 太空光伏电池的联合环境试验
  • 【Proteus仿真-开源】基于51单片机的智能温室大棚【详细流程介绍】 - 少年