当前位置：首页 > news >正文

Mythos、OpenClaw、GLM-5.1 连续出现后，Agent 系统的测试边界开始重写

news 2026/4/14 10:52:25

导读
Anthropic 没有把 Mythos 直接面向公众开放，而是放进 Project Glasswing 做受限测试；OpenClaw 的最新研究把持久状态投毒攻击成功率推到了 64% 到 74%；GLM-5.1 开始强调长任务连续执行；Codex 的使用规模继续扩大；Google 则在推进 LiteRT-LM 这类端侧推理框架。

把这些信息放到同一个视角下看，变化其实很清楚：AI 系统正在从“调用一个模型”，转向“运行一套长期工作、带状态、会调用工具、会影响真实环境的工程系统”。对测试岗位来说，验证对象也在同步变化。

目录
为什么最近几条消息值得测试人放在一起看
Mythos 和 OpenClaw，暴露了 Agent 安全的新边界
Skill 变多，不代表 Agent 在真实环境里更稳
长任务 Agent 开始进入工程交付
端侧部署起来以后，测试环境也要跟着重做
测试岗位接下来要补的能力

为什么最近几条消息值得测试人放在一起看
很多人平时看 AI 行业信息，第一反应还是模型榜单、参数规模、价格变化和发布节奏。但最近连续出现的这些消息，更值得从工程视角理解。

它们共同指向的是同一个方向：AI 正在从“回答问题的模型”，变成“持续执行任务的系统”。一旦系统具备长期运行、状态记忆、工具调用、端侧部署这些特征，测试工作就不可能再停留在提示词验证、接口返回和页面检查上，而必须转向执行链路、权限边界、状态污染、环境一致性和结果可回放。

过去很多团队评估 AI，重点还是回答质量、推理能力、上下文长度和调用成本。现在越来越多产品开始强调长任务、持续运行、工具调用、状态管理、自动修复和本地部署。这意味着行业竞争的重心，正在从模型单点能力，转向系统级可交付能力。

这个变化，对测试和质量保障的影响，远比单纯的模型排名变化更大。

c836a78e-9ed6-4a07-91ab-b8d23585ef81

Mythos 和 OpenClaw，暴露了 Agent 安全的新边界
先看 Mythos。

Anthropic 这次没有直接把 Mythos 当成一次普通模型发布，而是放进了受限测试框架里。这本身就说明一个问题：这类模型的能力，已经不只是“会不会聊天”“会不会写代码”，而是开始触碰更高风险的安全边界。

对于测试行业来说，这个变化的关键，不在于“AI 更会找漏洞了”这么简单，而在于安全测试的参与者开始发生变化。过去漏洞分析、渗透验证、利用链构造，默认前提还是人工专家主导，工具做辅助。现在前沿模型已经在代码理解、漏洞定位、链路推演和利用生成上表现出越来越强的连续能力。未来的软件安全测试，不可能再把大模型仅仅当成问答工具，而是要把它放进红队验证、漏洞回归、安全门禁的正式流程里。

再看 OpenClaw 相关研究。

这项研究更值得测试人警惕的地方，在于它没有停留在提示词注入这种单轮问题上，而是把 Agent 的长期状态拆开来看。研究把个人 Agent 的持久状态拆成三个维度：Capability、Identity、Knowledge，也就是能力、身份、知识。结果显示，一旦其中某个维度被污染，攻击成功率会明显上升。

这个结论很重要。它说明 Agent 的安全问题，已经不是单轮对话里的输入输出问题，而是扩展到了记忆、身份、技能和权限的整套持久状态。换句话说，AI 系统的攻击面，正在从“当前会话”扩展到“长期状态 + 工具链 + 权限边界 + 自动执行”。

这也是为什么未来的测试设计，不能只做模型输出验证，而必须补上状态污染、跨会话触发、权限滥用和高风险操作回归。

0711d6f6-dba4-4324-8e62-b277ee3dcd19

Skill 变多，不代表 Agent 在真实环境里更稳
最近另一类很值得测试人关注的研究，是 Agent 在真实 skill 环境中的表现。

很多产品演示里，Agent 看起来都很顺：能自动选工具、能连续调用、能完成复杂任务。但一旦把它放进真实环境，问题就会开始出现。工具数量变多、能力说明不完整、上下文噪声增加、多个技能之间边界模糊，都会让 Agent 的实际表现明显下滑。

这背后反映出来的，不是模型“突然变差”，而是工程环境比演示环境复杂得多。模型在理想环境里能完成任务，不代表它在真实环境里也能稳定选对 skill、理解对说明、调用对顺序、处理对异常。

这对测试工作的启发非常直接。

以后测 Agent，不能只跑 happy path，也不能只验证“工具能不能调起来”。更关键的是看它在技能说明不清晰、工具很多、上下文干扰较大、执行链路较长的情况下，能不能稳定选对能力、用对工具、处理对异常、回到正确目标。

Agent 的不稳定，很多时候不是功能失效，而是路径选错。

这就要求测试开发在设计验证方案时，把关注点从“单点功能是否可用”，进一步推进到“复杂工具环境里的决策是否可靠”。

人工智能技术学习交流群
伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇

长任务 Agent 开始进入工程交付
GLM-5.1 这类模型更值得关注的地方，不只是一次普通更新，而是它把“长任务”明确写进了产品能力描述。

过去我们说“AI 写代码”，更多还是单轮生成、局部补全、函数级修复。现在模型开始被要求围绕一个目标持续工作更长时间，完成规划、执行、测试、修复、再交付的完整过程。这说明模型的角色正在变化：从生成器，逐步变成有限职责下的执行体。

这对工程团队意味着什么？

意味着未来越来越多 Agent，不是帮你回答一个问题，而是替你跑完一个过程。它可能会自己拆任务、自己调用工具、自己写入状态、自己反复迭代，最后再把结果交付出来。

这也意味着测试团队接下来要面对新的质量问题：

长任务执行过程中会不会目标漂移；中途多次调用工具后，状态是不是还一致；连续执行几个小时后，结果是否还能复现；自动修复看起来完成了，是否真的通过了验证；失败后有没有足够清晰的日志、轨迹和回放信息。

这些问题，本质上都不是传统功能测试能完全覆盖的，它们更接近系统测试、链路测试和运行时验证。

48851764-db62-4404-91dd-83c795b891fc

端侧部署起来以后，测试环境也要跟着重做
端侧推理框架这条线，同样值得测试团队重点关注。

以前大量 AI 能力都放在云端接口后面，测试重点主要是接口一致性、响应速度、结果正确性和服务稳定性。端侧运行之后，情况就完全不一样了。模型会真正落到设备上运行，设备型号、芯片类型、GPU 或 NPU 加速路径、内存压力、温度、功耗、离线状态，都会成为影响结果的变量。

这意味着测试环境会快速变复杂。

过去很多服务端问题可以通过统一回滚、统一配置解决。端侧之后，同一套能力可能在不同设备上表现完全不同。一个机型上稳定，换一个机型可能就出现卡顿、发热、速度下降甚至推理失败。以前很多通过 mock 绕开的场景，到了端侧以后都必须在真实设备上验证。

所以，端侧 AI 的测试不会只是“在手机上点一遍功能”这么简单，而会越来越接近兼容性测试、性能测试、系统测试的融合。要关注的不只是结果是否正确，还包括推理耗时、资源占用、稳定性、离线行为，以及端云协同时的一致性。

对于测试团队来说，端侧能力的推进，意味着验证对象已经从“服务接口”扩展到了“设备环境”。

测试岗位接下来要补的能力
把最近连续出现的这些信息放在一起看，测试岗位接下来真正需要补的，不只是“会不会测一个 AI 应用”，而是能不能用系统视角理解 Agent。

第一，要有状态视角。要知道持久记忆、身份配置、技能文件、工具上下文，为什么会变成新的风险入口。

第二，要有链路视角。要能把模型、工具、权限、沙箱、外部系统和结果验证串成一条完整执行链，而不是只盯着某个接口或某段输出。

第三，要有环境视角。要理解云端与端侧、单轮与长任务、单工具与多工具、多环境与多设备之间的差异。

第四，要有运行时视角。要关注任务执行过程中目标是否漂移、状态是否污染、权限是否越界、日志是否完整、过程是否可回放。

更具体一点说，未来测试团队会越来越需要补下面几类能力：

Agent 安全评估：状态污染、权限滥用、危险操作防护、结果回滚。长任务验证：目标漂移、资源泄漏、执行稳定性、链路可回放。工具链与 skill 验证：检索命中、说明质量、组合调用、失败恢复。端侧与多环境验证：机型差异、硬件加速、离线行为、端云一致性。

谁先把这几块补起来，谁就更有机会跟上下一阶段的 AI 工程落地。

结尾
最近几天连续出现的这些信息，真正值得测试人关注的，不是谁的模型又上了什么榜，而是 AI 系统已经越来越像一套完整的软件系统：它会长期运行，会累积状态，会调用工具，会影响真实环境，也会暴露传统软件里没有的新风险。

测试边界之所以在变化，不是因为测试不重要了，恰恰相反，是因为系统本身已经升级了。当系统从“模型调用”走向“自主执行”，质量保障就必须从“功能验证”回到“系统验证”。

推荐学习
测试智能体与智能化测试平台公开课，从架构设计到大厂落地，重塑自动化测试力。
扫码进群，报名学习。

关于我们
霍格沃兹测试开发学社，隶属于测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开，内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设，包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设，同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法，沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外，学社还参与测试工程人才培养体系建设，面向高校提供测试实训平台与实践支持，组织开展 “火焰杯” 软件测试相关技术赛事，并探索以能力为导向的人才培养模式，包括高校学员先学习、就业后付款的实践路径。

同时，学社结合真实行业需求，为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务，用于个性化能力提升与工程实践指导。

查看全文

http://www.jsqmd.com/news/639015/

CUDA环境权限问题解析：从mmcv-full安装报错Permission denied到系统级解决方案

Adobe-GenP：轻松激活Adobe Creative Cloud的完整解决方案

SDXL 1.0电影级绘图工坊效果展示：同一提示词下5种预设风格生成效果全景对比

视频封面批量制作工具完整使用指南：从素材准备到批量输出的操作全流程

React Fiber 调度优先级优化方案

吉林省快到家家政服务有限公司简介与业务介绍 - 深圳昊客网络

武汉佰利和建筑防水工程有限公司：东西湖区防水维修价格 - LYL仔仔

从四个 Gateway 插件到 SAP_GWFND，读懂 AS ABAP 7.40 到 7.50 的架构转身

AIVideo实战案例：如何制作一个高质量的社交媒体短视频

2025届最火的五大降重复率方案解析与推荐

从零到一：如何用RoboMaster开发板C型构建你的第一个机器人控制系统

2026年中国湖北江南专用汽车/湖北江南专用特种汽车有限公司高口碑品牌推荐 - 品牌宣传支持者

QMCDecode终极指南：轻松解锁QQ音乐加密格式，实现跨平台播放自由

3分钟快速上手BetterNCM Installer：一键解锁网易云音乐插件系统终极攻略

YOLO11涨点优化：注意力魔改 | 引入Vision Mamba (Vim) 核心状态空间模块，打破Transformer计算瓶颈，实现高效全局感知

医学影像AI新突破：拆解MedSegDiff-V2如何用‘频域魔法’解决分割边界模糊难题

C 语言面向对象风格封装的经典技巧（STM32F4 标准库实现）

LSB隐写术的克星：RS分析原理图解与实战避坑指南

3分钟搞定网易云音乐插件管理：BetterNCM Installer完整指南

2026年口碑好的视觉点胶机/精密视觉点胶机/喷射阀视觉点胶机行业内口碑厂家推荐 - 行业平台推荐

洛谷-算法1-6-二分查找与二分答案2

如何高效批量下载微博相册高清图片？Python多线程工具全解析

YOLO12模型在Web应用中的实时目标检测实现

高效解锁QQ音乐加密音频：qmc-decoder完整技术指南

mysql之日志篇

基于Simulink的单相电压二重化逆变电路谐波抑制仿真分析

2026年靠谱的316不锈钢扎带/阶梯式不锈钢扎带厂家综合实力参考（2025） - 品牌宣传支持者

从零构建个人图像搜索引擎：轻松管理海量图片的智能方案

【YOLOv11】013、YOLOv11模型推理：单张图像、视频流、批量推理的实现

【ROS2】SLAM建图成功，但是导航失败，加载地图报错Timed out waiting for transform from base_link to map to become availabl

相关文章：