2026年的技术圈,一个感受越来越强烈——测试工程师的焦虑感正在从个体蔓延到整个行业。
前两天和一个做自动化测试的朋友聊,他说最近最怕的不是项目延期,而是leader突然说“这个用AI生成一下”。用例自动生成了,脚本自动写了,甚至连bug定位都能靠模型推理了。他问我:那我们测什么?
这个问题,最近被反复提起。
信通院最新报告显示,2026年已有70%的企业测试用例由AI生成。效率提升5-10倍、成本下降60%+,不再是愿景,而是企业标配。Claude Code和Codex已经具备自主生成代码、自动修复、连续迭代的能力,工程执行层正在被快速压缩。
面对这个变化,有人选择焦虑,有人开始探索新路。
过去三个月,我帮团队搭建了一套基于AI Skills的测试辅助体系。从环境配置踩坑到上线落地,踩了不少坑,也积累了一些经验。这篇文章把我踩过的坑和总结的方法论整理出来,希望对正在探索这个方向的你有所帮助。
目录
一、现象:AI编程工具正在“吃掉”执行层
二、本质:从“写代码”到“教AI做事”的能力迁移
三、核心机制:AI Skills的三层渐进式架构
四、实战对比:传统方式 vs Skills方式
五、工程落地:5个关键避坑点
六、趋势:未来的分水岭在哪里
一、现象:AI编程工具正在“吃掉”执行层
先看几个数据。
SWE-bench Verified榜单上,顶级AI编程工具解决真实GitHub问题的比例已从2023年的48.5%跃升至78.8%。这意味着AI独立完成真实开发任务的能力,两年翻了近一倍。
工具层面的竞争更是白热化。
Claude Code以77.4%的SWE-bench得分领跑,擅长终端原生工作流和多文件深度推理。Cursor以约76.8%的得分紧随其后,主打IDE原生体验和多智能体并行。Windsurf和GitHub Copilot位居第二梯队。开源新秀OpenClaw则以灵活接入多模型和成本可控的优势,吸引了大量开发者关注。
最值得关注的是Claude Code最近上线的Computer Use功能——AI可以自己启动应用、复现bug、修复代码、验证结果,全程不离终端。官方演示中,一个指令下去,AI自己跑完了“启动应用→复现bug→修复→测试”的完整闭环。
这对测试行业意味着什么?
测试用例生成、自动化脚本编写、Bug定位这三块执行层工作,正在被快速接管。
面对这个现实,有两种反应。一种是焦虑“AI会不会取代我”。另一种是追问“那我该做什么”。
我选择后者。
二、本质:从“写代码”到“教AI做事”的能力迁移
行业变化的本质,是研发流程的范式转移。
腾讯云在2026年的技术分享中,将企业AI Coding实践分为三个阶段:AI辅助开发(AI解决单点问题,人控制流程)、AI驱动开发(AI接管单点环节并闭环完成任务,人转为监督者)、AI原生开发(AI Agent Teams端到端闭环,人只验收结果)。
2026年,我们正在从第一阶段向第二阶段过渡。
这个转变的核心变化是什么?能力重心在迁移。
过去的能力重心是:掌握语言、框架、工具链,能写出可运行的代码。新的能力重心是:理解业务流程、抽象问题、设计规则体系、判断AI产出质量、构建可复用的能力封装。
可被截图传播的观点句: 当AI能写完整个项目时,决定输出去留的仍然是人的判断力。
测试工程师的核心价值正在从“写用例”跃升为“设计生成系统”。区别在于:前者关注“怎么做”,后者关注“为什么这么做”和“怎么保证一直做对”。
三、核心机制:AI Skills的三层渐进式架构
理解AI Skills,先理解它解决了什么问题。
传统方式下,要让AI完成一个专业任务,你需要把完整的指令、工具使用说明、背景知识全部写进提示词。结果是:token消耗巨大,每次重复输入,不同场景无法复用。
2025年10月,Anthropic发布Claude Skills。两个月后,Agent Skills作为开放标准被发布,OpenAI、GitHub、VS Code、Cursor均已跟进。本质上,Skills是“通用Agent的扩展包”——通过加载不同Skill包,Agent可以具备特定领域的专业能力。
核心架构采用三层渐进式披露(Progressive Disclosure) 设计:

第一层是元数据。每个Skill的SKILL.md开头有YAML格式的名称和描述,Agent启动时预加载到系统提示中,用于判断该Skill是否与当前任务相关。
第二层是SKILL.md主体。当Agent判断某个Skill与任务相关时,会加载完整的Markdown文档作为上下文,包含详细指令、注意事项、示例等。
第三层是附加文件和脚本。复杂场景下,Skill文件夹可包含脚本代码或额外说明文档,仅在需要时加载或执行。
这个设计解决了传统方式的三个痛点:按需加载,无关任务只消耗几十个token;一次封装,多次复用,无需重复编写长提示词;多个Skill可组合使用,构建复杂工作流。
可被截图传播的观点句: Skill就是把经验固化成AI能读懂的SOP,让AI在正确的时候做正确的事。
四、实战对比:传统方式 vs Skills方式
拿一个测试工程师熟悉的场景举例:API接口自动化测试。
传统方式大概长这样:

每个接口重复这套流程。业务变化时,全部返工。
用AI Skills的方式:

本质区别在哪里?
传统方式,每次任务从零开始。Skills方式,把经验封装成可复用的能力单元。Skill定义“如何做API测试”的SOP,输入具体的API定义,AI按SOP自动完成整套流程。一个Skill写好后,可以在任何类似场景重复使用。
一个真实的参考案例是Chrome插件开发。开发者将“搜索图标→下载SVG→转换尺寸”的流程标准化后,用Skill-Creator打包成Skill。之后只需要说“帮我找beer图标”,AI就会自动执行整套流程。注意这里的关键词——“标准化流程”。Skills的本质就是把一个可标准化的任务流程封装成AI能理解并执行的能力包。
另一个值得关注的方向是Agent Skills在数据分析领域的应用。通过Skill封装SQL生成、执行查询、分析结果的完整链路,可以实现自然语言到数据洞察的自动化。
人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

可被截图传播的观点句: AI时代,你的竞争力不取决于写代码多快,而取决于能否把经验固化成可复用的能力单元。
五、工程落地:5个关键避坑点
这部分是我实际踩过的坑,希望对你有用。
避坑1:先标准化,再Skill化
Skills是SOP的数字化,前提是这个流程本身可以标准化。如果一个任务每次处理方式都不一样,强行Skill化只会带来更多麻烦。
我的做法:先用传统方式跑通流程2-3次,找到不变的部分和可变的部分。不变的部分封装成Skill的核心逻辑,可变的部分设计成参数输入。
避坑2:用Skill-Creator生成初版,但必须手动优化
Anthropic官方提供了Skill-Creator,用自然语言描述需求就能生成SKILL.md。这个工具很好用,但生成的初版往往是“能用”而非“好用”。手动优化的重点是精简指令、补充边界案例、调整脚本的可移植性。
建议每次优化后提交Git进行版本管理,这个习惯会帮你省很多时间。
避坑3:控制Skill粒度,避免token爆炸
这是最容易踩的坑。一开始容易把多个流程塞进一个Skill,结果是SKILL.md越来越长,Agent加载时token消耗巨大,响应变慢,推理精度下降。
我现在的原则:一个Skill只做一件事,做深做透。比如“API测试”可以拆成“生成用例”“生成脚本”“执行验证”“生成报告”四个独立的Skill,组合使用。
之前尝试过一步到位让Skill-Creator生成完整Skill,效果不理想,容易出现流程冗余。拆分后可控性大幅提升。
避坑4:建立本地Skill库,而不是每次都重新造
这是工程化最容易被忽视的一环。团队应该建立本地的Skill仓库,把常用能力沉淀下来。官方Skills Marketplace提供了15个基础Skill(PDF处理、Excel操作、PPT生成、品牌规范等)作为参考和起点。
我个人的实践:用文件夹按领域组织Skill,加上version标签和changelog。这样团队内可以共享和迭代,而不是每个人重新造轮子。
避坑5:AI不是绝对可信,必须建立验证闭环
MIT的研究证明,大模型存在明显的顺从性问题——用户说错,它也可能跟着错。AI生成结果后,必须有验证环节。这个验证可以是人工review,也可以是自动化校验脚本。
对测试团队来说,这个验证环节尤其重要。你的判断力才是不可替代的核心资产。
六、趋势:未来的分水岭在哪里
回到开篇那个问题:当AI能自动生成测试用例时,测试工程师还剩下什么?
我的判断是:测试不会消失,但角色会彻底重构。
过去测试关注的是“功能对不对”。未来的测试需要关注三个层面:AI系统的行为是否符合预期(AI结果判断力)、多Agent协同是否正确(系统级理解力)、输出质量如何量化评估(数据与评估能力)。
测试正在从执行者变成质量决策者。
把这个逻辑延伸到整个软件工程领域,2026年的分水岭已经清晰浮现:第一层是人工完成任务,第二层是用AI辅助完成任务,第三层是设计AI完成任务的体系。
第一层效率最低,第二层效率高但不可控,第三层效率高且可控。
未来真正稀缺的,是第三层能力。
当生成能力变成基础设施,判断力、建模能力和系统设计能力,才是新的门槛。
推荐学习
软件测试开发快速落地智能化测试公开课,从提示词工程、MCP协议到Web/App/接口测试智能体,再到平台化落地与常见坑点。一次讲透,拿来就用!
👉 扫码进群,报名学习!

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。
