当前位置：首页 > news >正文

AI Skills插件开发避坑指南：从环境搭建到上线

news 2026/4/23 10:48:45

2026年的技术圈，一个感受越来越强烈——测试工程师的焦虑感正在从个体蔓延到整个行业。

前两天和一个做自动化测试的朋友聊，他说最近最怕的不是项目延期，而是leader突然说“这个用AI生成一下”。用例自动生成了，脚本自动写了，甚至连bug定位都能靠模型推理了。他问我：那我们测什么？

这个问题，最近被反复提起。

信通院最新报告显示，2026年已有70%的企业测试用例由AI生成。效率提升5-10倍、成本下降60%+，不再是愿景，而是企业标配。Claude Code和Codex已经具备自主生成代码、自动修复、连续迭代的能力，工程执行层正在被快速压缩。

面对这个变化，有人选择焦虑，有人开始探索新路。

过去三个月，我帮团队搭建了一套基于AI Skills的测试辅助体系。从环境配置踩坑到上线落地，踩了不少坑，也积累了一些经验。这篇文章把我踩过的坑和总结的方法论整理出来，希望对正在探索这个方向的你有所帮助。

目录
一、现象：AI编程工具正在“吃掉”执行层
二、本质：从“写代码”到“教AI做事”的能力迁移
三、核心机制：AI Skills的三层渐进式架构
四、实战对比：传统方式 vs Skills方式
五、工程落地：5个关键避坑点
六、趋势：未来的分水岭在哪里
一、现象：AI编程工具正在“吃掉”执行层
先看几个数据。

SWE-bench Verified榜单上，顶级AI编程工具解决真实GitHub问题的比例已从2023年的48.5%跃升至78.8%。这意味着AI独立完成真实开发任务的能力，两年翻了近一倍。

工具层面的竞争更是白热化。

Claude Code以77.4%的SWE-bench得分领跑，擅长终端原生工作流和多文件深度推理。Cursor以约76.8%的得分紧随其后，主打IDE原生体验和多智能体并行。Windsurf和GitHub Copilot位居第二梯队。开源新秀OpenClaw则以灵活接入多模型和成本可控的优势，吸引了大量开发者关注。

最值得关注的是Claude Code最近上线的Computer Use功能——AI可以自己启动应用、复现bug、修复代码、验证结果，全程不离终端。官方演示中，一个指令下去，AI自己跑完了“启动应用→复现bug→修复→测试”的完整闭环。

这对测试行业意味着什么？

测试用例生成、自动化脚本编写、Bug定位这三块执行层工作，正在被快速接管。

面对这个现实，有两种反应。一种是焦虑“AI会不会取代我”。另一种是追问“那我该做什么”。

我选择后者。

二、本质：从“写代码”到“教AI做事”的能力迁移
行业变化的本质，是研发流程的范式转移。

腾讯云在2026年的技术分享中，将企业AI Coding实践分为三个阶段：AI辅助开发（AI解决单点问题，人控制流程）、AI驱动开发（AI接管单点环节并闭环完成任务，人转为监督者）、AI原生开发（AI Agent Teams端到端闭环，人只验收结果）。

2026年，我们正在从第一阶段向第二阶段过渡。

这个转变的核心变化是什么？能力重心在迁移。

过去的能力重心是：掌握语言、框架、工具链，能写出可运行的代码。新的能力重心是：理解业务流程、抽象问题、设计规则体系、判断AI产出质量、构建可复用的能力封装。

可被截图传播的观点句：当AI能写完整个项目时，决定输出去留的仍然是人的判断力。

测试工程师的核心价值正在从“写用例”跃升为“设计生成系统”。区别在于：前者关注“怎么做”，后者关注“为什么这么做”和“怎么保证一直做对”。

三、核心机制：AI Skills的三层渐进式架构
理解AI Skills，先理解它解决了什么问题。

传统方式下，要让AI完成一个专业任务，你需要把完整的指令、工具使用说明、背景知识全部写进提示词。结果是：token消耗巨大，每次重复输入，不同场景无法复用。

2025年10月，Anthropic发布Claude Skills。两个月后，Agent Skills作为开放标准被发布，OpenAI、GitHub、VS Code、Cursor均已跟进。本质上，Skills是“通用Agent的扩展包”——通过加载不同Skill包，Agent可以具备特定领域的专业能力。

核心架构采用三层渐进式披露（Progressive Disclosure）设计：

3826de1b-3060-47da-9301-4212218f5a45

第一层是元数据。每个Skill的SKILL.md开头有YAML格式的名称和描述，Agent启动时预加载到系统提示中，用于判断该Skill是否与当前任务相关。

第二层是SKILL.md主体。当Agent判断某个Skill与任务相关时，会加载完整的Markdown文档作为上下文，包含详细指令、注意事项、示例等。

第三层是附加文件和脚本。复杂场景下，Skill文件夹可包含脚本代码或额外说明文档，仅在需要时加载或执行。

这个设计解决了传统方式的三个痛点：按需加载，无关任务只消耗几十个token；一次封装，多次复用，无需重复编写长提示词；多个Skill可组合使用，构建复杂工作流。

可被截图传播的观点句： Skill就是把经验固化成AI能读懂的SOP，让AI在正确的时候做正确的事。

四、实战对比：传统方式 vs Skills方式
拿一个测试工程师熟悉的场景举例：API接口自动化测试。

传统方式大概长这样：

3a57f484-b0a4-45f3-b5b7-6881aac94440

每个接口重复这套流程。业务变化时，全部返工。

用AI Skills的方式：

9f15fcd9-03f2-434a-be1d-d026fb17211e

本质区别在哪里？

传统方式，每次任务从零开始。Skills方式，把经验封装成可复用的能力单元。Skill定义“如何做API测试”的SOP，输入具体的API定义，AI按SOP自动完成整套流程。一个Skill写好后，可以在任何类似场景重复使用。

一个真实的参考案例是Chrome插件开发。开发者将“搜索图标→下载SVG→转换尺寸”的流程标准化后，用Skill-Creator打包成Skill。之后只需要说“帮我找beer图标”，AI就会自动执行整套流程。注意这里的关键词——“标准化流程”。Skills的本质就是把一个可标准化的任务流程封装成AI能理解并执行的能力包。

另一个值得关注的方向是Agent Skills在数据分析领域的应用。通过Skill封装SQL生成、执行查询、分析结果的完整链路，可以实现自然语言到数据洞察的自动化。

人工智能技术学习交流群
伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇