当前位置：首页 > news >正文

如何让Agent Skills学会自我进化？

news 2026/7/14 23:40:31

「不仅是附带Skill的 Agent，更是能随时间推移不断改进skill的 Agent」。

口号听起来很美好，但有一个根本性问题我们始终没有解决：skill是静态的，而周围的环境和系统都在改变。

不久之前还能正常工作的skill，可能悄然失效——代码库变化了、模型行为不同了、用户需求也变了。在大多数系统里，这种失败往往是隐形的，直到有人发现输出质量下降，或者Agent彻底挂掉。

让skill真正有用的关键，在于把它们当作可演进可进化的系统组件，而非固定的提示词文件。

这正是本文要介绍的核心思路：

不是单纯讨论如何更好地存储或路由skill，而是：当skill失败或表现不佳时，如何让它自我改进。

下图展示了整体架构思路：

1. skill系统的困境

过去，skill的工作方式很简单：

写一个提示词
存到文件夹里
需要时调用

这对 Demo 来说效果惊人，但过了某个阶段，就会遇到同样的困境：

某个skill被选中的次数过多
某个skill看起来不错，实际却总失败
某条单独指令总是执行失败
某个工具调用因为环境变化而报错

更麻烦的是，没人知道问题出在路由、指令还是工具调用本身——这导致了繁重的人工维护和排查工作。

2. 让skill自我进化

我们实现的方案，核心是闭环：让skill能够随时间自我改进。

先看一下skill文件夹的结构：

my_skills/ summarize/ bug-triage/ code-review/

我们可以给所有内容添加更清晰的结构（如图谱）——不仅看起来更舒服，更重要的是让搜索变得更高效。我们还可以为不同字段添加语义信息、任务模式、摘要和关系，帮助系统更聪明地理解和路由信息。这些都存储在图结构的「Custom DataPoint」（自定义数据点）中。下图展示了数据点的结构设计：

2.1 观察是改进的前提

一个skill如果无法记住自己运行时发生了什么，就不可能改进。

因此，每次skill执行后，我们都会存储以下数据：

尝试了什么任务
选择了哪个skill
是否成功
发生了什么错误
用户反馈（如果有）

有了观察能力，失败就成了系统可以推理的对象。想象一下：你在一个结构化图中添加一个额外的节点，用来收集所有观察数据——这可以通过图结构的「Custom DataPoint」（自定义数据点）实现，你可以自定义想填充的字段。

2.2 从失败中学习

当足够的失败案例积累起来（甚至一次重要的失败之后），我们可以检查该skill关联的历史记录：过去的执行、反馈、工具失败，以及相关的任务模式。

由于这些都存储为图结构，系统可以追踪不良结果背后的反复出现因素，并用这些证据来提出skill的改进版本。

失败积累 → 反复表现不佳 → inspect 检查

2.3 自动提出改进建议

当系统有足够证据表明某个skill表现不佳时，它可以提出修改指令的建议。这个建议可以由人工审核，也可以自动应用。目标很明确：

让维护更省心。

不再需要去代码库里大海捞针地找问题所在——系统可以直接查看skill的执行历史，包括过去的运行、失败、反馈和工具错误，然后提出针对性的修改。

修改建议可能包括：

收紧触发条件
添加缺失的条件
调整步骤顺序
改变输出格式

这就是skill从「静态提示词文件」转变为「动态可演进的组件」的时刻。不再是打开SKILL.md文件然后凭开发者的感觉猜测该改什么，系统可以基于skill实际表现的经验证据来提出修改。

3. 改进后的评估闭环

一个能自我改进的系统，不能仅仅因为能修改自己就被信任。任何修改都必须经过评估：

新版本真的改善了结果吗？
失败减少了吗？
有没有在别处引入新的错误？

因此，这个循环不能只是：

观察 → 检查 → 修改

而必须是更严谨的周期：

观察 → 检查 → 修改 → 评估

如果修改没有产生可测量的改进，系统应该能够回滚。因为每一次变更都跟踪了其理由和结果，原始指令永远不会丢失，自我改进变成了一个结构化、可审计的过程，而非失控的修改。当评估确认改进行之有效，这次修改就成为skill的下一个版本。下图展示了完整的评估闭环：

4. 写在最后

skill无法在周围系统不断变化时保持静态。随着模型、代码库和任务的演进，固定的提示词文件不可避免地会老化。

我们引入了一种简洁的方式来实现自动化改进，同时完全不放弃对skill本身的控制权和监督权。

最后

选择AI大模型就是选择未来！最近两年，大家都可以看到AI的发展有多快，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，人才需求急为紧迫！

人工智能时代最缺的是什么？就是能动手解决问题还会动脑创新的技术牛人！智泊AI为了让学员毕业后快速成为抢手的AI人才，直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样，既有机器学习、深度学习这些基本功教学，又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能，把AI技术从基础到前沿全部都包圆了！

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

课程还教大家怎么和AI搭档一起工作，就像程序员带着智能助手写代码、优化方案，效率直接翻倍‌！

这么练出来的学员确实吃香，83%的应届生都进了大厂搞研发，平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力，比如需求分析、创新设计这些AI暂时替代不了的核心竞争力，让学员在AI时代站稳脚跟‌。

课程优势一：人才库优秀学员参与真实商业项目实训

课程优势二：与大厂深入合作，共建大模型课程

课程优势三：海外高校学历提升

课程优势四：热门岗位全覆盖，匹配企业岗位需求

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

·应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

·零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型：AI大模型全栈班、AI大模型算法班，为学生提供更多选择。

由于文章篇幅有限，在这里我就不一一向大家展示了，学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料（可无偿送）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

获取方式：有需要的小伙伴，可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI，高起点就业

培养企业刚需人才

扫码咨询抢免费试学

⬇⬇⬇

AI大模型学习之路，道阻且长，但只要你坚持下去，就一定会有收获。

查看全文

http://www.jsqmd.com/news/491054/

如何实现co/cog与DVC集成：机器学习项目数据版本控制完整指南

永辉购物卡回收攻略，一键操作 - 团团收购物卡回收

终极指南：Screenshot-to-code模型决策可解释性与监管合规实践

终极指南：如何快速掌握nebullvm实现LLM分析全流程

如何用MockingBird打造教育领域互动式语音学习体验：完整指南

探索AndroidPdfViewer的未来：新特性规划与社区贡献全指南

Comsol 模拟锌离子沉积电场强度与电势分布：一场微观世界的电学之旅

镜像无缝上云：Skopeo + Azure Container Instances 极速部署实战

如何确保Goose迁移脚本的代码覆盖率：全面测试指南

7步打造JUnit4测试质量门禁：自定义插件开发完全指南

COVID-Net高级应用：肺炎检测与严重程度评估实战指南

终极指南：DeepEP中非一致性缓存的安全使用技巧与性能优化策略

如何高效解决 Kanboard 任务依赖冲突：关系管理终极指南

加速Zsh语法高亮开发：zsh-syntax-highlighting的并行化持续集成策略

wblog：基于Gin+Gorm构建个人博客的终极指南

如何用nerdctl实现媒体服务的高效部署与优化：完整指南

如何通过PackageObjectFactory实现Checkstyle的模块化配置与插件化开发

5分钟打造专属代码格式化工作流：Micro编辑器插件深度配置指南

如何快速上手helm-unittest？5分钟掌握Helm插件安装与基础测试编写

剪板机组态王6.55与三菱PLC通过OPC通讯的联机程序之旅

SpongeAPI生态系统详解：插件开发资源与社区支持

终极指南：Spring Security如何为边缘计算提供强大安全支持

终极指南：如何在Ivy中优化模型并行同步点选择算法

如何高效参与Java Native Access (JNA)开源项目：完整贡献指南

RxRealm进阶：处理复杂查询与多线程数据同步的最佳实践

如何在Monaco Editor中设置自动保存与备份轮换：完整配置指南

如何安全使用Screenshot-to-code：开发者必备的安全合规指南

深度感知视频帧插值：DAIN项目的社区治理与长期维护策略

终极BewlyBewly存储逻辑剖析：localStorage双引擎设计与高效数据管理

分支和循环——让C语言有自己的选择