当前位置: 首页 > news >正文

在失败中学习,准确率飙升12%:EvoSkill让智能体自主进化

给AI装上能从失败中总结经验的飞轮,让它的特定任务处理准确率直接飙升12.1%,甚至能把学到的本领跨界无损应用到全新的未知挑战中。

Sentient和弗吉尼亚理工大学的研究人员提出了EvoSkill自动化Skill发现框架。

该框架利用文本反馈机制,让三个智能体分工协作,在失败的尝试中不断分析出错原因,自主发掘并完善可复用的结构化专属Skill,让模型在不改变底层参数的前提下实现能力的持续飞跃。

AI缺少的专业Skill

AI编程助手,例如克Claude Code、OpenHands以及Codex等,已经成为解决多领域复杂任务的主流方案。

通过将代码作为一种灵活的中间表达形式,智能体能够调用复杂的抽象逻辑,扮演通用问题求解器的角色。

灵活性并不能直接转化为执行高度专业化任务所需的领域专长。

开发人员目前普遍采用智能体Skill来强化系统的专业能力。

智能体Skill通常包含结构化的工作流、操作指南以及辅助代码,它们作为一个个独立的模块,随时准备被主程序调用。

在当前的工程实践中,绝大多数Skill模块都依赖人工手动编写。

人工编写过程不仅耗费大量的时间成本,还需要开发者具备深厚的业务背景知识。

伴随着目标应用场景数量的不断增加,纯靠人工输入Skill的模式显得捉襟见肘,极难实现大规模的高效扩展。

学术界此前尝试过引入进化算法来解决人力瓶颈,比如AlphaEvolve和GEPA框架。

上述方法通过多轮自动化的迭代搜索,对智能体的提示词或底层代码库进行优化。

以往的路径多停留在底层制品的层面,优化得到的提示词或零散代码与具体的任务和模型深度绑定,根本无法形成跨场景复用的标准化组件。

面对困境,EvoSkill框架选择在更高的抽象维度上进行破局。

系统不再死磕具体的提示词或是庞杂的代码库,而是专注于自动发现和打磨那些结构化、可复用的智能体Skill文件夹。

每一次迭代产生的新Skill,都会经过严格的隔离验证,只保留那些能够切实提升测试集表现的优秀产物。

失败是进化的阶梯

EvoSkill的核心运转逻辑,是建立在从失败中汲取经验的基础之上的。

整个框架采用文本反馈下降机制,专门挑选那些当前智能体无法正确处理的难题进行深度剖析。

系统预设底层的基座大语言模型保持冻结状态,所有的进化动作都集中在Skill知识库的更新和迭代上。

系统内部设立了三个职责明确的智能体角色,它们紧密协作,共同推动Skill库的繁荣。

执行者智能体(Executor Agent)根据当前的程序设定,在没有任何先验Skill的初始空白状态下,开始尝试执行各项待办任务。

提议者智能体(Proposer Agent)扮演着数据分析师的关键角色。它会仔细审查执行者留下的代码运行轨迹、推导出的预测答案,并将其与真实的正确答案进行细致比对。

由于事先掌握着真实的参考答案,提议者能够像人类老师批改错题一样,精准定位任务失败的根本原因。

找到症结所在之后,提议者会权衡利弊,决定是去创造一个全新的Skill,还是对现有的老旧Skill进行修改升级,并最终给出一份高维度的文字版Skill提案。

为了避免在同一个坑里跌倒两次,提议者手里还握有一份累积的反馈历史记录,里面详细记载了过往所有的提案细节、执行结果以及分数变动情况。

丰富的历史上下文让提议者能够避开曾经走过的弯路,让每一次提出的改进方案都更加有的放矢。

Skill构建者智能体(Skill-Builder Agent)则是将纸面想法落地的资深工程师。它接收到提议者的提案后,会将其转化为实实在在的Skill文件夹。

一个标准配置的Skill文件夹包含触发程序的元数据、格式化的操作指南,有时还会附带Python或TypeScript编写的辅助脚本文件。

Skill构建者在初始阶段就预装了一套内部元Skill,里面写满了关于如何编写高质量Skill组件的行业最佳实践规范。

新Skill构建完成后,会被立即挂载到候选程序上,在独立的验证集里进行严格的考核。

系统维持着一个帕累托最优的精英程序池。只有当新候选程序的得分超越池中垫底的成员时,它才有资格跻身精英行列,将表现最差的旧程序淘汰出局。

整个进化流程依靠循环机制不断向前推进,每一轮挑出部分出错的案例进行打磨,经过多轮次的迭代淘汰,留下来的都是经历过实战检验的优质Skill。

亮眼的数据与跨界迁移

研究团队挑选了两个极具挑战性的基准测试来检验EvoSkill的实际成色。

OfficeQA一个基于美国财政部公报构建的复杂文档推理测试集。该语料库包含大约89000页的繁杂内容,时间跨度长达五十年,里面充斥着密密麻麻的表格、图表以及高度专业化的金融术语描述。

解答一道题目平均需要跨越两份不同的超长公报,在海量的数据中进行精准定位、数据提取和基础的定量计算。对于熟悉业务的普通人类而言,完成同样一道题平均需要耗费50分钟的宝贵时间。

在完全使用克Claude Code配合Opus 4.5模型的基准条件下,系统在零容错率的精准匹配测试中获得了60.6%的准确率。

引入EvoSkill框架并仅仅使用10%的数据集进行多轮训练后,系统的准确率稳步攀升至65.8%。

研究人员随后尝试了一种名为Skill合并的特殊配置策略。

他们将多次独立运行所发现的独特Skill汇总到一起,筛选出重合度高的最优版本,最终形成了一个超级Skill库。在这个大一统的完整Skill库加持下,系统跑出了67.9%的最佳成绩,将准确率整整提升了7.3个百分点。

仔细检查上述新生成的Skill库内容,能发现很多极具针对性的专业规范。

系统自主总结出了名为数据提取验证的专门Skill,用来应对表格解析时容易出现的相邻单元格误读、指标选错以及时间颗粒度不匹配等常见低级错误。

另一个新出现的定量分析方法论Skill,则为复杂的财务风险计算、预测以及货币转换制定了严密的流程指导,强制要求在进行任何数学计算前必须设立数据校验点,有效规避了数据转换过程中的系统性崩坏。

难度颇高的SealQA数据集,与局限在固定长文档里的寻章摘句完全不同,SealQA要求智能体在充满噪声、信息相互矛盾的开放网络环境中寻找真相。任务的核心难点在于制定严谨的搜索策略和验证繁杂的信息来源。

EvoSkill在全新设定的考场中展现出了惊人的适应力,将基准准确率从26.6%大幅拉升至38.7%,实现了12.1%的绝对幅度增长。

在众多被自动发掘出的Skill中,搜索坚持协议显得格外亮眼。该协议强制要求智能体在给出最终答案前,必须执行穷尽式的搜索验证策略,具体包含扩展搜索词义、多信息源交叉验证以及完整性核对,直击模型在目标任务中容易被干扰信息误导并过早放弃搜索的核心痛点。

最能体现高级抽象价值的测试环节,当属随后的零样本Skill迁移实验。

研究人员原封不动地将SealQA中进化出来的搜索坚持协议Skill提取出来,直接套用在了一个名为BrowseComp的全新网页浏览问答基准测试上。该测试专门针对那些需要大量事实依据且答案唯一的简短高难度问题。

面对完全不同的问题类型和截然不同的难度特征,直接搬来的外来Skill依然发挥了不可思议的奇效,让BrowseComp的准确率从43.5%稳步提升至48.8%,轻松取得了5.3%的涨幅。

跨越任务边界的成功实践强有力地证明,通过EvoSkill框架进化得到的模块化Skill并没有陷入对单一任务死记硬背的陷阱。

它们敏锐地捕捉到了处理通用复杂问题时所需的底层逻辑能力,并且能够像人类打工者的通用工作经验一样,在完全陌生的全新岗位上继续发光发热。

将优化重点从晦涩难懂的底层代码和提示词,提升到高度结构化、可复用的Skill维度,为AI的持续进化指明了一条充满无限可能的新航道。

当智能体能够像人类一样,将一次次失败转化为受用终身的模块化经验时,AI进化的飞轮就启动了。

参考资料

https://arxiv.org/pdf/2603.02766

https://github.com/sentient-agi/EvoSkill

http://www.jsqmd.com/news/576029/

相关文章:

  • [音视频] [ffmpeg] FFmpeg 解析 TS 多音轨生成音频波形图
  • 3大实战技巧:Java反编译工具JD-GUI高效解析字节码完全指南
  • iOS BulletinBoard样式定制终极指南:打造专属卡片外观设计
  • 告别模拟器!Windows原生运行APK的3种高效方案深度解析
  • gfx-rs OpenGL ES后端终极指南:移动端与WebGL2快速集成方案
  • 解放双手!3个秘诀让你轻松掌握OpCore Simplify黑苹果配置工具
  • Cockpit CMS终极扩展开发指南:7步创建自定义字段类型与组件
  • Needleman-Wunsch算法实战:DNA序列比对中的多解问题处理技巧
  • AI开发-python-langchain框架(3-18-给会话历史增加id)
  • TOAST UI Chart终极自定义主题指南:如何创建专属品牌化图表
  • IP-Adapter-FaceID动态人脸生成:从静态到视频的跨越 - 终极AI人脸身份绑定技术指南
  • VSCode Mermaid Preview:让图表创作效率提升300%的全流程解决方案
  • 免费开源神器OpenMS:质谱数据分析的完整解决方案
  • Ostrakon-VL-8B效果对比:Ostrakon-VL-8B vs Qwen3-VL-235B在ShopBench子项得分
  • 研发实力铸就卓越体验:2026年福建海西中奥电梯制造有限公司技术竞争力深度解析 - 2026年企业推荐榜
  • Awoo Installer:Switch玩家的全能游戏安装管家
  • WSL2环境变量配置全攻略:从临时到永久,解决开发环境路径问题
  • 如何快速构建Hackintosh EFI配置:OpCore Simplify终极指南
  • 解锁ptpython多行编辑:5个实用技巧让Python编程效率翻倍
  • 实战指南:用LLNet深度学习模型提升夜间监控画质(附Python代码)
  • SAMKeychain扩展开发终极指南:如何基于现有功能构建强大新特性
  • 航模新手必看:无刷电调(ESC)从接线到调试的保姆级避坑指南
  • 避坑!51单片机中断配置常见误区:TCON与IE寄存器的那些‘同名不同命‘的坑
  • 基于yolov10的工地安全帽检测系统 有技术文档 能实现图像,视频和摄像实时检测 深度学习 python Django
  • 2026 常州工作服与沙滩车车衣行业 TOP5 品牌深度评测报告 - 速递信息
  • Win11Debloat终极指南:一键清理Windows系统,性能提升51%的免费神器
  • RVC WebUI容器化部署:Docker Compose编排与GPU资源限制配置
  • 利用快马平台与qclaw快速构建量子算法原型,可视化模拟量子电路运行
  • GHelper完整教程:3步安装华硕笔记本轻量级控制工具,彻底告别Armoury Crate臃肿问题
  • 从0到1实战BS-RoFormer:音乐声源分离SOTA模型落地指南