当前位置: 首页 > news >正文

微软双论文深度剖析:Agent Skill 的评测体系与自进化优化

你的 Skill 真的有用吗?这个问题比你想的难回答

假设你花了一个下午,给你的 Agent 精心写了一个 Skill——里面有清晰的步骤、详尽的注意事项、格式规范的输出要求。你手动测了几次,感觉相当不错。然后你把它投入生产。

三周后,你发现某些任务的成功率反而比没有 Skill 时低了。

这不是假设场景。微软研究团队在 2026 年 5 月同期发布的两篇论文——SkillLens(“From Raw Experience to Skill Consumption”)和SkillOpt(“Executive Strategy for Self-Evolving Agent Skills”)——用严格的实验数据告诉我们:这种"负迁移"现象在 25% 的情况下都会发生,而且你靠肉眼读 Skill 文本根本判断不出来哪个更好。

这两篇论文一个回答"Skill 为什么有时候不管用",另一个回答"怎么系统性地让 Skill 越来越好"。读完你会发现,它们共同描绘的是一个关于 Agent 能力提升的全新范式。


第一篇论文:SkillLens——Skill 的完整生命周期研究

Skill 不是一个点,而是一条链

大多数人对 Skill 的理解停留在"一段写给 Agent 看的指令文本"。但 SkillLens 把这件事拆得更细,提出了 Skill 的三阶段生命周期

阶段 1: 经验生成(Experience Generation) 目标模型 M 在训练任务上跑一遍,产生一批执行轨迹 ↓ 阶段 2: 技能提取(Skill Extraction) 提取器模型 E 分析这批轨迹,蒸馏成结构化的 Skill 文档 ↓ 阶段 3: 技能消费(Skill Consumption) 同一个目标模型 M 带着提取出的 Skill 去做新任务,看能不能提升

这条链上有两个独立角色:**提取器(Extractor)**负责从经验中提炼知识,**目标模型(Target)**负责消费知识提升表现。关键洞察是:这两个角色彼此独立,性能不相关。一个提取能力强的模型可能是个弱消费者,反之亦然。

两个新指标:EE 和 TE

为了量化这两个角色的差异,论文提出了两个互补的指标:

提取效能(Extraction Efficacy, EE):固定一个提取器,它能为多少个不同目标模型稳定生产有用的 Skill?

EE ( E , D ) = 1 ∣ M ∣ ∑ M ∈ M Δ ( E , M , D ) \text{EE}(E, \mathcal{D}) = \frac{1}{|\mathcal{M}|} \sum_{M \in \mathcal{M}} \Delta(E, M, \mathcal{D})EE(E,D)=M1MMΔ(E,M,D)

目标可进化性(Target Evolvability, TE):固定一个目标模型,当用不同提取器来蒸馏它自己的经验,它能从中获得多大提升?

http://www.jsqmd.com/news/924403/

相关文章:

  • DeepSeek总结的使用实体-组件-系统和基于存在性处理进行Python编程31-32
  • 深圳全屋定制找源头工厂避坑 - 产品测评官
  • 从Wright和Guild的实验到现代屏幕:手把手理解CIE 1931色度图到底在画什么
  • 2026年4月国内热门的高速机制造厂家找哪家,五轴联动加工中心/卧式加工中心/龙门加工中心,高速机生产商有哪些 - 品牌推荐师
  • Kali Linux 2023下,手把手教你搞定Ubertooth One驱动与libbtbb编译(避坑指南)
  • 广州汽车无痕修复老牌门店名杰钣金喷漆专业靠谱 - 百航
  • 用 AI 这件事,90% 的人卡在第一步,深度长文,耐心看完
  • 如何永久保存微信聊天记录?WeChatMsg完整数据备份指南
  • 2026重庆导游怎么找不踩坑|口碑排名、服务对比与选择建议 - 随峰国旅
  • 基于Arduino Leonardo的自适应游戏控制器DIY:为残障人士打造低成本辅助设备
  • SPSS时间序列分析避坑指南:你的数据真的适合做ARIMA预测吗?
  • 精选:推荐一家梅州包钢加固公司 - 品牌推广大师
  • 郑州市 上街区 甲醛检测、甲醛清除|维小达 甲醛CMA检测、新房甲醛清除、工装空气治理、异味根除、苯系物TVOC综合治理一站式服务 - 维小达科技
  • GitHub功能全解析:AI代码创作、开发者工作流等应有尽有,komi-learn助力编码代理持续学习
  • 科研党必备:用EndNote 20建立你的第一个文献库,告别参考文献混乱
  • 24寸重型挖泥船多少钱 - 舒雯文化
  • Claude Code 100个真实案例 - 用AI搭建数据可视化大屏(领导看了直拍大腿)
  • 2026 宁波钻石回收本地指南 六大实体店安全高效值得信赖 - 薛定谔的梨花猫
  • 南京镇江地区厂房防水服务商排行及实测对比 - 奔跑123
  • 2026年8月重庆武隆旅游多少钱|导游服务、费用参考与避坑指南 - 随峰国旅
  • 深圳西丽全屋定制厂家实地探访 - 产品测评官
  • Unshaky多语言支持技术深度解析:为全球用户构建本地化体验的架构设计哲学
  • 终极Windows功能解锁器:ViVeTool GUI图形界面控制完全指南
  • 小巷子搬家太窄车进不来怎么办?这份实战攻略帮你轻松搞定 - 生活服务
  • 6款实用降AI率平台 定稿效果拉满 - 降AI小能手
  • 打印机全机型适配技术:企业办公效率的提升引擎 - 品牌优选官
  • Boss-Key:上班族的智能隐身助手,一键隐藏窗口的办公神器
  • 2026 宁波手表回收避坑 添价收钻石回收不扣损耗专业估价服务贴心 - 薛定谔的梨花猫
  • 深圳全屋定制599一平方能买吗?实测5家,告诉你真相 - 产品测评官
  • ChatTTS-ui音色配置实战:5个创意用法让语音合成更有趣