当前位置: 首页 > news >正文

分享2篇最新Skill+Harness技术,组合无敌

最近看 Agent Skill 这条线,我越来越觉得一个趋势很清楚:下一代 Agent 不是简单多学几个 Skill,而是要把 Skill 放进 Harness 里。

Skill 解决的是:Agent 怎么复用已经学会的能力。

Harness 解决的是:这些能力在真实运行时,什么时候能用、谁来授权、证据怎么留、风险怎么挡、失败怎么修、后续怎么演化

所以这次想分享两篇最新Skill+Harness论文:

  • 第一篇 讲的是 Skill 学会之后,如何安全复用。
  • 第二篇 讲的是 Skill 进入真实系统后,Harness 这层工程架构应该长什么样。

第一篇:Skill 会复用,但不能乱复用

过去很多 Skill Learning 方法都有一个默认假设:只要某条轨迹成功了,就可以把它抽成 Skill,下次遇到类似任务直接复用。

听起来很自然,但论文指出了一个很危险的问题:成功轨迹不等于安全轨迹

一个任务成功完成,可能只是因为当时页面刚好没有弹窗,按钮位置刚好没变,权限刚好没触发,甚至页面里可能藏着 prompt injection。你把这条轨迹硬编码成 Skill,下次环境一变,它就可能从“效率工具”变成“风险放大器”。

传统 code skill 与 SkillHarness 的边界对比

这就是SkillHarness想解决的问题:Agent 不是只要学会 Skill,而是要学会什么时候不能用这个 Skill

它的关键设计,是把 Skill 拆成两层。

Macro skill记录高层意图、成功模式、失败教训和风险约束。它更像一份 Skill 的“使用说明书”:这个 Skill 适合什么任务,什么状态下不能用,什么条件算成功。

Micro skill则负责具体执行模板。它可以在当前页面状态里绑定参数并执行;如果绑定失败,系统不会强行跑完,而是回退到 LLM-guided planning。

这其实是一个很重要的观念变化:值得复用的不是一段固定代码,而是一组带边界的行为经验。

SkillHarness 总体框架

论文里最有说服力的证据,是 learned skills 的 unsafe rate。

也就是说,SkillHarness 把 learned skills 的 unsafe rate 压到了 **2.2%**,而 ASI 是 **75.0%**,SkillWeaver 是 **43.6%**。

消融实验也很关键:去掉skill boundary后,ASR 增加9.6 个百分点。这说明它真正有效的地方,不是多了一个模板执行器,而是给 Skill 加上了边界判断、风险约束和选择性复用。

在 OpenApps 的 UI 扰动场景里,SkillHarness 的 Skill Completion Rate 也更稳定。这说明 macro/micro 解耦确实能缓解 UI shift 下的脆弱复用。

OpenApps 扰动场景下的 Skill Completion Rate

所以第一篇的结论可以压成一句话:Skill 没有边界,复用就是风险。

第二篇:Harness 不是装饰层,而是运行时架构

提出了一个很有用的区分:skill artefactskill-in-use

前者是静态 Skill 文件、描述符、prompt、workflow 或工具说明;后者是一次真实运行里,被选择、被绑定上下文、被赋予权限、被 LLM 解释和执行的 Skill。

这两个东西完全不是一回事。

一个 Skill 文件写得再好,也不代表它在某次运行中应该被激活;它能声明自己需要某个 capability,也不代表它自动获得执行权限;它被调用过,也不代表它真的对结果产生了贡献。

Skill harnessing 的概念边界

这篇论文的价值,是把这些零散问题整理成了一个架构议题:agent skill harnessing

作者做了 multivocal literature review,筛选37 个系统51 篇论文,抽取342 条实践记录,归纳出10 个 skill-specific architectural patterns,再综合成一个四层 reference architecture。

其中 5 个核心模式很值得看:

Pattern大白话解释
Progressive Skill ActivationSkill 不要一上来全塞进上下文,要从 available、selectable 到 active 分阶段激活
Skill–Execution Authority SeparationSkill 可以声明需要某个能力,但不能自动获得执行权限
Verifiable Skill ContractSkill 用得对不对,要能被独立 verifier 检查
Runtime Skill Bill of Materials一次运行用了哪些 Skill、什么版本、证据在哪,要能追踪
Skill–Agent Co-Evolution Loop运行证据可以反哺 Skill 更新,但更新要经过验证

这几个模式连起来,基本就是一个 Agent Skill 产品化清单:选择、激活、权限、验证、证据、演化,一个都不能少。

Skill-mediated LLM agents 的参考架构

论文进一步把它们整理成四层架构:

  • Supply Chain:Skill 从哪里来、版本是什么、依赖什么、来源是否可追踪;
  • Mediation:哪些 Skill 可用,哪些适合当前任务,哪些能进入上下文;
  • Execution Control:权限、工具调用、执行边界和运行时修复;
  • Evidence & Feedback:trace、verification、Runtime Skill-BOM、候选更新和演化闭环。

我觉得这里最值得产品团队关注的是Runtime Skill Bill of Materials

它有点像软件供应链里的 SBOM:一次 Agent 运行中,哪些 Skill 被检索、哪些被激活、版本是什么、参与状态如何、证据链接在哪,都要记录下来。

Runtime Skill Bill of Materials

没有这层东西,你很难回答几个上线后一定会遇到的问题:

  • 某次错误输出到底和哪个 Skill 有关?
  • 某个 Skill 更新后,哪些运行受影响?
  • Agent 调用了 Skill,但它到底有没有对结果产生作用?
  • 验证失败后,应该修 prompt、修 Skill,还是修权限策略?

所以第二篇的结论也可以压成一句话:Harness 不是为了让 Skill 看起来更工程化,而是让 Skill 在运行时可控、可查、可验证、可演化。

为什么说 Skill + Harness 是无敌组合

Skill 负责复用能力,Harness 负责治理能力。Skill 让 Agent 会做事,Harness 让 Agent 知道什么该做、什么不该做、做完之后如何被追踪和改进。

Agent Skill 的下一步,不是堆更多 Skill,而是把 Skill 放进 Harness 里,让复用变得有边界、有权限、有证据、有验证、有演化。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/1112730/

相关文章:

  • 【计算机Java毕业设计案例】基于 SpringBoot 的线上教学资源整合推送系统的设计与实现 基于 SpringBoot 的成人远程继续教育管理平台(程序+文档+讲解+定制)
  • 免费开源项目文档:基于MATLAB图像处理的人脸识别签到系统设计与实现
  • CPT外汇:用视角方式看外汇行业合规表达,更容易形成稳定判断
  • Makefile基础使用
  • TDC7201与TDC7200芯片寄存器功能概述及main.c代码
  • 服务器内存与CPU协同工作知识测试题
  • 阿里terway源码分析
  • likeadmin-api 怎么做计费?从余额查询到点数消耗的接口设计
  • 2026年优选指南:探寻最佳服务的苦荞全麦片品牌
  • HAL库代码基础介绍
  • 每日技术推荐(全栈/游戏/应用开发)
  • 从 has.showToast 看 ASCF 的 API 调用链路
  • 一些碎碎念qjl--6
  • 手写 MCP Server 连数据库:50 行代码让 AI 学会查 SQL
  • 企业AI转型困境与能力建设实战指南
  • 聊一聊 Linux 上对函数进行 hook 的两种方式
  • CPT外汇:注重效率的使用者更在意的工具可用性,这里做个维度观察
  • 交叉熵损失函数实战指南:原理、陷阱与工业级调优
  • 千万不能忽视!选择防盗门时必须知道的5个关键点
  • 好用的看广告供应商哪个公司好
  • foo2zjs打印机驱动架构解析:从ZJ-Stream协议到企业级部署的完整技术方案
  • Windows10Debloater终极指南:轻松打造纯净高效的Windows 10系统
  • Java毕设选题推荐:基于 SpringBoot 的线上选课学习考核教育平台的设计与实现 智慧远程教育资源发布管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 三进制太玄经·八十一首(坤至乾·每行一卦标准版)
  • Loki MCP Server -支持Claude Desktop/Claude Code/Cursor 等客户端通过自然语言查询日志
  • 机器学习模型生产化落地:从Notebook到稳定服务的七步实战
  • 从寄存器映射到Modbus TCP组网:硬核拆解工业数据采集卡的通信协议架构
  • WebSocket 重连后 K 线还缺?Python 检测缺口 + REST 回补 + gap_report 留痕**
  • tModCodeAssist:泰拉瑞亚模组开发者的智能代码助手终极指南
  • Java计算机毕设之基于 SpringBoot 的中药饮片采购入库出库管控系统的设计与实现 基于 SpringBoot 的中药材供应商与采购订单管理系统(完整前后端代码+说明文档+LW,调试定制等)