当前位置: 首页 > news >正文

阿里SkillClaw:让 Agent 技能在真实使用中集体进化

当前 LLM Agent(如 OpenClaw)依赖**可复用的技能(Skills)**来完成复杂任务。用户从 Skill Hub 安装技能后,Agent 就能调用这些结构化流程来协调工具使用、执行多步推理。

但这里存在一个根本性问题:技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败(比如参数格式错误、工具调用顺序不对、环境配置缺失),它可能通过多轮试错最终找到解决方案,但这些改进只停留在当前会话,不会被固化到技能库中,也无法传递给其他用户。

本质上,每个用户都在独立地"重新发现"同样的解决方案,系统层面的知识无法累积。

这正是 SkillClaw 要解决的问题:如何让 Agent 技能在真实使用中持续进化,并将一个用户的经验转化为全系统的共享能力?

二、核心思想:集体进化闭环

Figure 1: SkillClaw 整体架构

SkillClaw 提出了一种中心化进化架构,将多用户交互视为技能改进的核心信号:

用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互

2.1 从孤立会话到共享证据

SkillClaw 首先将每个交互会话转化为结构化轨迹(Trajectory),完整保留因果链:

用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应

关键洞察在于:**当不同用户在不同场景下调用同一个技能时,产生的成功/失败模式构成了对该技能行为边界的"自然消融实验"**。单个用户的数据不足以区分"通用改进"和"特例修复",但聚合多用户证据后,稳定的进化方向就会浮现。

会话按引用的技能分组:

  • **G(s)**:所有调用技能 s 的会话
  • **G(∅)**:未调用任何技能的会话(用于发现缺失的可复用流程)

三、Agentic Evolver:开放推理驱动的技能更新

SkillClaw 的核心是一个Agentic Evolver——一个配备结构化 Harness 的 LLM Agent,负责对共享技能库进行开放推理式更新。

给定技能 s 及其会话组 G(s),Evolver 执行三种操作之一:

操作说明
Refine(精炼)基于失败模式修正技能,提升鲁棒性
Create(创建)当发现现有技能未覆盖的可复用子流程时,创建新技能
Skip(跳过)证据不足时保持技能不变

关键设计:Evolver 始终联合分析成功和失败会话。成功会话定义了技能的"不变量"(必须保留的有效部分),失败会话定义了"目标"(需要修正的具体行为)。这防止了"修一个 bug 引入三个新 bug"的常见失败模式。

算法流程

算法1Agentic 集体技能进化流程。将用户会话转为结构化证据,按技能分组后由 Evolver 分析模式并生成候选更新,经保守编辑和验证后合并到共享库。

四、夜间验证:确保只部署"真改进"

进化后的候选技能不会直接上线,而是进入夜间验证阶段

  1. 从当日交互数据中选择相关验证任务
  2. 在真实环境中同时执行旧技能 s 和新候选技能 s’
  3. 比较整体任务成功率和执行稳定性
  4. 仅当 s’ 确实优于 s 时才接受(Accept),否则拒绝(Reject)

这保证了单调部署行为——已部署的技能池不会随时间退化,用户始终与"前一晚验证通过的最佳技能池"交互。

五、实验:WildClawBench 上的 6 天进化

5.1 评测基准

实验在WildClawBench上进行,包含 60 个跨 6 大领域的复杂真实任务:

关键特性:

  • 真实执行环境:完整 Linux 容器 + 工具链
  • 多模态输入:文本、代码、图像、视频
  • 严格约束:关键错误 → 零分
  • 长程任务:15-50 步交互

5.2 实验设置

  • 模型:Qwen3-Max
  • 用户:8 个并发用户
  • 周期:6 天(6 轮昼夜循环)
  • 机制:白天用户交互 → 夜间进化+验证 → 次日部署

5.3 主结果:持续稳定的性能提升

表3用户侧日间结果(最佳技能部署视角)。Day 1 为基线;Day 2-6 为每夜验证决策后继承的最佳技能池。

关键发现

  • 社交交互最早提升(Day 2 即达稳态),说明存在高影响的工作流瓶颈,一旦修复即广泛受益
  • 搜索检索呈阶梯式提升,先解决输入验证问题,再构建高层检索规划能力
  • 创意合成早期跃升最大(+88%),瓶颈不在内容生成本身,而在环境配置和文件处理
  • 安全对齐提升较晚,聚焦于真实环境下的执行可靠性(Git 回退、目录克隆协议等)

5.4 夜间进化细节

各领域的进化轨迹高度异质:

社交交互(表4):仅03_task6(跨部门 Slack 摘要)在 Night 1 被接受,将描述性指令重写为严格有序的工作流后性能跃升。

Table 4: 社交交互夜间进化

搜索检索(表5):两阶段进化——Night 1 接受validate-file-existence(文件存在性预检),Night 3 接受best-so-far confirmation(当前最佳确认)。

Table 5: 搜索检索夜间进化

创意合成(表6):仅 Night 1 的validate-tmp-workspace-inputs被接受,验证临时工作区输入和环境设置。

5.5 受控验证

在三个定制查询上的受控实验显示,单轮进化平均提升 **+42.1%**:

查询基线进化后提升
基础提取21.7%69.6%+47.8%
截止日期解析41.1%48.0%+6.9%
保存报告28.3%100.0%+71.7%

Table 8: 受控验证结果

洞察:当失败源于缺失或不正确的程序性知识时,技能进化特别有效;而依赖细微推理的任务对程序性更新较不敏感。

六、案例研究:进化如何改变 Agent 行为

案例2:ICCV 2025 论文统计(精确性提升)

图3ICCV 2025 Oral 论文分析案例。原始 Agent 依赖大学名称的启发式匹配,进化后的技能引入基于官方 PDF 首页结构的严格"第一单位"定义,并对模糊案例执行定向复核。

改进维度

  1. 精确任务定义:用严格结构定义替代模糊匹配
  2. 验证感知推理:对不确定案例显式复核
  3. 鲁棒提取:自动解析 + 定向验证结合

案例4:多条件手机选购(约束感知决策)

图5多条件产品选择案例。原始 Agent 依赖松散搜索和启发式匹配,进化后的技能引入结构化约束感知工作流:系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。

改进维度

  1. 约束感知推理:基于显式多条件验证决策
  2. ** grounded 检索**:优先权威来源而非通用结果
  3. 校准决策:承认不确定性,不过度解读部分匹配

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/691144/

相关文章:

  • 2026无泄漏液下泵厂家推荐 江苏玖弘泵业产能与专利双领先 - 爱采购寻源宝典
  • 2026防风抑尘网厂家推荐排行榜产能、专利、环保三维度权威对比 - 爱采购寻源宝典
  • 3步掌握D3KeyHelper:为什么这个暗黑3宏工具能提升你的游戏效率?
  • 2026环模颗粒成型机厂家推荐排行榜产能与专利双优企业引领行业 - 爱采购寻源宝典
  • 【技术团队拆解】小鹏智驾核心架构:从吴新宙到刘先明,AI重构下的三次组织跃迁
  • 9 款 AI 写论文哪个好?2026 深度实测:虎贲等考 AI 凭真文献 + 实图表稳居毕业论文首选
  • 从OTA设计反推:为什么你的电流镜性能不达标?可能是Cascode没选对
  • 2026年热门的郑州除甲醛神器/郑州新房除甲醛批量采购厂家推荐 - 行业平台推荐
  • 2026彩钢围挡厂家推荐 河北围挡交通防护设施领衔(产能/专利/服务三维度权威榜单) - 爱采购寻源宝典
  • 低成本改造工业表计接入LoRaWAN:EdgeBus与ThinkLink构建完整物联网闭环
  • 刚刚,阿里Qwen3.6又悄悄放出4个开源权重,卷疯了
  • 网络工程师(第6版)详细目录
  • 2026青岛奢侈品回收技术分享:青岛黄金回收、青岛二手奢侈品店、青岛名包回收、青岛名表回收、青岛奢侈品抵押、青岛房车租赁选择指南 - 优质品牌商家
  • 2026有效降噪市政绿化厂家推荐排行榜从产能到环保的权威对比 - 爱采购寻源宝典
  • 溯源黄帝内经养生智慧 当代日常饮食养生实用全指南(2)
  • Phi-3.5-mini-instruct效果对比:中文开放域问答MMLU子集得分达68.4分
  • 2026南宁路虎专业维修机构名录:南宁路虎汽车改装、南宁路虎钣金喷漆、广西捷豹汽车改装、广西路虎汽车改装、南宁捷豹专修选择指南 - 优质品牌商家
  • 别再乱放CSS和JS了!ASP.NET Core项目里wwwroot文件夹的正确打开方式
  • 我的openclaw为什么做个普通的操作每次都要咨询我同意?
  • LXC 容器网络无法正常连接问题总结与解决方案
  • 别再只盯着算法了!搭建一个高可用的实时配送调度系统,架构设计与工程实践才是关键
  • 东光GEO软件平台
  • 致谢文章又+1,生物信息学+机器学习鉴定驱动糖尿病肾病免疫激活和小管间隙损伤的PANoptosis枢纽基因
  • 2026年比较好的精小型电动执行器/电动执行器/防爆执行器/Q型电动执行器源头工厂推荐 - 行业平台推荐
  • 还在靠“感觉”做视频?聪明人都在用智创侠AI的智能体批量“复制”爆款视频
  • 了解大模型
  • 【阿里云/字节/SRE团队内部流出】:Docker 27资源监控9大反模式+3套压测验证脚本(限免72小时)
  • Fairseq-Dense-13B-Janeway多场景:从课堂演示到出版前审校的AI协同写作闭环
  • HunyuanVideo-Foley问题解决:显存不足、长视频处理等实战技巧分享
  • Python办公自动化:用python-docx库,把Word文档玩出Excel的感觉(附完整代码)