阿里SkillClaw:让 Agent 技能在真实使用中集体进化
当前 LLM Agent(如 OpenClaw)依赖**可复用的技能(Skills)**来完成复杂任务。用户从 Skill Hub 安装技能后,Agent 就能调用这些结构化流程来协调工具使用、执行多步推理。
但这里存在一个根本性问题:技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败(比如参数格式错误、工具调用顺序不对、环境配置缺失),它可能通过多轮试错最终找到解决方案,但这些改进只停留在当前会话,不会被固化到技能库中,也无法传递给其他用户。
本质上,每个用户都在独立地"重新发现"同样的解决方案,系统层面的知识无法累积。
这正是 SkillClaw 要解决的问题:如何让 Agent 技能在真实使用中持续进化,并将一个用户的经验转化为全系统的共享能力?
二、核心思想:集体进化闭环
Figure 1: SkillClaw 整体架构
SkillClaw 提出了一种中心化进化架构,将多用户交互视为技能改进的核心信号:
用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互2.1 从孤立会话到共享证据
SkillClaw 首先将每个交互会话转化为结构化轨迹(Trajectory),完整保留因果链:
用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应关键洞察在于:**当不同用户在不同场景下调用同一个技能时,产生的成功/失败模式构成了对该技能行为边界的"自然消融实验"**。单个用户的数据不足以区分"通用改进"和"特例修复",但聚合多用户证据后,稳定的进化方向就会浮现。
会话按引用的技能分组:
- **G(s)**:所有调用技能 s 的会话
- **G(∅)**:未调用任何技能的会话(用于发现缺失的可复用流程)
三、Agentic Evolver:开放推理驱动的技能更新
SkillClaw 的核心是一个Agentic Evolver——一个配备结构化 Harness 的 LLM Agent,负责对共享技能库进行开放推理式更新。
给定技能 s 及其会话组 G(s),Evolver 执行三种操作之一:
| 操作 | 说明 |
|---|---|
| Refine(精炼) | 基于失败模式修正技能,提升鲁棒性 |
| Create(创建) | 当发现现有技能未覆盖的可复用子流程时,创建新技能 |
| Skip(跳过) | 证据不足时保持技能不变 |
关键设计:Evolver 始终联合分析成功和失败会话。成功会话定义了技能的"不变量"(必须保留的有效部分),失败会话定义了"目标"(需要修正的具体行为)。这防止了"修一个 bug 引入三个新 bug"的常见失败模式。
算法流程:
算法1Agentic 集体技能进化流程。将用户会话转为结构化证据,按技能分组后由 Evolver 分析模式并生成候选更新,经保守编辑和验证后合并到共享库。
四、夜间验证:确保只部署"真改进"
进化后的候选技能不会直接上线,而是进入夜间验证阶段:
- 从当日交互数据中选择相关验证任务
- 在真实环境中同时执行旧技能 s 和新候选技能 s’
- 比较整体任务成功率和执行稳定性
- 仅当 s’ 确实优于 s 时才接受(Accept),否则拒绝(Reject)
这保证了单调部署行为——已部署的技能池不会随时间退化,用户始终与"前一晚验证通过的最佳技能池"交互。
五、实验:WildClawBench 上的 6 天进化
5.1 评测基准
实验在WildClawBench上进行,包含 60 个跨 6 大领域的复杂真实任务:
关键特性:
- 真实执行环境:完整 Linux 容器 + 工具链
- 多模态输入:文本、代码、图像、视频
- 严格约束:关键错误 → 零分
- 长程任务:15-50 步交互
5.2 实验设置
- 模型:Qwen3-Max
- 用户:8 个并发用户
- 周期:6 天(6 轮昼夜循环)
- 机制:白天用户交互 → 夜间进化+验证 → 次日部署
5.3 主结果:持续稳定的性能提升
表3用户侧日间结果(最佳技能部署视角)。Day 1 为基线;Day 2-6 为每夜验证决策后继承的最佳技能池。
关键发现:
- 社交交互最早提升(Day 2 即达稳态),说明存在高影响的工作流瓶颈,一旦修复即广泛受益
- 搜索检索呈阶梯式提升,先解决输入验证问题,再构建高层检索规划能力
- 创意合成早期跃升最大(+88%),瓶颈不在内容生成本身,而在环境配置和文件处理
- 安全对齐提升较晚,聚焦于真实环境下的执行可靠性(Git 回退、目录克隆协议等)
5.4 夜间进化细节
各领域的进化轨迹高度异质:
社交交互(表4):仅03_task6(跨部门 Slack 摘要)在 Night 1 被接受,将描述性指令重写为严格有序的工作流后性能跃升。
Table 4: 社交交互夜间进化
搜索检索(表5):两阶段进化——Night 1 接受validate-file-existence(文件存在性预检),Night 3 接受best-so-far confirmation(当前最佳确认)。
Table 5: 搜索检索夜间进化
创意合成(表6):仅 Night 1 的validate-tmp-workspace-inputs被接受,验证临时工作区输入和环境设置。
5.5 受控验证
在三个定制查询上的受控实验显示,单轮进化平均提升 **+42.1%**:
| 查询 | 基线 | 进化后 | 提升 |
|---|---|---|---|
| 基础提取 | 21.7% | 69.6% | +47.8% |
| 截止日期解析 | 41.1% | 48.0% | +6.9% |
| 保存报告 | 28.3% | 100.0% | +71.7% |
Table 8: 受控验证结果
洞察:当失败源于缺失或不正确的程序性知识时,技能进化特别有效;而依赖细微推理的任务对程序性更新较不敏感。
六、案例研究:进化如何改变 Agent 行为
案例2:ICCV 2025 论文统计(精确性提升)
图3ICCV 2025 Oral 论文分析案例。原始 Agent 依赖大学名称的启发式匹配,进化后的技能引入基于官方 PDF 首页结构的严格"第一单位"定义,并对模糊案例执行定向复核。
改进维度:
- 精确任务定义:用严格结构定义替代模糊匹配
- 验证感知推理:对不确定案例显式复核
- 鲁棒提取:自动解析 + 定向验证结合
案例4:多条件手机选购(约束感知决策)
图5多条件产品选择案例。原始 Agent 依赖松散搜索和启发式匹配,进化后的技能引入结构化约束感知工作流:系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。
改进维度:
- 约束感知推理:基于显式多条件验证决策
- ** grounded 检索**:优先权威来源而非通用结果
- 校准决策:承认不确定性,不过度解读部分匹配
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
