当前位置：首页 > news >正文

阿里SkillClaw：让 Agent 技能在真实使用中集体进化

news 2026/4/24 6:13:06

当前 LLM Agent（如 OpenClaw）依赖**可复用的技能（Skills）**来完成复杂任务。用户从 Skill Hub 安装技能后，Agent 就能调用这些结构化流程来协调工具使用、执行多步推理。

但这里存在一个根本性问题：技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败（比如参数格式错误、工具调用顺序不对、环境配置缺失），它可能通过多轮试错最终找到解决方案，但这些改进只停留在当前会话，不会被固化到技能库中，也无法传递给其他用户。

本质上，每个用户都在独立地"重新发现"同样的解决方案，系统层面的知识无法累积。

这正是 SkillClaw 要解决的问题：如何让 Agent 技能在真实使用中持续进化，并将一个用户的经验转化为全系统的共享能力？

二、核心思想：集体进化闭环

Figure 1: SkillClaw 整体架构

SkillClaw 提出了一种中心化进化架构，将多用户交互视为技能改进的核心信号：

用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互

2.1 从孤立会话到共享证据

SkillClaw 首先将每个交互会话转化为结构化轨迹（Trajectory），完整保留因果链：

用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应

关键洞察在于：**当不同用户在不同场景下调用同一个技能时，产生的成功/失败模式构成了对该技能行为边界的"自然消融实验"**。单个用户的数据不足以区分"通用改进"和"特例修复"，但聚合多用户证据后，稳定的进化方向就会浮现。

会话按引用的技能分组：

**G(s)**：所有调用技能 s 的会话
**G(∅)**：未调用任何技能的会话（用于发现缺失的可复用流程）

三、Agentic Evolver：开放推理驱动的技能更新

SkillClaw 的核心是一个Agentic Evolver——一个配备结构化 Harness 的 LLM Agent，负责对共享技能库进行开放推理式更新。

给定技能 s 及其会话组 G(s)，Evolver 执行三种操作之一：

操作	说明
Refine（精炼）	基于失败模式修正技能，提升鲁棒性
Create（创建）	当发现现有技能未覆盖的可复用子流程时，创建新技能
Skip（跳过）	证据不足时保持技能不变

关键设计：Evolver 始终联合分析成功和失败会话。成功会话定义了技能的"不变量"（必须保留的有效部分），失败会话定义了"目标"（需要修正的具体行为）。这防止了"修一个 bug 引入三个新 bug"的常见失败模式。

算法流程：

算法1Agentic 集体技能进化流程。将用户会话转为结构化证据，按技能分组后由 Evolver 分析模式并生成候选更新，经保守编辑和验证后合并到共享库。

四、夜间验证：确保只部署"真改进"

进化后的候选技能不会直接上线，而是进入夜间验证阶段：

从当日交互数据中选择相关验证任务
在真实环境中同时执行旧技能 s 和新候选技能 s’
比较整体任务成功率和执行稳定性
仅当 s’ 确实优于 s 时才接受（Accept），否则拒绝（Reject）

这保证了单调部署行为——已部署的技能池不会随时间退化，用户始终与"前一晚验证通过的最佳技能池"交互。

五、实验：WildClawBench 上的 6 天进化

5.1 评测基准

实验在WildClawBench上进行，包含 60 个跨 6 大领域的复杂真实任务：

关键特性：

真实执行环境：完整 Linux 容器 + 工具链
多模态输入：文本、代码、图像、视频
严格约束：关键错误 → 零分
长程任务：15-50 步交互

5.2 实验设置

模型：Qwen3-Max
用户：8 个并发用户
周期：6 天（6 轮昼夜循环）
机制：白天用户交互 → 夜间进化+验证 → 次日部署

5.3 主结果：持续稳定的性能提升

表3用户侧日间结果（最佳技能部署视角）。Day 1 为基线；Day 2-6 为每夜验证决策后继承的最佳技能池。

关键发现：

社交交互最早提升（Day 2 即达稳态），说明存在高影响的工作流瓶颈，一旦修复即广泛受益
搜索检索呈阶梯式提升，先解决输入验证问题，再构建高层检索规划能力
创意合成早期跃升最大（+88%），瓶颈不在内容生成本身，而在环境配置和文件处理
安全对齐提升较晚，聚焦于真实环境下的执行可靠性（Git 回退、目录克隆协议等）

5.4 夜间进化细节

各领域的进化轨迹高度异质：

社交交互（表4）：仅03_task6（跨部门 Slack 摘要）在 Night 1 被接受，将描述性指令重写为严格有序的工作流后性能跃升。

Table 4: 社交交互夜间进化

搜索检索（表5）：两阶段进化——Night 1 接受validate-file-existence（文件存在性预检），Night 3 接受best-so-far confirmation（当前最佳确认）。

Table 5: 搜索检索夜间进化

创意合成（表6）：仅 Night 1 的validate-tmp-workspace-inputs被接受，验证临时工作区输入和环境设置。

5.5 受控验证

在三个定制查询上的受控实验显示，单轮进化平均提升 **+42.1%**：

查询	基线	进化后	提升
基础提取	21.7%	69.6%	+47.8%
截止日期解析	41.1%	48.0%	+6.9%
保存报告	28.3%	100.0%	+71.7%

Table 8: 受控验证结果

洞察：当失败源于缺失或不正确的程序性知识时，技能进化特别有效；而依赖细微推理的任务对程序性更新较不敏感。

六、案例研究：进化如何改变 Agent 行为

案例2：ICCV 2025 论文统计（精确性提升）

图3ICCV 2025 Oral 论文分析案例。原始 Agent 依赖大学名称的启发式匹配，进化后的技能引入基于官方 PDF 首页结构的严格"第一单位"定义，并对模糊案例执行定向复核。

改进维度：

精确任务定义：用严格结构定义替代模糊匹配
验证感知推理：对不确定案例显式复核
鲁棒提取：自动解析 + 定向验证结合

案例4：多条件手机选购（约束感知决策）

图5多条件产品选择案例。原始 Agent 依赖松散搜索和启发式匹配，进化后的技能引入结构化约束感知工作流：系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。

改进维度：

约束感知推理：基于显式多条件验证决策
** grounded 检索**：优先权威来源而非通用结果
校准决策：承认不确定性，不过度解读部分匹配

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～