当前位置: 首页 > news >正文

Claude Skills 2.0#技能基准A/B测试,你的技能可能正在悄悄“过期“


技能基准A/B测试:你的技能可能正在悄悄"过期"

你是否注意过,那些曾经让你引以为豪的技能,正在悄悄"变质"?

三个月前,你写了一个帮助 Claude 写 Landing Page 的技能。当时模型还不擅长这个,你的详细步骤确实让它表现得更好。

然后,Anthropic 发布了一个新模型。

这个新模型本身就非常擅长 Landing Page—— 甚至比你的技能指导下的表现更好。但你的旧技能还在那儿,顽固地告诉 Claude "按我说的步骤来"—— 即使那些步骤已经过时了。

结果呢?Claude 正在被你的技能拖累,而不是被帮助

这种情况大多数人根本注意不到。你的技能没有报错,没有崩溃,它只是—— 悄悄地,让你的输出变差了。

这就是 AI 时代的"技术债务":技能也会过期,而且你往往后知后觉。

Skills专项:如果没有自己的Skills,OpenClaw只能是一个玩具#Mixlab AI编程专项

两种技能的不同命运

理解技能为什么会"过期",需要先理解技能有两种类型:

Capability uplift(能力提升型):这类技能教 AI 做它本来做不好的事。随着模型能力变强,这些技能可能变得多余

关键信号是:如果基础模型(不加载技能)就能通过你的 eval 测试,说明模型的默认能力已经"吸收"了你的技能技巧。这时候,技能不是"坏了",而是"可以退休了"。

Encoded preference(偏好编码型):这类技能记录的是"流程"——模型已经会做每一步,但需要按你团队的方式串联起来。这类技能更持久,但也有风险:流程变了,技能没跟上也等于失效

无论是哪种类型,核心问题都是:你需要一个机制来"发现"技能何时失效。

A/B 测试:消除偏见的评判者

这就要说到 Anthropic 新引入的Comparator Agents(比较器代理)

这个功能解决了一个根本问题:当你修改了技能,怎么知道修改真的"变好"了?

传统的做法是——凭感觉。你运行一次,有改善,开心;没改善,困惑。但这有个致命问题:人类有确认偏见,我们倾向于看到我们想看到的结果。

Comparator Agents 的做法完全不同:

  • 它同时运行两个版本:技能 A vs 技能 B,或者"技能加载"vs"技能不加载"

  • 评判代理不知道哪个版本是哪个,所以不存在先入为主

  • 最后输出一个清晰结论:哪个版本更好,好多少

这就像在产品经理的世界里做 A/B 测试——数据说话,消除偏见。

《OpenClaw 蓝皮书》一份写给普通人的AI助手指南

跨学科视角:对比思维的源头

这种"对比"的思维方式,在多个领域都有深刻根源。

产品思维看,A/B 测试是互联网产品的基石——上线两个版本,让用户用脚投票,用数据替代"我以为"。

科学方法看,这是"控制变量"的精髓——只有一个因素不同,其他条件保持一致,然后观察结果差异。

版本控制的角度看,这和"创建分支对比不同方案,测试后选择最优,删除其他分支"的思路一脉相承。

三种视角指向同一个结论:没有对比的优化是盲目的,没有基准的迭代是无方向的。

Agent Skill 的 Script 架构设计指南:平衡认知与执行

行动框架:技能体检的节奏

建议每个 Mixlab 读者建立自己的"技能体检"节奏:

  1. 每次模型大更新后

    ,运行基准测试

  2. 记录"技能加载"vs"技能不加载"的对比结果
  3. 判断结果

  • 基础模型胜出 → 考虑退役技能

  • 技能险胜 → 继续保留但持续监控

  • 技能大比分胜出 → 保持并持续优化

  • 关注趋势

    :通过率变化趋势 > 单次分数

  • 工具选择上,用 Skill Creator 的 benchmark 模式可以批量运行所有 eval,生成一份完整的"技能健康报告"。

    新的Skill可以做的事情

    致最先触达未来的那一小部分人

    多数人还在为"技能数量"沾沾自喜时,聪明的玩家已经开始做"技能质量管理"。

    你的 AI 工作流不是一次性的项目,而是需要持续维护的"数字资产"。就像代码需要重构,技能也需要定期"体检"和"升级"。

    在这个 AI 能力指数级增长的时代,会维护技能的人,比会写技能的人更有价值。

    因为真正的问题从来不是"能不能写",而是"写了之后呢?"

    Skills专项:如果没有自己的Skills,OpenClaw只能是一个玩具


    参考文献

    [1] AI编程版本控制

    [2] Improving skill-creator: Test, measure, and refine Agent Skills.

    [3] Agent Skills Overview - Claude API Documentation.

    [4] A complete guide to building skills for Claude.

    [5] Claude Code.

http://www.jsqmd.com/news/474757/

相关文章:

  • AI辅助开发:描述需求即可自动生成流程图,快马让visio下载成为过去式
  • 2026年合肥局改全改公司盘点:五家实力企业解析 - 2026年企业推荐榜
  • CodeCombat:从云端到本地,解锁游戏化编程学习的无限可能
  • 基于MATLAB/Simulink的单相Boost型PFC电路设计与仿真优化
  • VMware虚拟机中高效部署WinServer2016的完整指南
  • DeEAR在ASR后处理中的应用:识别ASR输出文本对应原始语音的自然度可信度
  • 线性电机技术解析:从原理到高端应用
  • 深入解析C++ Protobuf中的repeated字段操作与性能优化
  • PaddleOCR文字检测模型预处理算子深度解析与实战调优
  • 微信小程序高效集成iconfont阿里矢量图库的实战指南
  • Z-Image-Turbo-rinaiqiao-huiyewunv保姆级教程:Streamlit session_state状态管理与多图缓存优化
  • PROJ 9.1.1源码编译实战:Win10+VS2022环境配置与疑难解决
  • 光电振荡器(OEO):从原理到应用,解锁高频微波信号新纪元
  • 2026年宜兴琉璃瓦供应商综合评测与选型指南 - 2026年企业推荐榜
  • 零代码实战:OpenPose多人动态骨骼识别与面部手部姿势解析
  • 7-3 动态规划实战:凸多边形最优三角剖分(附代码+图解+递推方程解析)Let‘s Go!
  • 5G NR信道栅格与同步栅格:优化网络同步与资源分配的关键技术
  • 实战指南:利用Python与GDAL/Rasterio高效合成Sentinel-2真彩色影像
  • 2026年Q1安徽除甲醛公司盘点:三家源头治理技术代表 - 2026年企业推荐榜
  • 从零构建:在Keil MDK中为STM32F103搭建RT-Thread Nano开发环境
  • TCRT5000反射式红外光电传感器:原理、电路设计与避障/循迹应用
  • 2026工业环保除尘设备优质厂家推荐榜:选矿厂除尘器、锅炉布袋除尘器改造、防爆除尘器、防爆除尘设备、滤筒除尘设备选择指南 - 优质品牌商家
  • ChatTTS音乐合作:人声旁白与旋律的融合尝试
  • 2026年3月投资纠纷律师上榜推荐:专业靠谱,精准维权​ - 外贸老黄
  • 打卡第十三天
  • DAMO-YOLO在工业机器人中的应用:智能分拣系统
  • React 颜色转换工具实战:从 HEX 到 CMYK 的全方位实现指南
  • 如何用3步搞定演唱会抢票?开源自动抢票工具全攻略
  • SRS4 实现海康威视GB28181协议推流与RTMP、WebRTC拉流全流程解析
  • Asian Beauty Z-Image Turbo效果实测:对“高级脸”“幼态脸”“大气骨相脸”三类风格支持