当前位置：首页 > news >正文

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

news 2026/3/27 9:07:12

SkillsBench 论文核心总结与关键翻译

一、主要内容

本文针对大语言模型（LLM）代理的技能（Agent Skills）缺乏标准化评估方法的问题，提出了首个聚焦技能评估的基准测试平台SKILLSBENCH。该平台通过系统实验量化了技能对代理性能的影响，核心内容如下：

1. 基准测试设计

任务覆盖：包含11个领域的84个任务（源自322个候选任务的严格筛选），涵盖医疗、制造、软件工程、金融等，按难度分为核心级（<60分钟）、扩展级（1-4小时）和极限级（>4小时）。
评估条件：每个任务在三种条件下测试——无技能（仅任务说明）、人工精选技能（含指令、代码模板等结构化资源）、模型自生成技能（提示模型自主创建程序性知识）。
实验配置：测试7种代理-模型组合（3种商业代理框架：Claude Code、Gemini CLI、Codex CLI；7种前沿模型：GPT-5.2、Claude Opus 4.5/4.6等），累计7,308条有效执行轨迹。

2. 核心实验发现

人工精选技能平均提升通过率16.2个百分点，但领域差异显著：医疗领域受益最大（+51.9pp），软件工程领域提升最小（+4.5pp）。
模型自生成技能无正面收益（平均-1.3pp），仅Claude Op

http://www.jsqmd.com/news/474967/

相关文章：

SenseVoice Small部署教程：修复路径错误+导入失败+联网卡顿全方案

深入解析RK3588 SDK目录结构：嵌入式Linux开发必备指南

【愚公系列】《剪映+DeepSeek+即梦：短视频制作》001-初识剪映：快速打开短视频制作的大门（下载、安装与登录）

Webpack模块打包原理与Tree Shaking机制解析

Linux-包教包会系列之-shell

Vite：基于 ESM 的极速构建工具链探索

从编译到实战：RocketMQ-CPP 2.2.0在CentOS8上的完整开发指南（含生产者/消费者示例）

三开发机器学习系统的过程

免费使用openclaw真的好用——OpenClaw与OpenClaw Zero Token优劣势深度剖析

OpenClaw源码分析（二）:工作流程与原理

2026年中国视联网行业市场调研报告：从泛在连接到价值重构

从移动激光点云到高精地图：道路标线智能识别与结构化建模全流程解析

计算机视觉（五）全连接神经网络MLP实战：从理论到代码实现

CTFHUB-XSS-反射型实战：从漏洞检测到Cookie窃取

深入STM32-寄存器编程实战解析

Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

[技术解析] 构建AI驱动的GEO搜索引擎优化平台

Multi-agent cooperation through in-context co-player inference

深入解析MANGOS数据库结构表：魔兽世界私服开发者的终极指南

华为eNSP实战：USG5500防火墙IPsec虚拟专用网配置避坑指南（附拓扑图）

WebWorld: A Large-Scale World Model for Web Agent Training

5分钟搞定frp内网穿透：从零配置到远程访问本地Web服务

构建无限免费的AI编程伙伴：VSCode + Roo Code + Gemini Balance负载均衡策略详解

Netty实战：HttpObjectAggregator如何解决HTTP分块传输的烦恼？

构建低代码平台：通过 Dify 将 Flux Sea Studio 能力封装为可视化 AI 工作流

保姆级教程：神州数码交换机/路由器/防火墙串口恢复出厂设置全攻略（附SecureCRT配置）

小白也能玩转CVPR模型：MogFace人脸检测工具部署实录

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

避坑指南：用Python的OP模块开发游戏脚本时遇到的5个常见问题

从零理解NP-Hard：程序员如何用近似算法搞定这些‘不可能’问题？