北大:Agent Skills被结构化图谱讲清楚了
当你在Agent平台上安装一个第三方技能时,你真的知道它会做什么吗?
现在的Agent系统里,Skill通常是一份SKILL.md文件——本质上就是一篇长文档,里面混杂着调用方式、执行步骤、工具调用和资源访问。对人类来说还能凑合读,但对机器来说,要在几千个技能里找到对的那个,或者判断一个技能有没有安全风险,就得从大段自然语言里"猜"关键信息。
它怎么做
SSL的思路很清晰:把一份技能文档拆成三层,每层各管各的信号。
调度层(Scheduling)描述"这个技能是干什么的"——意图、输入输出、标签、依赖、控制流特征。你可以把它理解成技能的"名片",用于快速匹配和路由。
结构层(Structural)把技能的执行过程拆成有序的场景阶段——准备、获取、推理、行动、验证、恢复。每一阶段有自己的目标、输入输出和退出条件。这层让技能的执行流程变得可视化。
逻辑层(Logical)深入到最细粒度的原子操作:读了什么文件、调了什么工具、写了什么数据、碰了哪些资源。每个操作都有类型化的动作原语(READ、WRITE、CALL_TOOL、TRANSFER等)和资源边界(MEMORY、LOCAL_FS、NETWORK、CREDENTIALS等)。
三层之间通过包含关系和入口指针连接,形成一个从粗到细的分层图谱。关键设计原则是:所有字段必须来自原始文档,不允许推断或编造信息。这是一种保守但可靠的做法——SSL只呈现文档里能看到的,不猜测看不到的。
论文还提供了一个基于LLM的归一化器,可以把现有的SKILL.md文件自动转换成SSL结构,包括四步流水线:提取技能级记录、分解场景、展开逻辑步骤、验证图的完整性。
证据在哪
实验在两个任务上验证了SSL的效果。
技能发现方面,研究团队构建了一个包含6,184个公开技能的语料库和403个任务导向的查询。最好的SSL增强输入(Desc + SSL-Rich)将检索MRR从0.573提升到0.707,提升幅度约**23%**。值得注意的是,简洁的结构化摘要比直接嵌入完整原文档效果更好——这说明结构化不是"给更多信息",而是"给对的信息"。
风险评估方面,500个技能在六个风险维度上打分(数据外泄、破坏性行为、提权、隐蔽执行、资源滥用、凭证访问)。SKILL.md加SSL的组合视图将宏观F1从0.744提升到0.787。SSL在破坏性行为、凭证访问、数据外泄这些和具体操作、资源紧密相关的维度上优势最明显;但在提权和资源滥用这类需要更广泛上下文判断的维度上,完整原文仍有竞争力。
一个关键结论是:SSL不应该替代原始文档,而是应该和原始文档配合使用。结构指向相关证据,文本提供解释上下文,两者缺一不可。
这意味着什么
这篇论文的真正价值不在于提出了多复杂的模型,而在于指出了一个被忽视的基础设施问题:Agent系统需要一个共享的技能清单层。
没有这样一层表示,注册表、路由器、策略检查器和安全审查员都只能各自从同一份SKILL.md里反复提取相似的事实。SSL把这些事实固化下来,让不同下游任务各取所需:注册表索引调用信号,检查器暴露阶段结构,审查员查看逻辑级操作和资源使用证据。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
