当前位置：首页 > news >正文

7B 模型拿到 97.5% 成功率：Agent 终于学会自己选技能、用技能、造新技能了！

news 2026/5/16 8:28:07

导读

一个 7B 参数的 Agent，在 ALFWorld 上跑出了 97.5% 的平均成功率，超过此前最强基线 2.6 个百分点。关键在于：它的技能库从零开始，由 Agent 自己检索、使用、蒸馏生成——整个过程只靠一个任务结果信号驱动。这篇来自中科大、美团、新加坡国立等团队的论文 Skill1，正在重新定义 Agent 和技能库之间的关系。

Agent 的"错题本"问题

过去一年，给 Agent 加技能库已经成了标配操作。ReAct、Reflexion 让 Agent 学会推理和反思，ExpeL、RetroAgent 让 Agent 把成功经验写进外部记忆。

但一个被反复忽视的问题是：检索技能的模块不知道执行效果，蒸馏技能的模块不知道检索偏好，三个环节各优化各的，奖励信号互相打架。

论文原话讲得很到位：

“Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution.”

「既有方法孤立地优化这些能力，或用不同的奖励来源，导致局部且冲突的演化。」

打个比方：一个学生做完数学题后写了错题本，但查错题本的流程、用错题本的流程、整理新错题的流程是三套互不沟通的系统。查的时候不知道上次用了有没有效果，整理的时候不知道哪些题型最该记。时间一长，错题本越写越厚，但考试成绩纹丝不动。

▲ Skill1 论文 arXiv 页面，标题直接点明"统一演化"

Skill1 的做法：一个 policy 管全程

Skill1 的核心思路：让同一个 policy 走完技能的全生命周期——从选择到使用到蒸馏，所有学习信号只来自最终任务结果。

具体流程拆开看：

**第一步，选技能。**Policy 针对当前任务生成一条自然语言 query，去技能库里做向量检索（用的是冻结的 all-MiniLM-L6-v2 编码器），拉回一批候选。然后 policy 自己对这些候选做重排序，选出最相关的那条技能。

**第二步，用技能。**选定技能后，policy 在该技能的条件下和环境交互，完成任务。技能在这里扮演的角色类似于一份策略提示——告诉 Agent 面对这类场景该怎么行动。

**第三步，造新技能。**任务结束后，policy 从整条交互轨迹里提取出两样东西：一个可复用的策略描述（reusable strategy），一个场景标签（scenario description）。只有成功的轨迹才会被写入技能库。

论文方法部分的原话：

“The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory.”

「policy 生成 query 检索技能库，重排候选选出技能，在该技能条件下解决任务，再从轨迹中蒸馏新技能。」

▲ DailyPapers 推文：训练同一个 policy，同时选择、使用、蒸馏技能

一个奖励信号，怎么驱动三件事？

整个框架里最精巧的设计在奖励分配上。

传统做法会给选择、使用、蒸馏各发一套奖励信号，结果三套信号互相矛盾，policy 左右为难。Skill1 只用一个终端任务结果 r(τ)，但从中拆出两个维度：

低频趋势（low-frequency trend）：用移动平均追踪某条技能被反复选用后的长期效果。如果一条技能持续带来好结果，说明它本身有价值，选择环节应该继续偏好它。这个信号驱动selection的学习。

高频变化（high-frequency variation）：看当前这次结果相对于长期趋势的偏差。如果某次使用了新蒸馏出的技能后，结果大幅超出移动平均，说明这条新技能带来了突破性的提升。这个信号驱动distillation的学习。

而utilization最直接——任务做成了就是正反馈，做砸了就是负反馈。

这套设计的好处在于：三个环节的梯度全部指向同一个目标——提高任务完成率。选择器学会找真正有用的技能，执行器学会把技能用好，蒸馏器学会生产下一轮能被用上的高质量技能。

97.5%：技能库确实在起作用

说了这么多机制，结果怎么样？

在 ALFWorld（一个包含 6 类家务任务的模拟环境）上，Skill1 跑出97.5% 的平均成功率，比此前最强的 RetroAgent 高出 2.6 个百分点，在 6 类任务中有 5 类排名第一。

在 WebShop（模拟电商购物的环境）上，Skill1 的分数达到 89.7，成功率 82.9，同样领跑。

但更值得关注的数据来自消融实验：

变体	ALFWorld 成功率
完整 Skill1	97.5%
去掉整个技能库	80.9%
去掉选择模块	91.8%
去掉蒸馏模块	92.4%

**去掉技能库，成功率直接掉了近 17 个百分点。**这组数据说明技能库对最终效果的贡献是实打实的，选择和蒸馏每一环都在发挥作用。

▲ Hugging Face Papers 社区页面，Skill1 登上当日论文榜第二名

几个需要冷静看的地方

在为 97.5% 的数字兴奋之前，有几个细节需要留意：

**第一，实验环境是受控模拟。**ALFWorld 和 WebShop 都是标准化 benchmark，任务模式相对固定。把这个结果直接外推到真实生产环境里的复杂 Agent，还需要更多验证。

**第二，代码仓库暂时无法访问。**论文声称代码在 GitHub 上开源（AlphaLab-USTC/Skill1），但采集时仓库页面返回 404。具体实现细节和复现情况，还需要等仓库上线后确认。

**第三，技能库有容量上限。**论文设定技能库最大容量为 5000 条。当 Agent 面对的任务类型持续扩展，技能库的检索效率和淘汰策略是否能跟上，论文没有深入讨论。

▲ ArxivLens 第三方研究解读页面

从"调用工具"到"管理技能生命周期"

把 Skill1 放到 Agent 研究的大脉络里看，它代表的趋势很明确：Agent 正在从"被动调用外部工具"走向"主动管理自己的技能生命周期"。

过去的 Agent 框架里，工具是静态的——你给它一把锤子，它就只能锤钉子。技能库比工具进了一步，Agent 可以积累经验。但传统技能库的检索、使用、更新三个环节各跑各的，本质上还是拼凑式架构。

Skill1 提出的方向是：**让 Agent 对技能库有完整的控制权——知道该找什么技能，知道怎么用这个技能，做完之后还能把经验提炼成新的技能反哺回技能库。**整个循环由同一个 policy 驱动，由同一个结果信号校准。

论文摘要里有个说法值得记住：

“A persistent skill library allows language model agents to reuse successful strategies across tasks.”

「持久技能库让语言模型 Agent 能跨任务复用成功策略。」

在 Hugging Face 社区的讨论里，这篇论文被放在 skill bank、agentic RL、self-improving agents 这几条研究线上讨论——它的邻居包括 Dynamic Dual-Granularity Skill Bank、ARISE、Co-Evolution of Policy and Internal Reward 等工作。这个方向的共识越来越清晰：Agent 的下一步进化，重点在于让经验可积累、可检索、可迭代。

Skill1 用一个 7B 模型和一个统一的 RL 框架，在这个方向上迈出了相当扎实的一步。至于这套方法能否从模拟环境走到真实世界的复杂任务，还需要后续工作来回答。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～