7B 模型拿到 97.5% 成功率:Agent 终于学会自己选技能、用技能、造新技能了!
导读
一个 7B 参数的 Agent,在 ALFWorld 上跑出了 97.5% 的平均成功率,超过此前最强基线 2.6 个百分点。关键在于:它的技能库从零开始,由 Agent 自己检索、使用、蒸馏生成——整个过程只靠一个任务结果信号驱动。这篇来自中科大、美团、新加坡国立等团队的论文 Skill1,正在重新定义 Agent 和技能库之间的关系。
Agent 的"错题本"问题
过去一年,给 Agent 加技能库已经成了标配操作。ReAct、Reflexion 让 Agent 学会推理和反思,ExpeL、RetroAgent 让 Agent 把成功经验写进外部记忆。
但一个被反复忽视的问题是:检索技能的模块不知道执行效果,蒸馏技能的模块不知道检索偏好,三个环节各优化各的,奖励信号互相打架。
论文原话讲得很到位:
“Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution.”
「既有方法孤立地优化这些能力,或用不同的奖励来源,导致局部且冲突的演化。」
打个比方:一个学生做完数学题后写了错题本,但查错题本的流程、用错题本的流程、整理新错题的流程是三套互不沟通的系统。查的时候不知道上次用了有没有效果,整理的时候不知道哪些题型最该记。时间一长,错题本越写越厚,但考试成绩纹丝不动。
▲ Skill1 论文 arXiv 页面,标题直接点明"统一演化"
Skill1 的做法:一个 policy 管全程
Skill1 的核心思路:让同一个 policy 走完技能的全生命周期——从选择到使用到蒸馏,所有学习信号只来自最终任务结果。
具体流程拆开看:
**第一步,选技能。**Policy 针对当前任务生成一条自然语言 query,去技能库里做向量检索(用的是冻结的 all-MiniLM-L6-v2 编码器),拉回一批候选。然后 policy 自己对这些候选做重排序,选出最相关的那条技能。
**第二步,用技能。**选定技能后,policy 在该技能的条件下和环境交互,完成任务。技能在这里扮演的角色类似于一份策略提示——告诉 Agent 面对这类场景该怎么行动。
**第三步,造新技能。**任务结束后,policy 从整条交互轨迹里提取出两样东西:一个可复用的策略描述(reusable strategy),一个场景标签(scenario description)。只有成功的轨迹才会被写入技能库。
论文方法部分的原话:
“The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory.”
「policy 生成 query 检索技能库,重排候选选出技能,在该技能条件下解决任务,再从轨迹中蒸馏新技能。」
▲ DailyPapers 推文:训练同一个 policy,同时选择、使用、蒸馏技能
一个奖励信号,怎么驱动三件事?
整个框架里最精巧的设计在奖励分配上。
传统做法会给选择、使用、蒸馏各发一套奖励信号,结果三套信号互相矛盾,policy 左右为难。Skill1 只用一个终端任务结果 r(τ),但从中拆出两个维度:
低频趋势(low-frequency trend):用移动平均追踪某条技能被反复选用后的长期效果。如果一条技能持续带来好结果,说明它本身有价值,选择环节应该继续偏好它。这个信号驱动selection的学习。
高频变化(high-frequency variation):看当前这次结果相对于长期趋势的偏差。如果某次使用了新蒸馏出的技能后,结果大幅超出移动平均,说明这条新技能带来了突破性的提升。这个信号驱动distillation的学习。
而utilization最直接——任务做成了就是正反馈,做砸了就是负反馈。
这套设计的好处在于:三个环节的梯度全部指向同一个目标——提高任务完成率。选择器学会找真正有用的技能,执行器学会把技能用好,蒸馏器学会生产下一轮能被用上的高质量技能。
97.5%:技能库确实在起作用
说了这么多机制,结果怎么样?
在 ALFWorld(一个包含 6 类家务任务的模拟环境)上,Skill1 跑出97.5% 的平均成功率,比此前最强的 RetroAgent 高出 2.6 个百分点,在 6 类任务中有 5 类排名第一。
在 WebShop(模拟电商购物的环境)上,Skill1 的分数达到 89.7,成功率 82.9,同样领跑。
但更值得关注的数据来自消融实验:
| 变体 | ALFWorld 成功率 |
|---|---|
| 完整 Skill1 | 97.5% |
| 去掉整个技能库 | 80.9% |
| 去掉选择模块 | 91.8% |
| 去掉蒸馏模块 | 92.4% |
**去掉技能库,成功率直接掉了近 17 个百分点。**这组数据说明技能库对最终效果的贡献是实打实的,选择和蒸馏每一环都在发挥作用。
▲ Hugging Face Papers 社区页面,Skill1 登上当日论文榜第二名
几个需要冷静看的地方
在为 97.5% 的数字兴奋之前,有几个细节需要留意:
**第一,实验环境是受控模拟。**ALFWorld 和 WebShop 都是标准化 benchmark,任务模式相对固定。把这个结果直接外推到真实生产环境里的复杂 Agent,还需要更多验证。
**第二,代码仓库暂时无法访问。**论文声称代码在 GitHub 上开源(AlphaLab-USTC/Skill1),但采集时仓库页面返回 404。具体实现细节和复现情况,还需要等仓库上线后确认。
**第三,技能库有容量上限。**论文设定技能库最大容量为 5000 条。当 Agent 面对的任务类型持续扩展,技能库的检索效率和淘汰策略是否能跟上,论文没有深入讨论。
▲ ArxivLens 第三方研究解读页面
从"调用工具"到"管理技能生命周期"
把 Skill1 放到 Agent 研究的大脉络里看,它代表的趋势很明确:Agent 正在从"被动调用外部工具"走向"主动管理自己的技能生命周期"。
过去的 Agent 框架里,工具是静态的——你给它一把锤子,它就只能锤钉子。技能库比工具进了一步,Agent 可以积累经验。但传统技能库的检索、使用、更新三个环节各跑各的,本质上还是拼凑式架构。
Skill1 提出的方向是:**让 Agent 对技能库有完整的控制权——知道该找什么技能,知道怎么用这个技能,做完之后还能把经验提炼成新的技能反哺回技能库。**整个循环由同一个 policy 驱动,由同一个结果信号校准。
论文摘要里有个说法值得记住:
“A persistent skill library allows language model agents to reuse successful strategies across tasks.”
「持久技能库让语言模型 Agent 能跨任务复用成功策略。」
在 Hugging Face 社区的讨论里,这篇论文被放在 skill bank、agentic RL、self-improving agents 这几条研究线上讨论——它的邻居包括 Dynamic Dual-Granularity Skill Bank、ARISE、Co-Evolution of Policy and Internal Reward 等工作。这个方向的共识越来越清晰:Agent 的下一步进化,重点在于让经验可积累、可检索、可迭代。
Skill1 用一个 7B 模型和一个统一的 RL 框架,在这个方向上迈出了相当扎实的一步。至于这套方法能否从模拟环境走到真实世界的复杂任务,还需要后续工作来回答。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
