当前位置: 首页 > news >正文

7B 模型拿到 97.5% 成功率:Agent 终于学会自己选技能、用技能、造新技能了!

导读

一个 7B 参数的 Agent,在 ALFWorld 上跑出了 97.5% 的平均成功率,超过此前最强基线 2.6 个百分点。关键在于:它的技能库从零开始,由 Agent 自己检索、使用、蒸馏生成——整个过程只靠一个任务结果信号驱动。这篇来自中科大、美团、新加坡国立等团队的论文 Skill1,正在重新定义 Agent 和技能库之间的关系。

Agent 的"错题本"问题

过去一年,给 Agent 加技能库已经成了标配操作。ReAct、Reflexion 让 Agent 学会推理和反思,ExpeL、RetroAgent 让 Agent 把成功经验写进外部记忆。

但一个被反复忽视的问题是:检索技能的模块不知道执行效果,蒸馏技能的模块不知道检索偏好,三个环节各优化各的,奖励信号互相打架。

论文原话讲得很到位:

“Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution.”

「既有方法孤立地优化这些能力,或用不同的奖励来源,导致局部且冲突的演化。」

打个比方:一个学生做完数学题后写了错题本,但查错题本的流程、用错题本的流程、整理新错题的流程是三套互不沟通的系统。查的时候不知道上次用了有没有效果,整理的时候不知道哪些题型最该记。时间一长,错题本越写越厚,但考试成绩纹丝不动。

▲ Skill1 论文 arXiv 页面,标题直接点明"统一演化"

Skill1 的做法:一个 policy 管全程

Skill1 的核心思路:让同一个 policy 走完技能的全生命周期——从选择到使用到蒸馏,所有学习信号只来自最终任务结果。

具体流程拆开看:

**第一步,选技能。**Policy 针对当前任务生成一条自然语言 query,去技能库里做向量检索(用的是冻结的 all-MiniLM-L6-v2 编码器),拉回一批候选。然后 policy 自己对这些候选做重排序,选出最相关的那条技能。

**第二步,用技能。**选定技能后,policy 在该技能的条件下和环境交互,完成任务。技能在这里扮演的角色类似于一份策略提示——告诉 Agent 面对这类场景该怎么行动。

**第三步,造新技能。**任务结束后,policy 从整条交互轨迹里提取出两样东西:一个可复用的策略描述(reusable strategy),一个场景标签(scenario description)。只有成功的轨迹才会被写入技能库。

论文方法部分的原话:

“The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory.”

「policy 生成 query 检索技能库,重排候选选出技能,在该技能条件下解决任务,再从轨迹中蒸馏新技能。」

▲ DailyPapers 推文:训练同一个 policy,同时选择、使用、蒸馏技能

一个奖励信号,怎么驱动三件事?

整个框架里最精巧的设计在奖励分配上。

传统做法会给选择、使用、蒸馏各发一套奖励信号,结果三套信号互相矛盾,policy 左右为难。Skill1 只用一个终端任务结果 r(τ),但从中拆出两个维度:

低频趋势(low-frequency trend):用移动平均追踪某条技能被反复选用后的长期效果。如果一条技能持续带来好结果,说明它本身有价值,选择环节应该继续偏好它。这个信号驱动selection的学习。

高频变化(high-frequency variation):看当前这次结果相对于长期趋势的偏差。如果某次使用了新蒸馏出的技能后,结果大幅超出移动平均,说明这条新技能带来了突破性的提升。这个信号驱动distillation的学习。

utilization最直接——任务做成了就是正反馈,做砸了就是负反馈。

这套设计的好处在于:三个环节的梯度全部指向同一个目标——提高任务完成率。选择器学会找真正有用的技能,执行器学会把技能用好,蒸馏器学会生产下一轮能被用上的高质量技能。

97.5%:技能库确实在起作用

说了这么多机制,结果怎么样?

在 ALFWorld(一个包含 6 类家务任务的模拟环境)上,Skill1 跑出97.5% 的平均成功率,比此前最强的 RetroAgent 高出 2.6 个百分点,在 6 类任务中有 5 类排名第一。

在 WebShop(模拟电商购物的环境)上,Skill1 的分数达到 89.7,成功率 82.9,同样领跑。

但更值得关注的数据来自消融实验:

变体ALFWorld 成功率
完整 Skill197.5%
去掉整个技能库80.9%
去掉选择模块91.8%
去掉蒸馏模块92.4%

**去掉技能库,成功率直接掉了近 17 个百分点。**这组数据说明技能库对最终效果的贡献是实打实的,选择和蒸馏每一环都在发挥作用。

▲ Hugging Face Papers 社区页面,Skill1 登上当日论文榜第二名

几个需要冷静看的地方

在为 97.5% 的数字兴奋之前,有几个细节需要留意:

**第一,实验环境是受控模拟。**ALFWorld 和 WebShop 都是标准化 benchmark,任务模式相对固定。把这个结果直接外推到真实生产环境里的复杂 Agent,还需要更多验证。

**第二,代码仓库暂时无法访问。**论文声称代码在 GitHub 上开源(AlphaLab-USTC/Skill1),但采集时仓库页面返回 404。具体实现细节和复现情况,还需要等仓库上线后确认。

**第三,技能库有容量上限。**论文设定技能库最大容量为 5000 条。当 Agent 面对的任务类型持续扩展,技能库的检索效率和淘汰策略是否能跟上,论文没有深入讨论。

▲ ArxivLens 第三方研究解读页面

从"调用工具"到"管理技能生命周期"

把 Skill1 放到 Agent 研究的大脉络里看,它代表的趋势很明确:Agent 正在从"被动调用外部工具"走向"主动管理自己的技能生命周期"。

过去的 Agent 框架里,工具是静态的——你给它一把锤子,它就只能锤钉子。技能库比工具进了一步,Agent 可以积累经验。但传统技能库的检索、使用、更新三个环节各跑各的,本质上还是拼凑式架构。

Skill1 提出的方向是:**让 Agent 对技能库有完整的控制权——知道该找什么技能,知道怎么用这个技能,做完之后还能把经验提炼成新的技能反哺回技能库。**整个循环由同一个 policy 驱动,由同一个结果信号校准。

论文摘要里有个说法值得记住:

“A persistent skill library allows language model agents to reuse successful strategies across tasks.”

「持久技能库让语言模型 Agent 能跨任务复用成功策略。」

在 Hugging Face 社区的讨论里,这篇论文被放在 skill bank、agentic RL、self-improving agents 这几条研究线上讨论——它的邻居包括 Dynamic Dual-Granularity Skill Bank、ARISE、Co-Evolution of Policy and Internal Reward 等工作。这个方向的共识越来越清晰:Agent 的下一步进化,重点在于让经验可积累、可检索、可迭代。

Skill1 用一个 7B 模型和一个统一的 RL 框架,在这个方向上迈出了相当扎实的一步。至于这套方法能否从模拟环境走到真实世界的复杂任务,还需要后续工作来回答。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/827070/

相关文章:

  • WebPlotDigitizer完整指南:3步从图表图像中提取数据
  • 罗技鼠标宏终极教程:3步实现PUBG完美压枪控制
  • 魔兽争霸3兼容性修复终极指南:5步解决现代系统闪退问题
  • 基于规则引擎的自动化文件管理工具smartcat实战指南
  • 基于TypeScript的MCP服务器开发指南:为AI助手构建安全工具调用能力
  • 从Gossip协议到协同共识:构建去中心化蜂群系统的核心架构与实战挑战
  • Cursor AI 编程助手项目专属规则配置指南:从通用到定制
  • 欧拉OpenEuler基于Kubeasz部署k8s
  • 二次元游戏模组管理革命:XXMI启动器一站式解决方案完全指南
  • OpenAPI规范代码辅助功能为API全生命周期开发提供智能化支持,覆盖API设计、开发、测试、文档、部署等各个阶段
  • 雷达系统原理与脉冲测量技术详解
  • 告别环境噩梦:用Docker一键部署OpenMVG和OpenMVS开发环境(支持GPU加速)
  • Redis怎样配置不同环境下的内存淘汰机制
  • Windows11系统 26H1 X-Lite V3 精简纯净版 安装全流程
  • RK3506开发板PWM输入捕获配置与调试实战指南
  • AI Agent安全防护中间件agentguard:构建LLM应用的安全执行层
  • 独立开发者如何利用Taotoken实现按token精细计费控制个人项目AI成本
  • 魔兽争霸3终极增强指南:WarcraftHelper完全使用教程
  • 终极虚拟显示器方案:让Windows电脑秒变多屏工作站
  • NotebookLM智能体插件:AI驱动的自动化知识处理与任务执行
  • Go语言工厂模式:对象创建封装
  • Lealone数据库内核解析:一体化架构与向量化引擎的工程实践
  • XNBCLI:3分钟学会星露谷物语XNB文件修改的终极指南
  • 普通人如何构建AI智能体?一篇文章搞定——快速搭建属于自己的智能体
  • AI技能工程框架解析:从模块化设计到智能体构建实战
  • Java多态从入门到通关:考点精讲+面试考点+项目实战
  • 基于AI-Dial-Core构建企业级对话AI核心:从工具抽象到安全实践
  • 现代SaaS应用全栈开发:从Next.js、Prisma到Stripe的实战样板间解析
  • 定制你的专属探针:PEG-锰基纳米材料,为精准科研而生
  • AI智能体技能库开发实战:从工具调用到系统集成