当前位置: 首页 > news >正文

Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026

EvolveR 团队 投稿
量子位 | 公众号 QbitAI

过去一年,Agent学会了两件事:会用工具、会调用Skill。

但它始终不会一件事:从自己的错误里变强。

但这些Skill大多来自外部:人手写、社区贡献、工程团队维护、用户手动安装和配置。这带来了三个问题:

  • 第一,Skill增长依赖人类工程师。

  • 第二,Skill质量参差不齐。

  • 第三,Skill和Agent自身策略未必匹配。

现在,一篇ICML 2026接收论文提出了一个新的答案:EvolveR

它试图让Agent不再只是被动安装别人写好的Skill,而是能够从自己的成功和失败轨迹中,自动蒸馏出可复用的“经验”,并在后续任务中检索、使用和强化这些经验。

EvolveR与现有Agent学习范式对比

换句话说,EvolveR关注的是Agent的下一步:

从“会用Skill”,走向“会从经验中长出Skill”。

EvolveR:把交互轨迹蒸馏成Agent自己的“认知Skill”

EvolveR的核心思想是:

Agent每次完成任务后,不应该只留下日志;它应该从日志中提炼出下次还能用的经验。

在EvolveR中,Agent会经历一个闭环生命周期:

  1. 在线交互:Agent面对任务,调用外部知识库和内部经验库,生成完整执行轨迹;

  2. 离线自蒸馏:Agent冻结参数,回看自己的成功和失败轨迹,总结出简洁的经验策略;

  3. 经验库维护:系统对新经验做语义去重、合并、动态评分,保留真正有用的经验;

  4. 策略进化:再用强化学习训练模型,让它学会在合适时机检索和应用这些经验。

这些经验并不是传统意义上的工具插件,更像是Agent的“认知Skill”。

比如:

  • 遇到比较类问题时,先分别收集两个对象的信息,再下结论;

  • 判断人物关系时,不要只凭角色名猜测演员,需要查证角色描述;

  • 如果搜索经验的结果不足,不要重复同一个查询词,而要改写查询角度。

这些经验不是外部教师灌进去的,而是Agent从自己的成败经历中总结出来的。

EvolveR完整生命周期
可筛选、可评分、可进化的经验库

很多Agent记忆系统会直接保存原始轨迹或自然语言反思。

但EvolveR更强调经验的“维护”。

每条经验都会记录使用次数和成功次数,并根据历史表现计算一个动态分数,分值低于阈值的经验会被无情“剪枝”,语义重复的原则会被合并,确保 Agent 的大脑始终轻盈且高效。

这点在今天的Skill生态里尤其重要。

当Agent装了越来越多Skill、积累了越来越多记忆之后,真正的问题不再是“有没有经验”,而是:

  • 哪些经验真的有效?

  • 哪些经验过时了?

  • 哪些经验彼此重复?

  • 哪些经验会误导模型?

用强化学习让Agent学会“使用经验”

EvolveR与普通经验检索最大的区别在于:它不只是把经验放进上下文。

在线交互阶段,Agent可以通过动作主动检索经验库,再通过查询外部知识,最后给出答案。

随后,EvolveR使用GRPO强化学习对这些经验条件下的轨迹进行优化。

奖励函数不仅看最终答案是否正确,也看推理格式、经验检索、知识检索是否合理。如果只看最终答案对不对(稀疏奖励),Agent很难学会”如何善用经验”这种中间行为。

EvolveR设计了一套复合奖励函数,把”做事”和”会做事”区分开来打分:

结果奖励(Outcome Reward):最终答案和标准答案做精确匹配。格式奖励(Format Reward):

  • 思考步数奖励:鼓励Agent进行适度的推理,但不鼓励无脑堆长度,防止Agent陷入”无限反思”的死循环,强制它学会想够了就该动手。

  • 搜索多样性奖励:明确激励Agent同时调用内部经验和外部知识,而不是偏废其一。

因此,模型学到的不只是“答案是什么”,而是——

什么时候该查经验、查什么经验、如何把经验转化成有效行动。

这让EvolveR区别于传统RAG或简单Memory系统。RAG解决的是“缺知识”,EvolveR解决的是“缺经验”。

在多跳问答上超过Search-R1等强Agent基线

论文在7个复杂问答基准上验证了EvolveR,在Qwen2.5-3B和7B模型上,EvolveR都取得了最优平均表现。

相比CoT、RAG、SFT、Rejection Sampling以及Search-R1等方法,EvolveR整体表现更强,尤其在多跳推理和域外泛化任务上更稳定。

论文还发现了一个很关键的现象:当模型较小时,用外部教师模型(GPT-4o-mini)帮助总结经验效果更好;但当模型扩展到3B时,Agent自己总结出来的原则反而超过外部教师总结的原则。

这说明一个重要问题:

对Agent来说,最强的经验不一定来自最强教师,而可能来自与自身策略最匹配的“自我经验”。

作者将其解释为一种“认知对齐”:Agent自己蒸馏的原则,更符合自身能力边界和推理习惯,因此在实际任务中更容易被用好。

这个发现对当前Skill生态也有启发:未来的Agent Skill不一定都来自人类编写,可能会有一部分来自Agent自身的长期执行轨迹。

从“工具扩展”到“经验进化”

2026年的Agent浪潮已经证明:只要给大模型工具、权限和工作流,它就能完成越来越多真实任务。

但这也暴露了新的瓶颈:Agent的能力增长,不能永远依赖人类不断写Skill、装插件、修Prompt。

LangChain最近也指出,Agent持续学习并不只发生在模型权重层,还可以发生在harness和context层;而轨迹是这些学习流程的核心数据来源。

EvolveR给出了一个更自主的方向:让Agent把自己的成功和失败转化为可复用经验,再通过强化学习将“如何使用经验”内化到策略中。

从这个角度看,EvolveR不是一个普通的Agent记忆方法,而是面向后OpenClaw/Claude Code时代的一个问题:

当Agent拥有工具箱之后,它能不能开始自己积累经验?

EvolveR的答案是:可以。这可能是Agent从“会干活”走向“越干越会干”的关键一步。

作者介绍

本文来自于上海人工智能实验室KnowledgeXLab团队。

本文一作吴荣,是浙江大学与上海人工智能实验室联培博士,研究方向: 大模型智能体自进化,持续学习。

本文的通信作者为上海人工智能实验室的青年科学家石博天。

论文链接: https://arxiv.org/abs/2510.16079Github

仓库链接:https://github.com/KnowledgeXLab/EvolveR


http://www.jsqmd.com/news/844009/

相关文章:

  • 阶跃型微结构三维形貌的显微干涉测试技术【附数据】
  • 2026 年潍坊市保洁阿姨及老年护理怎么选更靠谱?潍坊悦君家政13365363439 - 速递信息
  • hh-rlhf实战指南:从数据加载到模型评估的完整代码示例
  • 2026长沙到岳阳商务车/长沙到岳阳商务车电话0730-8188098 - 速递信息
  • 从ADS到HFSS:一个2.45GHz微带带通滤波器的协同设计与调试实录
  • 2026进贤电脑专卖店排行:技术领先公司推荐 - 速递信息
  • 技术赋能品质:宁波遮阳棚厂家推荐与行业深度解析,宁波信创遮阳设备有限公司实力彰显 - 品牌评测官
  • 告别VSCode调试报错:从‘launch.json’与‘tasks.json’的联动关系彻底解决程序路径问题
  • DIY红外遥控电视关机器:从ATTINY85到晶体管驱动的硬件实践
  • 本地部署DeepSeek模型全攻略:从部署到压测一网打尽
  • 2026年论文AIGC率98%如何破解?4招高效去AI痕迹、降AIGC率,快速过AI检测! - 降AI实验室
  • LangChain 2026: 从胶水框架到 AI 基础设施的蜕变
  • 仓储软件(WMS)哪家专业?国产WMS黑马,AI赋能新选择 - 品牌排行榜
  • 嵌入式调试适配器硬件兼容性问题解决方案
  • 保姆级教程:在Linux上编译SIMPACK 2021x的C语言实时接口,搞定Python联合仿真
  • DIY-Multiprotocol-TX-Module硬件组装:从PCB到完整模块的终极指南
  • 第16章:AI编程进阶——从工具使用者到能力创造者
  • 博尚1500/2200型木材粉碎机|工业级旗舰,24小时连续作业,适配大型食用菌基地 - 会飞的懒猪
  • 如何在30秒内从单张图片生成高质量3D模型?Unique3D带你体验革命性的单图转3D技术
  • 2026 成都黄金回收资质挑选|正规经营门店辨别,安心交易首选 - 奢侈品回收测评
  • 2026年焕新:江浙沪债务咨询、债务优化与清理机构优选指南 - 速递信息
  • 2026广州老板问爆豆包的专利问题|实测攻略+避坑指南 - 速递信息
  • 从原理到选型:深入解析LED灯具频闪的成因与应对
  • Python爬虫实战:手把手教你如何自动化构建基石 - 用 Python 打造跨平台 SDK 版本库嗅探器
  • 永辉超市购物卡如何变现?三种方法帮你秒到账! - 团团收购物卡回收
  • 2026年焕新:江浙沪债务减免/正规债务咨询机构五大品牌对比-上海沪弘邦咨询 - 速递信息
  • 2026 成都黄金回收极速变现|当场验货打款,急用资金速安排 - 奢侈品回收测评
  • 生产制造用什么仓储软件(WMS)好?AI国产WMS成新宠 - 品牌排行榜
  • 第17章:AI辅助代码安全漏洞检测与修复——构建安全编码的AI防线
  • 孩子躺平不上班愁坏家长?家长应对的方式很重要! - 速递信息