当前位置: 首页 > news >正文

Agent - Reflection

image

图中展示了一种带有反思机制的智能体架构。智能体从环境中接收观察并记录为轨迹(短期记忆),Actor 基于当前轨迹与经验记忆生成动作。与此同时,Evaluator 对轨迹进行评估,并结合外部反馈触发 Self-reflection 模块生成反思文本。该反思结果被写入 Experience(长期记忆),从而为后续决策提供可迁移的经验支持。通过这种方式,智能体不仅能够在当前任务中行动,还能够跨任务地积累和利用经验,实现持续改进。

最下面是 Environment
环境给智能体输入 Observation,智能体对环境输出 Action。这就是最基本的 agent loop。

环境的观察先进入 Trajectory(短期记忆)
这里记录的是当前这一轮、这一段任务过程中的轨迹,比如看到了什么、做了什么、得到了什么结果。它更像“工作记忆”或“当前会话上下文”。

然后 Actor 读取两类东西来决定下一步动作:

一类是 Trajectory,也就是眼下这局发生了什么;
另一类是 Experience(长期记忆),也就是过去反思后沉淀下来的经验。

所以 Actor 不是只看当前局面,也不是只靠历史经验,而是把两者结合起来行动。


左边这条支路是评估与反思链。

Evaluator 读取当前 Trajectory,对这段过程做判断。
它给出的东西,图里叫 Internal feedback,就是内部评估反馈。比如:

  • 哪一步做错了
  • 哪个策略低效
  • 哪种行为导致失败
  • 哪类提示词更有效

与此同时,图上方还有 External feedback
这表示外部世界也可能直接提供反馈,比如环境奖励、用户评价、任务是否成功、人工批注等。

然后 Self-reflection 会综合这些反馈进行反思,输出 Reflective text
这个 reflective text 不是动作本身,而是“经验总结”式的东西,比如:

  • 下次遇到类似任务,先检查约束条件
  • 当前策略在预算受限场景下不可靠
  • 在信息不完整时,应先查询而不是直接回答

这个反思结果再被写入 Experience(长期记忆)

于是,长期记忆不是原始轨迹的机械堆积,而是经过提炼的经验


所以这张图最关键的意思是:

Trajectory 存的是“这一次发生了什么”;
Experience 存的是“从这些经历里学到了什么”。

这两者不是一回事。

前者偏具体、短期、原始;
后者偏抽象、长期、可迁移。

http://www.jsqmd.com/news/640793/

相关文章:

  • Chord - Ink Shadow 部署详解:Windows系统下Docker与模型环境配置
  • 成都怎么找最正宗的火锅店?美团火锅人气榜实测好用,新手也能零踩雷 - 资讯焦点
  • 别再焦虑了!小白程序员必备:收藏这份AI大模型学习资源,抢占职场先机
  • 2026乡村全科执医刷题题库深扒:这两款靠谱题库值得推荐! - 医考机构品牌测评专家
  • TranslucentTB:Windows任务栏透明美化终极指南,让你的桌面焕然一新!✨
  • 多模态大模型持续学习不是“加个Adapter”就完事:深度解析Meta新论文《Continual M3AE》中提出的跨模态原型锚定机制与3周内可部署的轻量级实现路径
  • 零基础两周拿下PCTP认证:我的TiDB数据库专家备考笔记与实战避坑指南
  • HTML打包EXE三种加密方式对比:静态密码、离线一机一码、网络验证
  • MATLAB数据清洗实战:从Excel到干净数据的完整流程(附代码)
  • 3分钟让Figma说中文:设计师专属的中文界面插件终极指南
  • AI时代软件工程师的核心能力是什么:斯坦福答案
  • 误码率实战解析:从理论到应用的全方位指南
  • 从博通官网精准获取ESXi与VM虚拟机套件的实战指南
  • 硬件调试革命:3大突破让AMD Ryzen系统稳定性提升5倍
  • Rust 是如何判断对象是否相等的?一起来聊一聊 PartialEq 与 Eq
  • 最大异或和路径
  • 终极指南:如何用缠论量化插件实现通达信精准交易分析
  • AI算法入门:深度学习六周学习计划
  • LifeNet Health|人原代肝细胞3D肝球体标准化培养实操方案【曼博生物】
  • 新手建模常见错误:面反、破面、重叠
  • 用ESP-01S和51单片机做个手机遥控灯:从AT指令配置到代码烧录的保姆级避坑指南
  • 抖音无水印批量下载神器:5分钟搞定创作者素材收集的终极指南
  • 手把手教你将大疆无人机GPS数据接入ROS:从PSDK到NavSatFix话题的保姆级封装教程
  • [技术讨论] 【每周分享】变频器驱动电路正负电压正常,波形也正常,偏偏带载就炸机
  • tsMuxer视频封装指南:3步掌握无损音视频轨道处理技术
  • Conditional Domain Adversarial Network (CDAN):从类感知对齐到实战调优
  • CasRel关系抽取详细步骤:从cd CasRel到print(result)的终端实操全记录
  • MiniCPM-o-4.5-nvidia-FlagOS保姆级教程:Linux服务器后台常驻运行+nginx反向代理配置
  • Legacy模式实战|WinPE系统安装全攻略,从分区到引导一步到位
  • 番茄小说下载器:基于Rust的分布式数字资源获取与管理系统技术解析