当前位置: 首页 > news >正文

大模型---Reflexion

目录

1.Reflexion的定义

2.Reflexion

3.论文的优/缺点

4.与ReAct,Self-Refine,LATS的关系


参考论文1:[2303.11366] Reflexion: Language Agents with Verbal Reinforcement Learning

参考论文2:1b44b878bb782e6954cd888628510e90-Paper-Conference.pdf

1.Reflexion的定义

很多 LLM agent 虽然能调用工具、与环境交互,但通常只会依赖 few-shot 提示或单条生成轨迹;而传统 RL 又很贵、样本需求高、微调成本大。作者想找一个折中方案:不训练新权重,但让 agent 能从试错中快速积累经验。所以他们把环境给的 binary/scalar feedback 放大成可操作的自然语言经验总结,相当于给模型一个“语义梯度”。

Reflexion的主张不是通过梯度更新模型权重来学,而是把环境反馈转成自然语言反思,写入记忆,作为下一轮尝试的上下文,也就是在每轮失败后写出一段“我哪里错了、下次该怎么改”的文字,再把这段文字塞回上下文,影响下一轮行为。从而让agent在推理时“越试越会”。论文明确说,这种做法的优势包括:不需要微调、能表达比标量 reward 更细腻的反馈、带来更显式更可解释的 episodic memory;但它也依赖 LLM 的自评/反思能力,而且没有形式化成功保证。为什么论文中把它叫做“verbal reinforcement learning”,传统RL是:① 轨迹,② reward,③ 参数更新;Reflexion 则变成:① 轨迹,② reward,③ 语言化总结,④ 记忆注入。也就是论文会将反馈最后都会被“放大”为自然语言经验总结,供下一轮使用。

2.Reflexion

Reflexion由4个模块组成:

(1)Actor

Actor 是真正执行任务的 LLM,负责生成文本和动作。论文里用过两类 Actor:CoTReAct。如果是推理题,Actor 更像CoT;如果是交互环境、API、检索、代码执行,它更像ReAct。

(2)Memory

Reflexion同时用短期记忆和长期记忆。短期记忆:trajectory,即当前轨迹本身。长期记忆:每轮self-reflection生成的经验总结。Actor在下一轮会同时读取这两种记忆。论文里长期记忆通常只保留一个滑动窗口,上限一般是1-3条经验,这是为了适配上下文长度限制。

(3)Evaluator

Evaluator 负责打分。它输入当前trial的trajectory,然后输出reward。不同任务用的evaluator不同:推理任务用exact match;决策任务可用手工heuristic或另一个LLM做分类/评分;编程任务则依赖 unit tests/compiler/ execution feedback。

(4)Self-Refle

http://www.jsqmd.com/news/653755/

相关文章:

  • 保姆级教程:手把手教你为小智AI Pro更换专属唤醒词和背景图(ESP32-S3实战)
  • EPLAN电气设计新手必看:结构标识符设置避坑指南(附实战截图)
  • 终极中文文案排版指北:从空格到标点的完整教程
  • 你的地图‘漂移’了吗?深入聊聊coord-convert库转换WGS84/GCJ-02时的误差与应对
  • FreeRTOS二值信号量实战:如何用STM32串口中断实现任务同步(附完整代码)
  • TSMaster HIL仿真避坑指南:如何正确监控与可视化车辆轮速、压力等关键信号?
  • Equalizer APO:解锁Windows音频系统级调校的三大应用场景
  • 从零构建中文NL2SQL数据集:基于GRPO强化学习微调Qwen3-8B,解锁300行复杂SQL生成
  • 避坑指南:升级Xcode 16后必做的CocoaPods兼容性检查(含.xcodeproj文件手动修复教程)
  • 如何搭建终极家庭游戏串流服务器:Sunshine完整实战指南
  • Liveblocks:革命性实时协作基础设施,为现代应用赋能
  • 智慧城市治理河道监测 道路环境监测 河流生态评估 基础设施巡检 河道周围垃圾检测 河道植被识别 YOLO格式数据集第10442期
  • GLM-OCR效果展示:复杂版式PDF精准解析,结构化输出真方便
  • StructBERT情感分类镜像教程:supervisorctl status服务状态解读
  • 仅限头部科技公司使用的生成式AI服务治理沙箱环境:支持Prompt血缘追踪、模型版本回滚、推理链路水印(申请通道即将关闭)
  • 4、从零搭建可变RLC:Simulink自定义元件建模与等效性验证
  • Balena Etcher:革命性镜像烧录工具的一站式解决方案
  • Mods的10个高效使用技巧:从新手到专家的完整教程
  • Qwen3-32B镜像入门指南:内置完整环境,一键启动WebUI和API
  • SCAFFOLD算法实战:如何用Stochastic Controlled Averaging解决联邦学习中的Client Drift问题
  • Spring Boot(十)集成xxl-job:从零构建分布式任务调度中心
  • 脉冲神经网络(SNN)训练太难?保姆级教程:手把手教你用替代梯度(SG)和代理函数搞定深度SNN
  • OpenAudio 插件开发指南:从零开始构建你的第一个 VST 插件
  • STM32F407与K210(K230)串口通信实战:如何设计一个可靠的命令-响应协议?
  • 终极指南:Jasper语音识别引擎如何工作?STT技术实现与5大引擎性能对比
  • 技术解析 2DGS vs 3DGS | SIGGRAPH 2024 上科大新作 | 从‘体’到‘面’的几何重建革命
  • 2026年知名的新能源散热风扇高口碑品牌推荐 - 品牌宣传支持者
  • EPICS 在 Ubuntu 上的安装与基础环境配置指南
  • 掩码语言模型(MLM)在NLP中的革新应用与未来趋势
  • 精益管理模式实战应用:精益管理模式如何解决多品种小批量生产的交付难题