当前位置：首页 > news >正文

Agent思维模式 | 评估

news 2026/8/2 20:09:20

Agent思维模式：ReAct、Plan and Execute、Reflection

Agent 处理任务时的不同推理与执行策略

概念	全称	特点
ReAct	ReasoningAndAct	边规划、边执行
Plan and Execute	-	先规划、后执行
Reflection	-	反思机制

ReAct（Reasoning and Act）

ReAct 是Reasoning and Act的缩写，本质上是一种**边规划边执行**的混合模式

交替进行：推理（Reasoning）与行动（Acting）交替执行
即时调整：根据当前执行结果动态调整后续计划
适合复杂任务：能够处理需要综合分析和多步骤执行的问题

处理流程

用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果

Plan and Execute（先规划后执行）

与 ReAct 不同，Plan and Execute 采用**两阶段分离**的策略

阶段一：先完整规划整个任务流程
阶段二：再按计划顺序执行
更适合：任务边界清晰、步骤可预见的场景

用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果

Reflection（反思）

Reflection 即反思，是 Agent 的一种自我修正机制

对执行结果进行评估
识别错误或不足
调整策略后重新执行

维度	ReAct	Plan and Execute	Reflection
执行顺序	边想边做	先想后做	做完后想
灵活性	高	中	需要其他模式配合
计算成本	中	低	视情况而定
适用场景	动态、复杂任务	明确、线性任务	错误修正、自我优化

Agent Evaluation

Evaluation-评估，是对Agent进行系统性评价的过程

由于Agent基于LLM生成答案，其评估标准并非放之四海而皆准，而是需要根据不同的应用场景和落地方向进行针对性设计。

为什么要评估

评估的目的不仅仅是区分"能用"和"不能用"（这通常是暂时性判断），更核心的目的是通过评估进行调优。具体来说：

发现问题所在
指导进一步优化方向
建立更细致、更深入的评估流程

这一思维方式适用于所有软件工程类和科研类项目。例如：一个可运行的游戏，虽然功能正常，但仍可优化代码降低CPU/内存占用、减少网络流量消耗。

评估的两种类型

端对端评估

从用户视角出发，评估Agent从输入到输出是否合格。这是基础层面的判断，如果连基本匹配都做不到，Agent本身就不可用。

非端对端评估（步骤级评估）

针对工作流中的具体步骤进行分析和调优。典型工作流包括：

阶段	描述
分析	LLM分析用户输入，理解用户目的/企图
Planner	规划执行步骤（1、2、3、4、5…）
执行	逐个执行每个步骤（如RAG查询、搜索网页、调用工具、写本地文件等）

注：如果是ReAct等推理模式，可能会有更多的循环，由LLM自主决策下一步。

如何做评估

最简单的端对端评估可以用表格形式呈现：

序号	Input	Output	Ground Truth（标准答案）	Score（评分）
1	…	…	…	…
2	…	…	…	…
3	…	…	…	…

评估的具体方式不必拘泥，重点是建立一套符合落地场景的具体标准，用以判断Agent的输出是否正确。

核心要点

评估标准需要根据应用场景定制
评估的真正目的是调优，而非简单的通过/失败判断
端对端评估看整体，非端对端评估看细节
两种评估结合使用，才能全面提升Agent质量

http://www.jsqmd.com/news/958243/

相关文章：

目标检测框回归的‘进化史’：从IOU到CIOU，看CV大佬们如何一步步解决边界框的‘贴合’难题

门墙柜一体定制品牌哪家好，姜莱有家怎么样 - myqiye

盐城盐南购宠指南｜实体连锁明轩猫犬舍，避开网购病宠陷阱 - 萌宠俱乐部

2026实测：实在Agent凭什么在国产Agent混战中脱颖而出？深度拆解其“执行力”天花板

DDrawCompat：让Windows经典游戏在现代系统上重获新生

拓扑-声子耦合调控宏观量子态的理论框架-3.基于TMD摩尔超晶格的拓扑声子学与可验证的异常声学共振 - 蓝鸟星

实战构建多传感器环境监测站：基于快马平台生成iic数据采集与上传完整代码

Sunshine游戏串流：终极指南搭建你的私人云游戏平台

2026年Agent元年！深度解析实在Agent未来路线图：从自动化工具到全能数字员工的跃迁

西安购宠靠谱推荐｜碑林+雁塔双店明轩猫犬舍，实体店选宠不踩坑 - 萌宠俱乐部

NAS和SAN到底怎么选？文件级与块级存储核心区别详解

2026年家庭影院蓝光播放器品牌性价比排名，竹者（JJZER）多少钱 - myqiye

自由职业者AI工作流重构（从月入5k到3w的真实跃迁路径）

Windows 11系统瘦身指南：如何用Win11Debloat一键清理系统臃肿？

深耕制造质量数字化：我实测发现，质检落地瓶颈从来不是人工不够

Databricks集成Azure情感分析v3.0实战：高吞吐低延迟生产部署

3个简单步骤：让PDFViewer成为你的网页PDF阅读器终极解决方案

告别“人肉搬运”！实测实在Agent如何重塑企业AI原生自动化文化，实现生产力指数级跨越

国内橄榄油玻璃瓶厂家权威盘点：酱菜玻璃瓶/饮料玻璃瓶/香水瓶/储物玻璃罐/化妆品玻璃瓶/四家实力企业解析 - 优质品牌商家

终极指南：3分钟学会使用国家中小学智慧教育平台电子课本下载工具

5分钟掌握防撤回秘籍：RevokeMsgPatcher让你的聊天记录永不消失

2026年耐磨管道中昊选购攻略 - mypinpai

为什么92%的AI协作工具仍在裸奔？——深度逆向37款主流工具的数据流向图谱

AI娱乐整合不是选工具，而是建神经中枢：揭秘全球首个通过ISO/IEC 23053认证的智能娱乐集成框架（限授企业已超17家）

Windows Cleaner终极指南：3步解决C盘爆红，让电脑重获新生！

僵尸进程、孤儿进程原理、识别、排查、彻底解决

Maxwell 怎么查看指定单一时间点结果｜瞬态 Transient 专用

2026年高性价比的乘客电梯公司排名 - mypinpai

Cursor Free VIP：重新定义AI编程工具授权的智能解决方案

Istio服务网格流量治理深度解析：从基础配置到高级路由策略