当前位置：首页 > news >正文

AI Agent 核心方法论深度解析：ReAct、Plan-and-Solve 与 Reflection

news 2026/6/20 11:15:56

大语言模型正在从"对话者"进化为"行动者"。如何让 AI 不只是回答问题，而是自主规划、执行、反思并完成任务？答案藏在三个核心方法论中。

一、引言：从 Chatbot 到 Agent

2023 年，一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文悄然改变了 AI Agent 的发展轨迹。它提出的问题看似简单：如何让大模型既能思考，又能行动？

一年多来，这个问题催生了无数 Agent 框架——LangChain、AutoGPT、CrewAI……但无论框架如何演进，核心方法论始终围绕三个关键词展开：

ReAct：推理与行动的动态循环
Plan-and-Solve：先规划再执行
Reflection：自我反思与纠错

本文将深入解析这三种方法论，帮助你理解现代 AI Agent 的设计哲学。

二、ReAct：推理 + 行动

2.1 核心理念

ReAct（Reasoning + Acting）的核心思想很简单：让推理和行动交替进行。

想象你在准备一次旅行：

“先查一下目的地的天气” —— 这是Thought（思考）
打开天气 App 搜索 —— 这是Action（行动）
看到"明天有雨" —— 这是Observation（观察）
“那得多带把伞” —— 新的思考，然后继续行动……

ReAct 让 AI 模仿这种人类自然的解决问题方式。

2.2 工作循环

┌─────────────────────────────────────────┐ │ │ │ Thought → Action → Observation │ │ ↑ │ │ │ └──────────────────────┘ │ │ │ └─────────────────────────────────────────┘

Thought（思考）：模型分解任务，决定下一步做什么

Action（行动）：调用工具、搜索信息、执行操作

Observation（观察）：获取行动结果，评估是否需要继续

2.3 实战示例

Question: 北京今天适合户外运动吗？ Thought: 需要先查询北京的天气情况 Action: search("北京今日天气") Observation: 晴，温度 15-22°C，空气质量良好 Thought: 天气不错，但需要确认是否有其他限制因素 Action: search("北京今日空气质量指数") Observation: AQI 65，二级良 Thought: 综合温度和空气质量，适合户外运动 Final Answer: 北京今天天气晴朗，气温 15-22°C，空气质量为二级良， 非常适合户外运动。建议选择上午或傍晚时段，注意防晒。

2.4 优势与局限

优势	局限
✅ 灵活适应变化	⚠️ Token 消耗大
✅ 推理过程可解释	⚠️ 长任务容易偏离
✅ 能处理复杂任务	⚠️ 可能陷入无限循环
✅ 减少幻觉（外部验证）	⚠️ 依赖模型推理能力

2.5 适用场景

✅ 需要实时信息检索的任务
✅ 任务复杂度不确定的场景
✅ 需要透明推理过程的应用
❌ 可预见的固定流程（用 Plan-and-Solve 更好）
❌ 单步简单任务（直接调用即可）

三、Plan-and-Solve：规划 + 执行

3.1 核心理念

Plan-and-Solve采用"先规划，再执行"的策略，将问题解决分为两个独立阶段：

规划阶段：分析任务，生成完整计划
执行阶段：按计划逐步执行，汇总结果

这就像写代码前先画流程图，而不是边写边想。

3.2 工作流程

┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Planning │ ──→ │ Execution │ ──→ │ Aggregation │ │ 规划阶段 │ │ 执行阶段 │ │ 汇总阶段 │ └──────────────┘ └──────────────┘ └──────────────┘ ↓ ↓ ↓ 生成分步计划 按步骤执行 整合最终答案

3.3 实战示例

任务：为电商平台设计数据库架构

Phase 1: Planning（规划）

计划： 1. 分析核心业务需求（用户、商品、订单） 2. 设计用户账户与认证模块 3. 设计商品目录与分类模块 4. 设计购物车与结算模块 5. 设计订单管理模块 6. 设计评价系统模块 7. 整合并优化表关系

Phase 2: Execution（执行）

每个步骤独立执行，并可以引用前序步骤的结果：

Step 1 执行结果：识别出 5 个核心实体（用户、商品、订单、支付、评价） Step 2 执行结果：设计 users 表，包含 id、email、password_hash、 created_at 等字段，采用 UUID 主键... Step 3 执行结果：基于 Step 1 的分析，设计 products 和 categories 表... （依次执行每个步骤）

Phase 3: Aggregation（汇总）

最终答案： 完整的电商数据库架构设计，包含： - ER 图与表关系说明 - 各表的字段定义与约束 - 索引优化建议 - 扩展性考量

3.4 与 ReAct 的对比

维度	Plan-and-Solve	ReAct
规划方式	前置完整规划	逐步动态决策
执行方式	顺序执行	迭代循环
灵活性	计划固定，较僵化	高度灵活
Token 效率	相对高效（无循环）	循环消耗大
可预测性	高，计划清晰可见	低，路径不可预测
适用任务	结构化、可分解	动态、不确定

3.5 适用场景

✅ 任务步骤清晰、依赖明确
✅ 需要详细的执行计划
✅ 多步骤数据处理流程
❌ 环境变化快，需要实时调整
❌ 需要工具调用的场景（ReAct 更适合）

四、Reflection：反思与自我纠错

4.1 核心理念

Reflection（反思）赋予 Agent "回头看"的能力——在完成任务后，评估结果、发现问题、改进方案。

这类似于人类的写作过程：初稿 → 审阅 → 修改 → 定稿。

4.2 工作循环

┌─────────────────────────────────────────────────┐ │ │ │ Execute → Evaluate → Reflect → Revise │ │ ↑ │ │ │ └───────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘

Execute（执行）：完成初始任务

Evaluate（评估）：检查结果是否达标

Reflect（反思）：识别问题和改进点

Revise（修订）：根据反思结果优化

4.3 实战示例

任务：编写计算阶乘的 Python 函数

Round 1: Initial Execution

deffactorialn1forinrangereturn

Reflection 1:

发现问题：range(n)从 0 开始，会导致结果始终为 0
改进建议：使用range(1, n+1)

Round 2: Revision

deffactorialn1forinrange11return

Reflection 2:

发现问题：没有处理负数和 0 的情况
改进建议：添加输入验证

Round 3: Final Version

deffactorialn"""Calculate factorial of a non-negative integer."""ifnotisinstanceintor0raise"Input must be a non-negative integer"if0or1return11forinrange21return

4.4 反思的关键要素

要素	说明
错误检测	识别输出中的问题（逻辑错误、格式问题、遗漏）
原因分析	理解问题产生的根本原因
改进策略	提出具体的修复方案
迭代上限	设置最大迭代次数，避免无限循环

4.5 适用场景

✅ 代码生成与调试
✅ 文档写作与润色
✅ 需要高质量输出的任务
✅ 有明确评判标准的场景
❌ 时间敏感的任务
❌ 没有清晰评判标准的开放式任务

五、三种方法的组合应用

现代 Agent 架构往往将这三种方法组合使用，发挥各自优势：

5.1 ReAct + Reflection

┌─────────────────────────────────────────┐ │ ReAct Loop with Reflection │ │ │ │ Thought → Action → Observation │ │ ↓ │ │ Reflection（每 N 步或遇到失败时触发） │ │ ↓ │ │ Revise Plan & Continue │ │ │ └─────────────────────────────────────────┘

适用：需要灵活应变，同时保证输出质量的任务

5.2 Plan-and-Solve + Reflection

┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ Planning │ ──→ │ Execution │ ──→ │ Reflection │ │ │ │ + │ │ + Revision │ │ │ │ Reflection │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ ↓ 每步执行后反思

适用：结构化任务，需要迭代优化

5.3 三者融合

Phase 1: Planning（生成计划） ↓ Phase 2: ReAct Execution（动态执行 + 工具调用） ↓ Phase 3: Reflection（整体回顾与优化）

主流框架实现：

LangChain：提供 ReAct、Plan-and-Execute 模板
LangGraph：支持复杂状态机，可组合三种模式
AutoGPT：内置反思机制
CrewAI：多 Agent 协作中融合三种方法

六、实践建议

6.1 如何选择方法论？

任务特征	推荐方法
需要调用外部工具/搜索	ReAct
任务步骤清晰可分解	Plan-and-Solve
追求高质量输出	Reflection
复杂任务 + 工具 + 质量	ReAct + Reflection
结构化流程 + 高质量	Plan-and-Solve + Reflection

6.2 常见陷阱

ReAct 陷阱：

无限循环（设置最大步数）
Token 消耗过大（监控并限制）

Plan-and-Solve 陷阱：

计划过于细化（4-8 步为宜）
步骤间无依赖（考虑并行执行）

Reflection 陷阱：

过度反思（设置迭代上限）
无明确评判标准（定义清晰的评估指标）

6.3 性能优化建议

# 推荐配置示例 llm_configs = { "planning": { "model": "gpt-4", "temperature": 0.3 # 规划需要稳定 }, "execution": { "model": "gpt-3.5-turbo", # 执行可用更便宜的模型 "temperature": 0.7 }, "reflection": { "model": "gpt-4", "temperature": 0.2 # 反思需要准确判断 } }

七、代码实现：从原理到实践

理解了理论，我们来看三种模式的核心代码实现。

7.1 ReAct 核心实现

fromimportDictCallableimportclassReActAgentdef__init__self, model="gpt-4", max_iterations=10selfselfselfDictstrCallabledefregister_toolself, name: str, func: Callable, description: strself"func""description"defrunself, query: strstr"""ReAct 循环：Thought → Action → Observation"""forinrangeself# 构建 promptself# 调用 LLMself"role""user""content"self0# 检查是否完成if'final_answer'inreturn'final_answer'# 执行工具if'action'in'action''action_input'ifinselfself'func''role''Observation''content'return"Max iterations reached"# 使用示例"search"lambdaf"搜索结果: {q}""搜索网络""calc"lambdastreval"计算器"print"北京的天气如何？"

7.2 Plan-and-Solve 核心实现

classPlanAndSolveAgentdef__init__self, model="gpt-4"selfdefrunself, task: strstr"""三阶段：Planning → Execution → Aggregation"""# Phase 1: Planningself# Phase 2: Executionforinself# Phase 3: Aggregationreturnselfdef_create_planself, task: strlistf"将以下任务分解为步骤:\n{task}"self"role""user""content"0.3return0'\n'def_execute_stepself, task, step, previous_resultsf"任务: {task}\n当前步骤: {step}\n前序结果: {previous_results}"returnself"role""user""content"0def_aggregateself, task, plan, resultsf"汇总以下结果:\n{results}"returnself"role""user""content"0# 使用示例print"设计一个电商数据库架构"

7.3 Reflection 核心实现

classReflectionAgentdef__init__self, model="gpt-4", max_iterations=3selfselfdefrunself, task: str, min_score: int = 8str"""迭代循环：Generate → Evaluate → Reflect → Revise"""""forinrangeself# Generateself# Evaluateself# 检查是否达标ifreturn# Reflect（如果未达标）selff"{task}\n反思意见: {reflection}"returndef_generateself, taskreturnself"role""user""content"0def_evaluateself, task, outputf"评估以下输出的质量(1-10分):\n{output}"self"role""user""content"0.2# 解析分数returnint00def_reflectself, task, outputf"指出以下输出的问题并给出改进建议:\n{output}"returnself"role""user""content"0# 使用示例print"编写一个阶乘函数"8

7.4 LangChain 快速实现

如果想快速上手，LangChain 提供了开箱即用的实现：

fromimportfromimport# 定义工具"Search"lambdaf"结果:{q}""搜索""Calc"lambdastreval"计算"# 创建 ReAct AgentTrue# 运行"计算 123 * 456"

八、总结

三种方法论代表了 AI Agent 的三个核心能力维度：

方法论	核心能力	关键词
ReAct	动态交互	灵活、迭代、工具调用
Plan-and-Solve	结构规划	有序、清晰、可预测
Reflection	自我优化	质量、纠错、迭代

它们并非互斥，而是互补。正如人类解决问题时，既需要灵活应变，也需要规划组织，更需要反思改进。优秀的 Agent 设计，往往是三者的有机结合。

理解这三种方法论，就是理解现代 AI Agent 的设计哲学。

结语：抓住大模型时代的职业机遇

AI大模型的发展不是“替代人类”，而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作，却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言，想要在这波浪潮中立足，不仅需要掌握Python、TensorFlow/PyTorch等技术工具，更要深入理解目标行业的业务逻辑（如金融的风险控制、医疗的临床需求），成为“懂技术、懂业务”的复合型人才。

无论是技术研发岗（如算法工程师、研究员），还是业务落地岗（如产品经理、应用工程师），大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情，紧跟技术趋势，就能在AI大模型时代找到属于自己的职业新蓝海。

最近两年大模型发展很迅速，在理论研究方面得到很大的拓展，基础模型的能力也取得重大突破，大模型现在正在积极探索落地的方向，如果与各行各业结合起来是未来落地的一个重大研究方向

大模型应用工程师年包50w+属于中等水平，如果想要入门大模型，那现在正是最佳时机

2025年Agent的元年，2026年将会百花齐放，相应的应用将覆盖文本，视频，语音，图像等全模态