当前位置：首页 > news >正文

掌握Agent规划能力，轻松驾驭大模型：小白程序员必备收藏指南

news 2026/5/7 18:35:42

本文深入探讨了Agent系统的核心组件——规划能力，针对LLM Agent在执行多步骤任务时面临的“长程规划失败”问题进行了详细分析。文章梳理了从ReAct到Plan-and-Execute、Task-Decoupled Planning及Graph-based等主流解决方案，并介绍了层次化规划、重规划与自我反思等高级技巧。通过对比不同架构的优劣与适用场景，本文旨在帮助读者理解如何优化Agent的规划能力，提升任务执行效率与成功率，是小白程序员和大模型学习者的必备收藏。

背景

Agent系统由多个组件构成，规划、记忆和工具使用等

Agent = LLM + Planning + Feedback + Tool use

Agent组成部分

什么是Agent的Planning的能力

在当前主流实践里，Agent 的 Planning 能力而是一个相对独立的模块，具有如下功能：

把高层目标拆成可执行子任务（任务分解）
明确子任务的依赖关系与顺序（依赖建模）
决定哪些可以并行、哪些必须串行（调度与并行）
在执行出错或环境变化时触发「重规划」（Replanning）

在执行任务中的一个Agentic Loop过程

规划模块（Planning Module）是它们智能行为的核心，规划模块的设计理念是模拟人类的规划能力，让agent在不同的场景里可以可靠的完成任务。

为什么Agent的Planning很重要

LLM Agent在执行多步骤任务时，随着步骤数增加，完成率急剧下降——这被称为长程规划失败（Long-horizon Planning Failure）问题。简单的堆算力或者加步数也很难解决

实验数据 τ-bench（工具使用Agent基准）中，复杂多步任务的完成率随步骤数呈指数下降（10步以上任务完成率<20%）。

长程规划失败的根源是错误积累——Agent在早期步骤中的小错误（选择了错误的工具、误解了部分信息）在后续步骤中被放大，最终导致整个任务失败，而没有内部执行的”检测和纠正”机制。

主流解决方案整理

大致可以分为：从 ReAct → Plan-and-Execute / Plan-and-Act → Task-Decoupled Planning / Graph-based。

预备知识

ReAct工作原理

ReAct智能体是这方面的一个典型设计，它通过在prompt加入重复的思考、行动、观察循环给到语言模型。例如

Thought: I should call Search() to see the current score of the game.Act: Search("What is the current score of game X?")Observation: The current score is 24-21... (repeat N times)

一个典型的 ReAct 风格agent轨迹

这利用了cot prompt来每一步做出单一动作选择。虽然这对于简单任务可能有效，但它有几个主要缺点：

每个工具调用都进行一次 LLM 调用。
LLM 每次只计划一个子问题。这可能导致不是最优的执行轨迹，因为它没有被强制要求“推理”整个任务。

1.Plan-and-Execute

Plan-and-Execute LLM 智能体的人机协作示意图

参考 LangChain、LangGraph 的先规划、后执行思路，把Agent执行分成两步，规划和执行分开做，不混在一起：

先规划：拿到任务后，一次性想好从头到尾所有步骤，规划好完整流程
再执行：照着定好的计划一步步做，做完一步就更新当前进度
动态调整：如果执行结果和计划不一样，只重新安排后面还没做的步骤就行

这种方法避免了在执行中同时进行规划、执行的可能造成的冲突，但缺点是：现实情况一直在变，一开始定好的计划很容易过时，不得不反复修改规划，效率就变低了

执行完成后，agent会再次被调用，并带上重新planning的提示，让它决定是直接给出回应还是生成后续计划（如果第一个planning没有达到预期效果）。这种agent设计让我们避免了每次工具调用都要调用大型规划器 LLM 的情况。它仍然受限于串行工具调用，并且每个任务都使用 LLM，因为它不支持变量赋值。

具体实现

Planner（规划器）

有编号的线性步骤列表
JSON 数组，每个元素含：id,description,tool,deps,inputs
输入：用户目标 + 约束 + 可用工具简介
输出：结构化计划，常见格式：JSON Schema

Executor（执行器）

只看当前步的描述 + 相关依赖输出（例如 ,）+ 工具 schema
调用工具并返回结果
每次只执行一个 plan step：

为什么这样就能显著提升规划质量？

GPT-3 的示例输入和输出，分别采用 (a) Plan-and-Solve Prompting, (b) 更详细的 Plan-and-Solve Prompting,显著提高了生成的推理过程的质量。

规划在一个「干净」上下文里完成，全局视角好；
执行时上下文极小，不会被长上下文污染（context rot），稳定性更好；
很容易加上显式的失败检测和重试策略。

Planner 可以选 reasoning model，Executor 用便宜一点的模型，节约token

2.Task-Decoupled Planning

在 TravelPlanner 任务中，对分步规划 (a)、单次规划 (b) 和 TDP © 进行了比较。

TDP 论文提出的关键点是：不要让一个单独的LLM 在「全局任务 + 全部历史」上做长链推理

TDP概述。主管将任务分解为依赖关系图；规划器和执行器分别求解每个解耦的子任务节点；执行完成后，自修订机制更新依赖关系图。

关键步骤

用一个Supervisor（全局监督/调度）：

把任务拆成带依赖的 DAG（有向无环图）节点；
维护哪些节点已经完成，哪些就绪可执行；
按拓扑顺序调度就绪节点执行，可并行。

对每个子任务节点：

只给它「本节点的说明 + 前序节点输出 + 本地交互历史」；
让一个本地 Planner+Executor 在局部上下文内做规划和执行；
如果出错，只在本节点内局部重规划，不动别的节点。

TDP概述。讲任务分解为依赖关系图；规划器和执行器分别求解每个解耦的子任务节点；执行完成后，自修订机制更新依赖关系图。

TravelPlanner、HotpotQA 和 ScienceWorld 的主要结果。各部分中的最佳结果和次优结果分别以粗体和下划线标出。TravelPlanner 和 HotpotQA 各项指标的平均得分以蓝色突出显示。

HotpotQA 和 ScienceWorld 的成本比较：平均产出代币数（左轴）和性能（右轴；交付准确率/平均奖励），Plan-and-Act 与 TDP 在 DeepSeek-V3.2 和 GPT-4o 下的对比。

实验证明，这种「任务解耦 + 节点局部上下文」方式，在 TravelPlanner / ScienceWorld / HotpotQA 等长任务上，既提高成功率，又大幅节省 token，甚至比 Plan-and-Act 少用 80% 输出 token 的同时性能更好。

3. 图结构 / Workflow 级规划（Graph-based Planning）

把计划明确表示为图，而非长段文字

基于Graph-based Planning的图示。GAP 在规划阶段将任务分解为依赖感知的子任务，从而识别可并行化的工具操作。该系统支持并行工具和智能体调用，以提升计算效率

每个任务节点包含：

id/tool/inputs（可引用$E1等前序输出）
deps: [id1, id2, ...]

执行时做拓扑排序：

无依赖的节点并行跑；
有依赖的等前序完成才执行；

模型以结构化格式输出这个图结构，以支持下游的执行规划。

在多个问答数据集上进行性能比较，以 Qwen2.5-3B-Instruct 作为基础模型。

在HotpotQA平台上对不同型号的GAP-3B进行了性能成本权衡比较。结果表明，GAP-3B在保证最高准确率的同时，成本最低，实现了最佳平衡。

优势

自动并行，降低整体延迟 3–4x，花费 ~1/6 token（实测在多跳 QA 场景中类似数量级的收益）
调试简单：plan 和 execution 各自的 trace 清晰分离；
很容易插入验证、限流、审计等治理逻辑。

4.层次化规划（Hierarchical Planning）

基于 LLM 的智能体的生成范式

利用prompt引导LLM生成一个action
执行生成的action,把observation结果添加到LLM的上下文中
生成下一个action

基于 LLM 的智能体的生成范式

层次化规划（Hierarchical Planning）采用Planning层-Executor层两级分层架构，实现复杂长程任务有序拆解、分步可控执行。

核心架构

计划层 Planner

将抽象高层目标，拆解为3~5个清晰可落地子任务/子目标
为每一项子任务定义明确可校验的成功判定标准
全程监控执行进度，校验子任务是否达标完成

执行层 Executor

独立负责单个子任务闭环执行，包含工具调用、结果解析汇总
执行边界严格受限，仅处理当前对应子任务
任务执行完毕后，标准化反馈任务完成状态

形式化定义

整体任务流程以有向无环图 DAG结构化表示

图中节点：独立子任务
图中有向边：子任务前后依赖顺序
Executor：单次处理单个DAG节点
Planner：统筹管理整张DAG图的遍历、调度与流转

5. 重规划（Replanning）与自我反思（Reflexion）

Replanning策略

4 种常见的Replanning策略：

失败触发重规划：只有当某步执行失败（报错 / 违反前置条件）时才重规划；
观察触发重规划：每步执行后都允许 Planner 观察结果并调整余下计划
周期性重规划：每 N 步触发一次
滑动窗口式重规划：只对接下来 K 步做承诺，到边界再整体重规划。

Reflexion

而反思（Reflection Pattern / Reflexion）则是另一层能力：让 Agent 学会反思并修正自己的规划行为：

Reflexion 过程，通过让Agent在失败后进行反思（verbal reflection）来改善下一次尝试

执行者（Actor）：依据环境状态观测输出推理内容与执行动作，与环境交互后获取反馈观测，逐步构建完整任务轨迹。

采用CoT、ReAct等经典推理架构，并搭配独立记忆模块补充上下文信息，辅助长流程决策。

评估模块（Evaluator）：对行动主体的全过程轨迹（短期交互记忆）进行质量评判，输出对应奖励分值。

针对不同类型任务，自适应选用LLM语义评分、规则启发式奖励等多样化奖励计算方式。

自我反思（Self-Reflection）：由大模型承担全局复盘优化角色，结合奖励信号、当前任务轨迹与长期历史记忆，生成指导性语言优化反馈，存入智能体持久记忆库。

智能体根据过往经验沉淀持续迭代决策能力，不断提升后续任务表现。

自我反思的智能体学习迭代优化其行为来解决决策、编程和推理等各种人物的例子。自我反思（Refelxion）通过引入自我评估、自我反思和记忆组件来拓展 ReAct 框架

自我反思能够显著提高 AlfWorld 上的决策任务、HotPotQA 中的问题推理以及在 HumanEval 上的 Python 编程任务性能。在序列决策 (AlfWorld) 任务上进行评估时，ReAct + Reflexion 用启发式和 GPT 的自我评估进行二元分类，完成了 130/134 项任务，显着优于 ReAct

自我反思显著优于所有基线方法。仅对于推理以及添加由最近轨迹组成的情景记忆时，Reflexion + CoT 的性能分别优于仅 CoT 和具有情景记忆的 CoT

什么时候可以用

智能体需要从尝试和错误中学习
需要很强的可解释性和记忆功能
序列决策、深度推理、coding场景

如何评估Planning真的变好了

不要只看任务是否完成，而要引入专门的 planning 指标和评估方法

1. 典型指标

Plan Quality（计划质量）

步骤是否完整覆盖目标（召回）
是否存在逻辑矛盾 / 顺序错误 / 不可达分支
平均步骤长度、冗余操作比率；

Plan Adherence（计划遵循度）

Executor 实际执行的步骤序列，与计划差异有多大
有多少跳步 / 回退 / 无计划动作

Step Efficiency（步效率）

完成同一任务所需步骤数 vs 最优/基线；

Cost & Latency

规划阶段 token / 时间 / 调用次数；
整体流水线的吞吐与延迟。

2. 基准任务与对比

选一组代表性任务（Web 导航、报表生成、排程、代码修改等）；
对比以下架构：

ReAct（无显式规划）
一层 Plan-and-Execute
Task-Decoupled / DAG / 多 Agent 版本

评估同一批任务上的：

成功率
平均步骤数
token 消耗
人工介入率、回退率

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。