Agent 理论
作者: 韩彤彤
创建时间: 2026-06-03
最后更新: 2026-06-09
基础概念
Agent 定义: 在特定环境中能够感知环境状态、自主决策并采取行动以实现目标的系统。
精简定义:在 LLM 基础上叠加目标 + 规划 + 执行能力的自主智能系统。
🔑 核心公式
Agent = Perception (感知) + LLM (大脑) + Planning (规划) + Tool use (执行) + Memory (记忆)
五大组件
1. Perception (感知 / 输入)
接收外部信息:用户提问、环境数据、工具返回结果、系统信号,相当于五官,把外界信息送入大脑。
2. LLM / Brain (大模型 / 决策大脑)
理解语义、推理、价值观判断、生成思考,整个 Agent 的智能核心。
3. Planning (规划)
把复杂任务拆解成有序子步骤,制定执行方案,做计划、排流程。
4. Tool Use (工具调用 / 行动执行)
调用搜索、计算器、接口、代码等外部工具,落地完成规划里的具体动作,相当于手脚。
Tool Calling:模型主动识别需求、调用外部工具完成实际操作,不局限纯文本回复。
5. Memory (记忆)
分短时上下文记忆、长期知识库记忆,存储历史对话、任务经验、历史结果,后续任务复用信息。
短时记忆:本轮对话上下文,记住上文聊天内容。
长时记忆:历史任务、用户偏好、过往成功方案,后续同类任务复用经验。
精简定义:为 AI 提供短期会话记忆 + 长期持久记忆,解决上下文遗忘问题。
推理与规划(Reasoning & Planning)
在构建自主 AI Agent 的过程中,如果说大语言模型(LLM)是 Agent 的大脑,工具调用(Tool Use)是手脚,那么推理与规划(Reasoning & Planning)就是将其从简单的问答机升级为自主问题解决者的核心引擎。
复杂的现实任务往往无法通过一次生成(One-pass generation)完成。AI 需要具备拆解目标、逻辑推演、探索路径、自我修正以及调度工具的能力。
思维链(Chain of Thought, CoT)
逐步推理能力。传统 LLM 生成答案时往往是直觉式的一步到位。
思维链(CoT)的核心思想是:强制要求模型在输出最终答案前,先显式地输出中间的推理步骤(Let's think step by step)。这种做法能显著激活模型在复杂数学、逻辑推理和常识问答中的潜力。
CoT 不仅让模型有了更多的计算时间(token 数量代表计算量),还让后续的生成能建立在前面正确的逻辑基础上。
ReAct 框架(Reasoning + Acting)
推理 + 行动循环。如果说 CoT 只是在模型内部闭门造车,那么 ReAct 则是让模型睁开眼睛看世界。
它将内部逻辑推理(Thought)与外部工具交互(Action)交织在一起,形成一个动态的闭环反馈系统。
在 ReAct 范式下,Agent 遵循 Thought(思考) -> Action(行动) -> Observation(观察) 的循环,直到得出最终结论。
Plan-and-Execute(规划先行执行模式)
为了解决 ReAct 在长线任务中的疲软,Plan-and-Execute 将思考和行动进行了解耦,采用了类似人类做大型项目的策略:先出排期表,再挨个干活。
系统通常分为两个独立的角色:
Planner(规划者):负责接收大目标,生成详细的 Step-by-Step 子任务列表。
Executor(执行者):负责按顺序执行这些子任务。执行器通常就是一个小型的 ReAct Agent,每次只专注完成当前的一个小目标。
协议与标准
MCP(模型上下文协议)
Model Context Protocol,统一 AI 与工具、数据库、外部服务的通信标准。
Agent 标准完整工作流(五大组件串联闭环)
整体流程:感知 → 取记忆 → 思考 → 规划 → 调用工具 → 结果汇总 → 存记忆
1. Perception 感知输入
接收用户指令、工具返回数据、环境信息,把外部信息转为模型可识别文本。
2. Memory 读取历史
从 短时记忆(本轮上下文)+ 长时记忆(历史经验 / 用户习惯) 调取相关信息,辅助理解任务。
3. LLM 大脑理解 & 决策
LLM 结合输入 + 历史记忆,判断任务目标:
- 简单任务:直接生成答案结束;
- 复杂任务:进入规划环节。
4. Planning 任务规划拆解
大目标拆成有序子任务列表,确定:每一步做什么、要不要调用工具、调用什么工具。
5. Tool Use 工具执行(Action)
按规划逐条调用外部工具:搜索 / 计算器 / 代码 / 第三方 API,拿到工具返回结果。
若工具结果不足,会重新规划、二次调用工具。
6. LLM 整合输出
汇总工具数据、上下文信息,整理成通顺回答返回用户。
7. Memory 写入存储
把本轮对话、任务结果、有用经验存入短时 / 长时记忆,完成闭环。
精简闭环公式:
感知输入 → 加载记忆 → LLM 理解 → 任务规划 → 工具执行 → 结果总结输出 → 落地存储记忆
Agent 技术栈五层架构
| 层级 | 核心组件 | 核心作用 | 典型能力 |
|---|---|---|---|
| 基础层(模型) | LLM & Token、Transformer 架构、Token 化、注意力机制 | AI 的底层计算核心;负责文本理解、Token 预测、语言生成 | 自然语言理解、文本生成、上下文建模、概率预测 |
| 上下文层(记忆) | Context Window、Prompt、Memory、RAG | 管理模型输入上下文;负责短期记忆、长期记忆、外部知识注入 | Prompt 控制、会话记忆、知识检索、上下文增强 |
| 能力扩展层(工具) | MCP、Tool Calling、API、Database | 让 AI 不止聊天;通过工具调用扩展真实世界操作能力 | 联网搜索、代码执行、数据库查询、API 调用 |
| 智能体层(决策) | Agent、Explore、Plan、Act | AI 自主决策大脑;负责目标理解、任务拆解、规划与闭环执行 | 任务规划、多步骤推理、自主决策、闭环执行 |
| 应用层(行动) | Agent Skill、Workflow、Automation | 面向具体业务场景;将 Agent 能力封装为可落地产品 | 自动化工作流、行业AI助手、企业智能系统、AI SaaS应用 |
注:RAG 详见 向量数据库.md
最后更新: 2026-06-09 23:19
