当前位置：首页 > news >正文

Agent理论

news 2026/6/9 23:56:31

Agent 理论

作者: 韩彤彤
创建时间: 2026-06-03
最后更新: 2026-06-09

基础概念

Agent 定义: 在特定环境中能够感知环境状态、自主决策并采取行动以实现目标的系统。

精简定义：在 LLM 基础上叠加目标 + 规划 + 执行能力的自主智能系统。

🔑 核心公式

Agent = Perception (感知) + LLM (大脑) + Planning (规划) + Tool use (执行) + Memory (记忆)

五大组件

1. Perception (感知 / 输入)

接收外部信息：用户提问、环境数据、工具返回结果、系统信号，相当于五官，把外界信息送入大脑。

2. LLM / Brain (大模型 / 决策大脑)

理解语义、推理、价值观判断、生成思考，整个 Agent 的智能核心。

3. Planning (规划)

把复杂任务拆解成有序子步骤，制定执行方案，做计划、排流程。

4. Tool Use (工具调用 / 行动执行)

调用搜索、计算器、接口、代码等外部工具，落地完成规划里的具体动作，相当于手脚。

Tool Calling：模型主动识别需求、调用外部工具完成实际操作，不局限纯文本回复。

5. Memory (记忆)

分短时上下文记忆、长期知识库记忆，存储历史对话、任务经验、历史结果，后续任务复用信息。

短时记忆：本轮对话上下文，记住上文聊天内容。

长时记忆：历史任务、用户偏好、过往成功方案，后续同类任务复用经验。

精简定义：为 AI 提供短期会话记忆 + 长期持久记忆，解决上下文遗忘问题。

推理与规划（Reasoning & Planning）

在构建自主 AI Agent 的过程中，如果说大语言模型（LLM）是 Agent 的大脑，工具调用（Tool Use）是手脚，那么推理与规划（Reasoning & Planning）就是将其从简单的问答机升级为自主问题解决者的核心引擎。

复杂的现实任务往往无法通过一次生成（One-pass generation）完成。AI 需要具备拆解目标、逻辑推演、探索路径、自我修正以及调度工具的能力。

思维链（Chain of Thought, CoT）

逐步推理能力。传统 LLM 生成答案时往往是直觉式的一步到位。

思维链（CoT）的核心思想是：强制要求模型在输出最终答案前，先显式地输出中间的推理步骤（Let's think step by step）。这种做法能显著激活模型在复杂数学、逻辑推理和常识问答中的潜力。

CoT 不仅让模型有了更多的计算时间（token 数量代表计算量），还让后续的生成能建立在前面正确的逻辑基础上。

ReAct 框架（Reasoning + Acting）

推理 + 行动循环。如果说 CoT 只是在模型内部闭门造车，那么 ReAct 则是让模型睁开眼睛看世界。

它将内部逻辑推理（Thought）与外部工具交互（Action）交织在一起，形成一个动态的闭环反馈系统。

在 ReAct 范式下，Agent 遵循 Thought（思考） -> Action（行动） -> Observation（观察） 的循环，直到得出最终结论。

Plan-and-Execute（规划先行执行模式）

为了解决 ReAct 在长线任务中的疲软，Plan-and-Execute 将思考和行动进行了解耦，采用了类似人类做大型项目的策略：先出排期表，再挨个干活。

系统通常分为两个独立的角色：

Planner（规划者）：负责接收大目标，生成详细的 Step-by-Step 子任务列表。

Executor（执行者）：负责按顺序执行这些子任务。执行器通常就是一个小型的 ReAct Agent，每次只专注完成当前的一个小目标。

协议与标准

MCP（模型上下文协议）

Model Context Protocol，统一 AI 与工具、数据库、外部服务的通信标准。

Agent 标准完整工作流（五大组件串联闭环）

整体流程：感知 → 取记忆 → 思考 → 规划 → 调用工具 → 结果汇总 → 存记忆

1. Perception 感知输入

接收用户指令、工具返回数据、环境信息，把外部信息转为模型可识别文本。

2. Memory 读取历史

从 短时记忆（本轮上下文）+ 长时记忆（历史经验 / 用户习惯） 调取相关信息，辅助理解任务。

3. LLM 大脑理解 & 决策

LLM 结合输入 + 历史记忆，判断任务目标：

简单任务：直接生成答案结束；
复杂任务：进入规划环节。

4. Planning 任务规划拆解

大目标拆成有序子任务列表，确定：每一步做什么、要不要调用工具、调用什么工具。

5. Tool Use 工具执行（Action）

按规划逐条调用外部工具：搜索 / 计算器 / 代码 / 第三方 API，拿到工具返回结果。

若工具结果不足，会重新规划、二次调用工具。

6. LLM 整合输出

汇总工具数据、上下文信息，整理成通顺回答返回用户。

7. Memory 写入存储

把本轮对话、任务结果、有用经验存入短时 / 长时记忆，完成闭环。

精简闭环公式：

感知输入 → 加载记忆 → LLM 理解 → 任务规划 → 工具执行 → 结果总结输出 → 落地存储记忆

Agent 技术栈五层架构

层级	核心组件	核心作用	典型能力
基础层（模型）	LLM & Token、Transformer 架构、Token 化、注意力机制	AI 的底层计算核心；负责文本理解、Token 预测、语言生成	自然语言理解、文本生成、上下文建模、概率预测
上下文层（记忆）	Context Window、Prompt、Memory、RAG	管理模型输入上下文；负责短期记忆、长期记忆、外部知识注入	Prompt 控制、会话记忆、知识检索、上下文增强
能力扩展层（工具）	MCP、Tool Calling、API、Database	让 AI 不止聊天；通过工具调用扩展真实世界操作能力	联网搜索、代码执行、数据库查询、API 调用
智能体层（决策）	Agent、Explore、Plan、Act	AI 自主决策大脑；负责目标理解、任务拆解、规划与闭环执行	任务规划、多步骤推理、自主决策、闭环执行
应用层（行动）	Agent Skill、Workflow、Automation	面向具体业务场景；将 Agent 能力封装为可落地产品	自动化工作流、行业AI助手、企业智能系统、AI SaaS应用