当前位置：首页 > news >正文

AI Agent 的七层架构：从 LLM 到自主智能体，中间到底隔了什么？

news 2026/4/30 9:15:11

AI Agent 的七层架构：从 LLM 到自主智能体，中间到底隔了什么？

摘要：2026年，AI Agent 从概念炒作进入工业化落地。但绝大多数人对 Agent 的理解停留在"LLM + 工具调用"的浅层。本文提出 Agent 的七层能力架构——从基础模型到自主决策，每一层都是一次质变。理解了这七层，你就能判断一个 Agent 产品到底是真智能还是套壳。附带主流框架（LangChain、CrewAI、AutoGen、OpenClaw）在各层的能力对比。

一、一个让我重新思考 Agent 的时刻

大概是上个月，我让一个"Agent"帮我订一张下周去上海的机票。

它查了天气、比了价格、选了一个靠窗座位。看起来挺像那么回事。

然后我问它：“订了吗？”

它说：“需要您手动确认支付。”

我突然意识到：这不是 Agent，这是一个带搜索功能的聊天机器人。

那一刻我开始认真思考一个问题——LLM 能理解指令、能调用工具、能多步推理，但从"聪明的工具"到"自主的代理"，中间到底缺了什么？

这篇文章就是我思考的答案。

二、Agent 的七层能力架构

我把 Agent 的能力拆成了七层。每一层建立在前一层之上，缺一层就不是真正的 Agent。

┌──────────────────────┐ │ L7: 自主决策 │ ← 真正的 Agent 分界线 ├──────────────────────┤ │ L6: 长期记忆与学习 │ ├──────────────────────┤ │ L5: 多 Agent 协作 │ ├──────────────────────┤ │ L4: 规划与纠错 │ ├──────────────────────┤ │ L3: 工具调用 │ ← 多数"Agent"产品卡在这一层 ├──────────────────────┤ │ L2: 上下文管理 │ ├──────────────────────┤ │ L1: 基础 LLM │ └──────────────────────┘

L1：基础 LLM — 引擎

这是 Agent 的大脑。GPT-5、Claude Opus、Gemini 3、DeepSeek-V4——不管用哪个，这一层决定了推理能力的上限。

关键指标：

推理深度（能不能多步推理不跑偏）
指令遵循（能不能稳定执行复杂指令）
幻觉率（越低越好，Agent 的每一步都依赖推理的准确性）

常见误区：很多人认为"换个更强的模型 Agent 就更好用"。实际上，L1 决定了天花板，但 L3-L7 决定了你离天花板有多远。一个架构糟糕的 Agent，用最强模型也救不回来。

L2：上下文管理 — 记忆

Agent 需要记住"之前发生了什么"。

这一层远不止是"塞一个长 prompt"。实际上它涉及：

短期记忆：当前任务的上下文窗口管理
会话记忆：跨轮对话的信息保持
压缩机制：如何在不丢失关键信息的前提下精简上下文
优先级：哪些信息关键、哪些可以丢掉

OpenClaw 的 Compaction 机制是一个很好的案例——当对话过长时，系统自动做有损摘要释放空间。但这恰恰是双刃剑：压得太狠 Agent “失忆”，压得不够烧 Token。

工程难点：记忆不是存下来就行，而是"在该想起来的时候想起来"——这其实是一个检索问题。

L3：工具调用 — 动手能力

这是目前最成熟的一层，也是大多数"Agent 产品"的主力卖点。

Function Calling、MCP 协议、插件系统——工具调用的基础设施已经比较完善了。但这个层有两个更深的问题：

问题一：工具不是越多越好。给 Agent 100 个工具，它在选择时就会困惑。Google 的研究表明，工具超过 20 个后，选择准确率显著下降。工具设计的关键不是"能做什么"，而是"描述清楚什么时候该用"。

问题二：工具的"语义鸿沟"。很多工具的输入输出是面向人类设计的，Agent 理解起来会有偏差。比如一个 API 返回了 500 行 JSON，Agent 需要从中提取 3 个字段——它可能会迷路。

L4：规划与纠错 — 关键转折点

这是 Agent 从"执行者"到"思考者"的跨越。

一个真正的 Agent，不是"你给我指令，我执行"——而是"你给我目标，我自己想怎么做到"。

这一层包含三个子能力：

a) 任务分解（Task Decomposition）
把"帮我做市场调研"拆成：搜索竞品 → 分析定价 → 整理报告。每一步再拆成子步骤。

当前主流做法：

ReAct 模式：思考→行动→观察→再思考（循环式）
Plan-and-Execute：先做完整计划，再逐步执行
Tree-of-Thought：多路径探索，选最优

b) 自我纠错（Self-Correction）
Agent 执行步骤 3 时发现步骤 1 的假设错了，能不能回头修正？

这是目前最大的短板之一。大多数 Agent 在发现错误后只会"继续往下走"——因为它没有"回退并重新规划"的能力。

c) 不确定性表达
Agent 应该在不确定时说"我不确定"。但 LLM 的默认行为是"给一个答案，即使它可能是错的"。让模型学会说"我需要更多信息"比让它"更聪明"更难。

来源：实际测试中，不加特殊 prompt 的 Agent 在信心不足时仍会给出错误答案的概率超过 60%。

L5：多 Agent 协作 — 从独狼到团队

单个 Agent 的能力有上限。真正的复杂任务需要多 Agent 协同。

三种协作模式：

模式	原理	典型框架	适用场景
顺序流水线	Agent A → Agent B → Agent C	LangChain Chain	固定流程
对话式协作	Agent 之间互相发消息	AutoGen, ChatDev	开放讨论
主从调度	一个主 Agent 分配任务	CrewAI, OpenClaw	复杂项目

关键挑战：

上下文爆炸：3 个 Agent 互相交流，上下文增长速度是线性的 N 倍
协调开销：谁说了算？意见不一致怎么办？信息怎么同步？
错误传播：Agent A 的输出是 Agent B 的输入，A 出错 B 跟着错

OpenClaw 的并行 Sub-agent 机制是一个有意思的解法——主 Agent 同步发起多个子任务，等全部完成后再汇总。这种方式减少了串行依赖，降低了错误传播风险。

L6：长期记忆与学习 — 越用越聪明

这是目前最被低估的一层。

短期记忆（L2）解决了"这次对话记住什么"。长期记忆解决的是"下次对话还记得上次学到了什么"。

具体包括：

用户偏好记忆：用户喜欢什么样的回答风格、常用的工具、偏好的决策方式
任务经验积累：上次解决类似问题用了什么方法，效果怎么样
知识更新：世界变了，Agent 的知识也要变

工程实现：

向量数据库 + RAG（当前主流，但检索准确率是瓶颈）
结构化记忆文件（MEMORY.md 模式，简单但有效）
增量微调（成本高，但效果最好）

一个有趣的趋势：OpenClaw 生态中出现了"自我改进 Agent"模式——Agent 在完成任务后，会自己写一条"学到的东西"到记忆文件中。下次遇到相似场景，它会先检索记忆，看上次怎么解决的。这种"数字化的经验积累"，可能是 Agent 长期记忆的第一个实用落地方式。

L7：自主决策 — 真正的 Agent

到了这一层，Agent 不需要你的每一步确认了。

定义：Agent 在明确的目标和约束下，自主做出决策并执行，不需要人类在每一步介入。

三个必要条件：

信任积累：你允许它自己做决定，是因为它之前证明了自己可靠
安全边界：它不是"什么都能做"，而是"在明确边界内自由行动"
可追溯性：它做了什么、为什么做，事后可以审查

人类在回路中的位置演变：

L1-L2: 人类做所有决策，Agent 只是查询工具 L3-L4: 人类确认每一步，Agent 提议+执行 L5-L6: 人类确认关键节点，Agent 自主处理中间步骤 L7: 人类设定目标和约束，Agent 自主完成。人类事后审查。

大部分商业"Agent"产品卡在 L3-L4 之间。2026 年最值得关注的是谁先突破 L5，并给出 L6 的可行方案。

三、主流框架在各层的能力对比

框架	L1 模型	L2 上下文	L3 工具	L4 规划	L5 多Agent	L6 长期记忆	L7 自主决策
LangChain	任意	LCEL/回调	⭐⭐⭐	⭐⭐	⭐⭐	⭐	❌
CrewAI	任意	基础	⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐	❌
AutoGen	任意	基础	⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐	❌
OpenClaw	任意	Compaction	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐