智能体元年:一篇讲清楚 Agent 到底是什么?
2026 年才过了五个月,Agent 这个词已经炸了。
年初 Openclaw 火出圈,一个开源的多 Agent 协作框架,让几个 AI 同时干活、互相检查。近期,又看到一个 OpenHuman 冒出来,要让 Agent 不只是调 API,而是像人一样操作浏览器、读写文件、跨 App 工作。
然后是每天在用的工具,Claude Code、Cursor、Codex。你在终端说一句"帮我重构这个模块",它自己读文件、改代码、跑测试、提交 commit。这不是"AI 辅助编程",这是一个自主运行的智能体在干活。
问题来了。
大家都在说 Agent。但 Agent 到底是什么?编排、ReAct、MCP、Tool Calling、Skills、Harness……这些词满天飞,到底哪个是哪个?怎么串起来?
这篇文章试着用一张地图来梳理 Agent 的全貌:冯诺依曼架构。读完你应该能跟任何人解释清楚:
- Agent 由哪几个零件构成
- 每个零件解决什么问题
- 编排 / MCP / Tool / Skills / ReAct / Harness 这些概念各自属于哪个零件
- 为什么 2026 年是智能体元年
这篇是我 Agent 研究系列的第一篇,目标是画一张全局地图。后续每篇会深挖一个模块。
全局地图:用冯诺依曼看懂 Agent
1945 年,冯诺依曼定义了现代计算机的五个组件:运算器、控制器、存储器、输入设备、输出设备。七十年了,你的 MacBook 和云服务器底层还是它。我始终觉得,我们没法脱离已有的认知去构建新的东西,而Agent,就是验证了这么个逻辑的产物。它,就应该出现在当下的这么个时候。对比来看,Agent 的架构跟它存在严整的对应。不是类比,是同构:
Agent 的完整定义,工业界公认来自 OpenAI 的 Lilian Weng:
Agent = LLM + 规划 + 记忆 + 工具使用
这个公式里的每一项,恰好对应了冯诺依曼机器的一个组件。把 LLM 看作一颗 CPU,Agent 就是这台 CPU 装上操作系统、内存、硬盘、总线和外设之后,变成的一台完整计算机。
下面逐个拆解。
LLM:运算器
先看最核心的零件:大语言模型。
在冯诺依曼架构里,运算器负责所有算术和逻辑运算。在 Agent 里,LLM 负责所有文本推理和生成。它是整个系统的"发动机",没有它 Agent 就不存在。
但单独一颗 LLM,是一个只有运算器、没有其他组件的半成品。它每次回答都是独立的。记不住你上一轮说了什么,碰不到外部世界,没法查资料,更没法操作文件。
打个比方:单独的 LLM 像一个智商极高的天才,但被关在一个没有窗户、没有网络、没有笔记本的房间里。你推门问一句,他答一句。你关上门再进来,他已经忘了刚才聊过什么。
从 LLM 到 Agent,就是给这个天才装上眼睛、双手、笔记本和日程表的过程。
编排:控制器
如果 LLM 是心脏,编排(Orchestration)就是 Agent 的大脑皮层,负责拆解任务、调度工具、管理状态、决定"下一步做什么"。
编排层的核心模式是ReAct(Reasoning + Acting):
这是一个控制循环。跟 CPU 的取指-译码-执行-写回一样,Agent 在跑 Thought → Action → Observation 的主循环。区别只在于指令不再是机器码,而是自然语言推理。
工程落地上,编排有三种主流实现方式:
| 方式 | 代表 | 特点 |
|---|---|---|
| 硬编码 Pipeline | 手写 if-else / 状态机 | 完全可控,但不够灵活 |
| Chain 模式 | LangChain | 线性编排 A→B→C,适合简单流程 |
| Graph 模式 | LangGraph | 有环图,支持循环和条件分支,工业级首选 |
LangGraph 是目前做复杂 Agent 编排的事实标准。它的核心概念只有三个:
- State(状态):全局字典,存对话历史、检索结果、工具调用记录
- Node(节点):一个个具体函数,比如"检索节点"、“评分节点”、“生成节点”
- Edge(边):节点间的连线。最关键的是条件边:“如果检索结果不够好,回到检索节点重新搜”
用 LangGraph 建一个 ReAct Agent,就是画一张状态图:LLM 节点 ↔ 工具节点,循环直到任务完成。
记忆:短期 + 长期
冯诺依曼架构里,存储器是数据与程序的存放处。Agent 也一样,它有两套记忆。
短期记忆:上下文窗口
短期记忆 = LLM 单次推理能"看到"的全部内容。包括:
- 当前对话历史
- 系统指令(system prompt)
- 工具返回的结果
- 检索到的文档片段
这个东西的瓶颈很直接:窗口是有容量上限的。一次塞太多东西,推理质量下降(上下文膨胀),Token 成本飙升。
所以 Agent 不是把什么都扔进窗口。它需要窗口管理策略:滑动窗口(只保留最近 N 轮)、摘要压缩(把旧对话总结成一段话)、按需加载(只拉当前步骤需要的信息)。
长期记忆:向量库 + 文档
长期记忆 = Agent 的"硬盘"。数据持久化在向量数据库(如 ChromaDB、Pinecone)和文件系统里。
这就是 RAG 在 Agent 架构中的角色:RAG 不是 Agent 的全部,它是 Agent 手里的一把"检索工具"。当 Agent 需要查某个文档时,通过向量检索捞出相关片段,塞进短期记忆窗口,LLM 基于片段生成答案。
区分清楚:
- RAG = 检索增强生成,解决"模型记不住外部知识"的问题
- Agent = LLM + 编排 + 记忆 + 工具,解决"模型不能自主完成任务"的问题
- RAG 是 Agent 的一个工具,Agent 是比 RAG 大得多的系统
MCP 协议:总线
各组件要通信,需要一条总线。在 Agent 世界里,这条总线叫MCP(Model Context Protocol,模型上下文协议)。
MCP 解决一个很现实的问题:每个外部工具都有自己的接口格式。你的 Agent 想多接几样东西,就得给每个写一个适配器,然后还要维护、更新、排错。开发者维护适配器的时间,甚至超过了构建 Agent 逻辑本身的时间。
MCP 就是统一接口标准。它规定了三件事:
- Agent 如何发现有哪些可用的工具和数据源
- Agent 如何请求某个工具执行某个操作
- 工具如何返回结果给 Agent
有了 MCP,Agent 接新工具就像 USB 插外设,不需要每次给键盘重新焊针脚。
Google 四月份开源的Agent Skills(github.com/google/skills)就兼容 MCP,这意味着一份 Skill 可以跨平台使用:写一次,在 Claude Code、Cursor、Antigravity、Gemini CLI 里都能跑。
Tool / Skills:I/O 设备
Agent 的"手脚",跟外部世界交互的能力,分为两层:
Tool:工具调用
工具 = Agent 能调用的外部函数。搜索、读写文件、发邮件、执行 SQL、操作浏览器…
底层机制就是Function Calling(函数调用)。这个名字本身说出了本质:
LLM 输出一段 JSON,说"我想调
search函数,参数是query='Transformer对比'编排层解析这段 JSON,去调用真正的
search()函数函数的结果打包返回给 LLM
LLM 看到结果,决定下一步:继续调另一个工具,还是直接回答
LLM 不执行任何代码。它只是按概率输出了一段 JSON。执行是编排层的事。
Skills:可复用的专业知识模块
Skills 是比 Tool 更上一层的抽象。Tool 只编码了"调用什么函数",Skill 还编码了"怎么做"和"为什么这么做"。
具体来说,一份 Skill 就是一份 Markdown 文件,包含:
- 这个领域的关键概念
- 常见操作的标准流程
- 已验证的最佳实践
- 容易踩的坑
Google 官方 Skills 仓库覆盖了 BigQuery、Firebase、GKE 等 13 项云服务。Addy Osmani 的agent-skills(GitHub 2.4 万 star)则提供了 20 个工程纪律 Skill,把资深工程师的工作习惯拆成可组合模块:
Skills 的定位:在 Prompt 之上(可复用持久)、在微调之下(轻量可迭代)、比 RAG 更主动(主动注入知识而非被动检索)。
当前主流范式与工程驱动
四种运行范式
上面拆解的是 Agent 的"零件"。这些零件组合起来怎么跑?目前有四套主流模式:
| 范式 | 控制逻辑 | 典型场景 |
|---|---|---|
| ReAct | Thought→Action→Observation 循环 | 通用任务拆解 |
| Plan-Execute | 先规划 Step 1-3,再线性执行 | 步骤确定的流程 |
| Reflexion | 执行后自我检查,不通过重来 | 高质量生成 |
| Multi-Agent | 多个 Agent 分工协作 | 复杂系统 |
它们的区别本质上是编排策略不同:ReAct 是中断驱动的循环,Plan-Execute 是静态调度,Reflexion 是带校验的重试,Multi-Agent 是多核并行。
工程化驱动:Harness 与 Agentic Engineering
了解概念只是第一步。把 Agent 从 demo 变成生产系统,才是工程化的硬骨头。
Karpathy 在今年 Sequoia 访谈里给了一个关键区分:
Vibe Coding 抬高下限,更多人能用自然语言做软件。
Agentic Engineering 保住上限,用 Agent 加速,但不能牺牲质量、安全和可维护性。
Agentic Engineering 的核心就是给 Agent 加边界。具体手段包括Harness(测试架):
- LLM-as-a-Judge:用一个更强的模型给 Agent 的输出打分
- 自动化回归测试:每次改 Prompt 或工具定义后,跑一遍标准测试集
- 调用链追踪:记录每次 Thought→Action→Observation,方便回溯排查
本质上,Agentic Engineering 在做的事就是:在组件不可靠的前提下,搭建一套可靠的系统。LLM 是锯齿状的、有时会出错的。编排、验证、回滚这些机制,是为了让整体系统的可靠性不取决于单个组件的可靠性。
总结:什么是 Agent
回到开篇的问题。用一句话回答:
Agent 是一台以 LLM 为运算器,加上编排控制器、短期+长期记忆、MCP 总线,以及 Tool/Skills I/O 层,构成的自主任务执行系统。
用我们熟悉的计算机做参照物:
2026 年之所以是智能体元年,不是因为 LLM 突然变强了,是因为除了 LLM 之外的那四个零件,今年全部进入了可用状态:
- 编排:LangGraph 成熟,Graph 模式成为工业标准
- 记忆:向量库成本降到可以本地跑(ChromaDB / Qdrant)
- MCP:标准协议被 Google/Anthropic 等大厂接受
- Skills:可复用知识模块的理念开始落地(Google / Osmani)
当所有外围组件就位,Agent 从一个"可以试着搭"的概念变成了一个"可以工业化搭建"的系统。
这就是 2026 年正在发生的事。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
