当前位置：首页 > news >正文

AGI、Agent、Skill、MCP：AI应用开发必知四大金刚如何协同作战！

news 2026/6/8 19:51:33

你肯定听过这些词——RAG、Agent、Skill、MCP。网上讲得天花乱坠，但看完还是一头雾水：它们到底有啥区别？是怎么配合工作的？为什么一个复杂的 AI 应用要把它们全用上？

别急，这篇就是来给你把这四个概念串成一条线的。看完你就知道，这些"听起来很高级"的名词，其实解决的都是很具体的问题。

一、RAG：让 AI 回答"你的"问题

RAG 的全称是 Retrieval-Augmented Generation，中文叫"检索增强生成"。光看名字还是懵，对吧？

简单说：RAG 就是给 AI 装了一个"资料查找"的能力，让它能回答你私有的、企业内部的问题。

举个例子。你公司有几千份内部文档，员工手册、产品手册、技术文档……你想让 AI 直接回答"我们公司的年假政策是什么"。没有 RAG 之前，AI 只能靠它训练时学到的知识来猜——准确率感人。有了 RAG，AI 会先在你们的文档库里检索相关内容，然后把检索到的内容塞进 Prompt，让模型基于真实文档来回答。

完整的 RAG 流程是这样的：

▸ 文档预处理：把你们的文档切成小块（Chunk），每块通过 Embedding 模型转成向量，存入向量数据库

▸ 用户提问：用户问一个问题，同样把这个问题的文本转成向量

▸ 相似度检索：在向量数据库里找和提问向量最相似的文档块

▸ 组装 Prompt：把检索到的相关文档块 + 用户问题 + 系统提示词，组装成一个完整的 Prompt

▸ 生成回答：LLM 基于这个 Prompt 生成答案

整个流程用图表示就是：

【RAG 的局限】

它有几个天然的局限：

检索质量依赖 Embedding 模型：如果文档格式特殊或者语义复杂，检索可能跑偏

上下文窗口限制：检索出来的文档块太多，可能塞不进去 Prompt

无法做复杂推理：RAG 本质还是"先查后答"，不适合需要多步推理的任务

实时性有限：文档库更新后，需要重新 Embedding 才能被检索到

二、Agent：会规划、执行、观察、调整的 AI

Agent 不只是调用工具，它还能规划任务、执行、观察结果、动态调整。

Agent 像是一个项目经理，你告诉他"下周要开产品发布会"，他会自己拆解成任务、安排时间表、跟进每个环节、遇到问题就调整。

Agent 的核心能力，可以用 ReAct 模式来概括：

▸ Re（Reasoning）：推理规划。把大任务拆成小步骤，想清楚先做什么后做什么

▸ Act（Acting）：执行操作。调用工具完成具体的子任务

▸ 观察（Observe）：看结果。每次工具调用后，看看返回了什么

▸ 调整（React）：根据观察到的结果，调整下一步计划

一个典型的 Agent 执行循环是这样的：

① 用户给一个大任务

② Agent 拆解成子任务队列

③ 取出一个子任务，执行（调用工具）

④ 观察执行结果

⑤ 判断：是继续下一个子任务，还是修改计划

⑥ 重复，直到任务完成

【Agent 的规划能力让事情变得不一样】

用户任务：帮我分析这份 PDF 财报，并发邮件给老板汇报关键数据

Agent 拆解：

调用"读 PDF"工具，提取财报内容

调用"数据分析"工具，识别关键财务指标

调用"生成摘要"能力，生成汇报文字

调用"发送邮件"工具，把摘要发给老板

如果某一步失败，回退或重试

三、Skill：Agent 的能力单元

Skill 就是"技能"，是 Agent 能做的事的最小单位。

类比一下：一个人会做饭、会开车、会写代码，这些"会做的事"就是他的技能。AI Agent 也一样，它能搜索网页、能读 PDF、能发邮件——每个"能做的事"就是一个 Skill。

一个 Skill 通常包含：

▸ 能力描述：这个 Skill 能做什么

▸ 输入参数：调用时需要提供什么信息

▸ 输出格式：调用后会返回什么结果

▸ 调用方式：怎么触发这个 Skill

用图表示，Skill 就像是乐高积木，每个积木是一个独立的能力模块：

【Skill 的注册和调用机制】

Skill 是怎么被 Agent 发现和使用的呢？

注册阶段：开发者开发一个 Skill，按照平台规范描述它的能力、参数、格式，然后"注册"到 Agent 平台

发现阶段：Agent 接收用户任务时，会看看有哪些 Skill 能帮上忙

调用阶段：Agent 决定调用哪个 Skill，把任务参数传过去，Skill 执行并返回结果

这就是 Skill 的核心价值：把复杂的能力封装成标准化的单元，让 Agent 可以灵活组合使用。

四、MCP：AI 工具的"USB-C"

【大白话讲透】

MCP 的全称是 Model Context Protocol，中文可以叫"模型上下文协议"。它是 Anthropic 在 2024 年 11 月发布的开放协议，目标是解决 AI 模型连接外部工具和数据源时的"碎片化"问题。

在 MCP 出现之前，每个 AI 工具都有自己的接口格式：

▸ AI 产品 A 用一套接口连数据库

▸ AI 产品 B 用另一套接口连数据库

▸ 你想让同一个工具连不同的 AI，就得写多套适配代码

这就好比每个品牌的手机都有自己的充电口，出门得带一堆线。

MCP 就是那个"USB-C"。它定义了一套标准协议，让任何 AI 模型可以通过统一的方式连接外部工具。无论你想让 AI 查 GitHub 仓库、操作 Notion 文档，还是控制智能家居——只要工具实现了 MCP Server，AI 就能直接调用。

【MCP 的工作原理】

MCP 架构里有两个核心角色：

▸ MCP Server：工具提供方。它向外界暴露自己的能力（比如"搜索文件"“创建 Issue”）

▸ MCP Client：AI 应用端。它发现和调用这些能力

通信层用 JSON-RPC 2.0 做消息传递，定义了工具发现、调用、返回的全流程。

五、四者配合：1+1+1+1 > 4

RAG、Agent、Skill、MCP 这四个概念，并不是各自为战，而是分工协作、各司其职：

组件	职责	类比
RAG	提供知识	图书馆管理员，帮你找到需要的资料
Skill	提供能力	工具箱里的各种工具，每种工具做一种事
MCP	提供标准接口	USB-C，让工具能插上就能用
Agent	负责编排调度	项目经理，把人、工具、资料串起来完成任务

用一张图来表达它们的关系：

【具体场景：让 AI 分析 PDF 财报并发送汇报】

举个例子，让你完整理解这四个组件是怎么配合的：

场景：你把一份 PDF 财报上传给 AI，让它分析关键数据，然后发邮件给老板汇报。

没有这四个组件的情况下，你会写一堆定制代码，让 AI 能读 PDF、解析数据、写摘要、发邮件——每个环节都要自己对接。

有了这四个组件，流程变成：

用户上传 PDF 财报

Agent 接收任务：“分析这份财报并发送汇报邮件”

Agent 规划任务：

▸ 用 RAG 能力找到财报相关内容（文档理解）

▸ 调用"读 PDF"的 Skill 来提取内容

▸ 调用"数据分析"的 Skill 来计算关键指标

▸ 调用"生成摘要"的 Skill 来组织文字

▸ 调用"发送邮件"的 Skill 来发送汇报

MCP 提供标准接口：

▸ 每个 Skill 都通过 MCP Server 暴露能力

▸ Agent 通过 MCP Client 调用这些能力

▸ 不需要为每个 Skill 单独写适配代码

RAG 确保回答基于文档：

▸ 如果有多份财报，RAG 检索相关内容

▸ 避免 AI 瞎编数据

Agent 编排整个流程：

▸ 按照逻辑顺序执行每个步骤

▸ 处理错误和重试

▸ 把最终结果呈现给用户

一句话总结：RAG 给 Agent 知识，Skill 给 Agent 能力，MCP 让 Skill 标准化接入，Agent 是大脑把一切串起来。

小结

概念	全称	核心作用	类比
RAG	Retrieval-Augmented Generation（检索增强生成）	让 AI 能回答私有数据的问题	图书馆管理员
Agent	AI Agent（AI 智能体）	规划、执行、观察、调整的自主系统	项目经理
Skill	Skill（技能）	AI 能做的具体事情	工具箱里的工具
MCP	Model Context Protocol（模型上下文协议）	统一 AI 工具调用的标准协议	USB-C