当前位置：首页 > news >正文

大模型技术必备：Agent、MCP、A2A与Agent Skills精讲，值得反复阅读的技术指南

news 2026/7/4 14:19:17

随着大模型技术的发展，Agent、MCP、A2A，以及近期爆火的Agent Skills各种概念层出不穷，各种文章也看得让人眼花缭乱…

那这些概念到底应该怎么理解？又有何区别？

首先，用几句话总结：

LLM只是基础组件，而Agent才能构成产品。
Prompt指导模型当前（单次）任务要做什么；
Tools决定了Agent能力范围，能干什么；
Agent则是让模型可以使用Tools，实际去做；
MCP解决的是如何让他人开发的工具无缝接入；
A2A解决的是不同智能体协作问题；
Agent Skills 则是教智能体做事的方法论。

下面让我们详细解读，不同概念之间的含义和区别：

全文2500+字，阅读大约需要15min

Agent（智能体）

智能体是一种能够感知环境、进行自主决策、并利用工具执行动作以达成目标的计算实体。目前，主流的Agent基础架构，一般是基于React架构，包括几个关键组件：

感知（Perception）：接收用户指令、工具返回的结果或外部环境变化，进行深入理解。
规划（Planning）：思考“第一步做什么，第二步做什么”（Chain of Thought），进行复杂任务拆解和任务规划。
执行（Action）：根据规划结果，做具体执行，例如调用API、写代码、搜索网页。
反思（Reflection）：反思当前轮执行结果是否正确，是否需要更新规划。
记忆（Memory）：包含长期和短期记忆，让模型记住做过什么。

Agent不是大模型时代才有的产物，早在很多年前就已经有Agent的概念，比如早期的AlphaGo…

Agent到底有哪些类别？

Agent发展历程可以概括如下图：

1）Reflex Agent

这是最基础的智能体。它不考虑历史状态，也不规划未来，仅仅根据当前的环境输入直接映射到动作。它像生物的“条件反射”一样工作。

工作方式：如果 (感知到 X)，那么 (执行动作 Y)。
例子：恒温器（温度高于26度就开机，低于24度就关机）、碰到障碍物就倒退的扫地机器人。
特点：速度极快，但极其愚蠢，无法处理复杂或未预见到的情况。

2）Rule-based Agent

比反射Agent稍高级，它内部维护了一个庞大的规则库和内部状态。它根据当前状态匹配规则库中的逻辑来决定行动。

工作方式：如果 (状态是 A 且输入是 B)，那么 (执行动作 C) 并 (更新状态为 D)。
例子：早期的专家系统、简单的客服聊天机器人（关键词匹配回复）、传统的游戏AI（如格斗游戏中血少就放大招）。
特点：解释性强（知道为什么这么做），但规则库维护困难，面对规则之外的情况（边缘情况）会崩溃，缺乏灵活性。

3）RL-based Agent

通过与环境交互来学习。它没有现成的规则，而是通过执行动作获得奖励（Reward）或惩罚（Penalty），并以此优化自己的策略（Policy），目标是长期回报最大化。

工作方式：动作 →环境反馈（奖励/新状态） →更新神经网络参数 →更好的动作。
例子：AlphaGo、教机械臂抓取物体；
特点：不需要人工编写规则，能发现人类想不到的策略，但需要大量的训练数据（仿真或现实），且训练过程往往是个“黑盒”。

4）LLM-Based Agent

以大语言模型为“大脑”。它不仅能处理文本，还具备规划（Planning）、记忆（Memory）和工具使用（Tool Use）的能力。它能理解自然语言指令，并将其分解为子任务执行。这也是近期爆火的“AI Agent”。

5）LMM-Based Agent

核心逻辑：“全感官感知与推理” (Multimodal Perception)。它将视觉、听觉等模态融合到语言模型中进行统一理解和推理，是具身智能（Embodied AI）的核心。

6）AGI Agent

核心逻辑：“像人一样的全能智能” (Human-level General Intelligence)。这是一个目标和概念，而非特定的技术栈。

例如《钢铁侠》里的贾维斯（JARVIS）或《流浪地球》里的MOSS。

MCP—模型上下文协议（Model Context Protocol）

模型上下文协议（Model Context Protocol，MCP），由 Anthropic 在 2024 年底推出的一种开放协议，它通过提供一种标准化的接口，旨在通过标准化的接口实现大语言模型 (LLM) 与外部数据源及工具的无缝集成。

用电脑的“USB-C”接口类比MCP，如下图：

MCP不仅仅是一个API或函数调用机制，而是一个完整的协议框架，定义了AI与外部世界交互的全方位标准

适用场景包括：多能力、多模型、外部能力或工具快速接入，或深度整合企业数据与工具

MCP基本结构：

优势：

统一标准协议，兼容性高
双向实时通信，功能强大
即插即用，开发效率高
生态成熟度高，外部工具丰富

缺点：

学习成本较高
调试难度增大
维护成本增大

A2A协议（Agent-to-Agent Protocol）

A2A（Agent-to-Agent）是谷歌推出的一个开源协议，目的是让不同AI智能体（Agent）能像人类团队一样高效协作。

简单来说，它就像给AI智能体们定了一套“通用语言”，无论这些智能体是谁开发的、用什么技术，都能通过这套规则互相沟通、分工完成任务。

A2A的核心是“任务驱动+标准化通信”，具体分为三步：

1.能力发现（Agent Card）

每个智能体像“求职者”一样，用一张电子名片（Agent Card）介绍自己。
名片内容包括：能做什么（如订机票、查数据）、需要什么权限（如访问用户日历）、如何联系（API地址）等。
其他智能体通过读取名片，快速找到合适的合作伙伴。

2.任务分配与协作

当用户提出需求（如“规划一次旅行”），主智能体（类似项目经理）会拆解任务，并委托给其他智能体。
例如：

智能体A负责订机票，智能体B负责订酒店，智能体C负责查天气。
它们通过A2A协议交换信息（如“用户20号到上海，需要3星级酒店”），无需人类干预。

3.结果整合与反馈

各智能体完成任务后，将结果（如机票订单、酒店确认单）返回给主智能体。
主智能体整合所有结果，最终反馈给用户（如“旅行计划已生成，请查收”）。

优势：

Agent智能协作，精细化分工
扩展性高，Agent可灵活加入
容错性高，不存在单点故障

缺点：

系统复杂度高，难以维护调试
通信成本高，大量Agent通信
延迟高，Agent通信增加延迟
可操控性低，Agent内部控制
成熟度较低

Agent Skills

Agent Skills（AI代理技能）可以理解为给AI助手准备的“标准化工作手册库”，它通过模块化封装让让AI在执行任务时参考，其实表现得更专业、高效且稳定。

想象你要教一个新同事完成一项复杂工作（比如生成报告、处理客户投诉）。传统方式是每次对话都重复讲解流程，而有了“工作手册库”后，新同事只需翻阅对应手册即可。Agent Skills就是这个“手册库”，它包含：

元数据（技能名片）：技能名称、简介（如“数据分析技能”），让AI快速判断是否匹配当前任务。
核心指令：详细步骤和约束（如“先查询数据库，再生成图表”），告诉AI“具体怎么做”。
参考知识：领域专业知识（如财务制度），提供执行任务所需的具体背景。
执行脚本：可运行的代码（如Python脚本），让AI能实际“动手”完成任务（如连接数据库、生成报告）。

一个示例模板：

--- name: example-skill description: 简要说明该技能的用途和适用场景 --- ## 使用场景 说明在什么情况下应该使用这个 Skill。 ## 执行步骤 1. 第一步要做什么 2. 第二步要做什么 3. 异常情况如何处理 ## 输出要求 说明输出格式或必须包含的内容。