当前位置：首页 > news >正文

从 LLM 到 Agent Skill

news 2026/7/3 5:05:39

AI Agent 入门指南：从零理解智能体的世界

理解 AI Agent 生态中的核心概念，知道每个名词是做什么用的

一、先搞清楚：什么是 AI Agent？

想象你有一个超级聪明的数字助理：

它不仅能聊天，还能主动帮你做事
它会自己思考下一步该干什么
遇到不懂的，它会查资料、用工具来完成任务

这就是AI Agent（智能体）—— 一种能够感知环境、自主决策、执行动作的人工智能系统。

Agent = LLM（大脑）+ 工具（手脚）+ 自主规划（灵魂）

二、核心概念

1. LLM（大语言模型）—— Agent 的"大脑"

是什么？LLM 全称 Large Language Model，比如 ChatGPT、Kimi、Claude 等。它们通过海量文本训练，学会了理解和生成人类语言。

在 Agent 中有什么用？Agent 的所有"思考"都靠 LLM 完成：

理解你的需求
规划执行步骤
生成回复内容
判断任务是否完成

举例：

你说："帮我规划一个 3 天 2 晚的杭州旅行"
LLM 会理解你的需求（旅行规划）、分析约束条件（3天2晚、杭州）、生成包含景点、交通、住宿的完整方案。

常见 LLM：

模型	出品公司	特点
GPT-4o	OpenAI	综合能力强，多模态
Kimi K2.6	Moonshot AI	长上下文（200万字），中文优秀
Claude 4	Anthropic	推理能力强，安全性高
DeepSeek-V3	DeepSeek	开源，性价比高

类比：LLM 就像 Agent 的"大脑皮层"，负责认知和推理。

2. Token —— AI 的"计量单位"

是什么？Token 是 LLM 处理文本的最小单位。你可以理解为 AI 的"文字碎片"：

英文：1 个 token ≈ 0.75 个单词
中文：1 个汉字 ≈ 1~2 个 token

为什么重要？

计费标准：调用 API 按 token 数量收费
长度限制：每个 LLM 都有"上下文窗口"（比如 128K tokens），决定了它能"记住"多少内容
性能指标：处理速度常以 tokens/秒衡量

举例：

你发送了一段 500 字的中文文章让 AI 总结。
这段文章大约占用800~1000 个 tokens。如果模型上下文窗口是 4K tokens，那它还能"记住"大约 3000 tokens 的后续对话。超过这个限制，最早的内容就会被"遗忘"。

计费参考（以 GPT-4o 为例）：

输入：$2.5 / 1M tokens（约 50 万字中文） 输出：$10 / 1M tokens

也就是说，你发一篇 1000 字的文章给 GPT-4o 分析，成本大约0.005 元人民币。

类比：Token 就像 AI 的"脑细胞消耗量"，做越复杂的事，消耗越多。

3. Context（上下文）—— AI 的"记忆黑板"

是什么？Context 是 Agent 当前能看到的全部信息，包括：

你之前说的话
系统给它的角色设定
它自己查到的资料
工具返回的结果

为什么重要？LLM 是无状态的——它不会真正"记住"你，每次对话都靠上下文来"假装记得"。如果上下文太长，早期的信息会被遗忘（超出窗口限制）。

举例：

你正在和 AI 讨论一篇论文：
Round 1：你粘贴了论文摘要（占 500 tokens）Round 2：你问了 3 个相关问题（占 300 tokens）Round 3：你让 AI 对比另一篇论文（又粘贴 500 tokens）
如果上下文窗口是 2K tokens，到第 5 轮时，最早粘贴的论文摘要可能已经被挤出上下文，AI 就会"忘记"那篇论文的内容，回答变得不准确。

解决策略：

RAG（检索增强生成）：把长文档切分成小块，只把最相关的部分放入上下文
摘要压缩：定期让 AI 总结之前的对话，用摘要替代原文

类比：Context 就像一块黑板，写满了就擦掉最上面的内容。Agent 的设计核心之一就是如何高效管理这块黑板。

4. Prompt（提示词）—— 指挥 AI 的"咒语"

是什么？Prompt 是你输入给 AI 的指令或问题。但高级的 Prompt 远不止"问句话"那么简单。

在 Agent 中的高级用法：

System Prompt：给 Agent 设定角色（"你是一个专业的旅行规划师..."）
Few-shot Prompt：给几个例子，让 AI 模仿风格
Chain-of-Thought：引导 AI 一步步思考（"请先分析需求，再列出步骤..."）

举例 1：普通 Prompt vs 高级 Prompt

普通 Prompt：

写一首关于春天的诗。

高级 Prompt（角色设定 + 风格示例）：

你是一位擅长写现代诗的诗人，风格类似海子，语言简洁、意象丰富、富有哲思。  请写一首关于"春天"的诗，要求： 1. 不超过 12 行 2. 包含"风"、"种子"、"远方"三个意象 3. 结尾要有留白，给人想象空间

举例 2：Chain-of-Thought（引导思考）

请帮我计算：一个商店进了 150 个苹果，上午卖出 1/3，下午卖出剩下的 2/5，还剩多少？  请按以下步骤思考并回答： Step 1: 计算上午卖出多少个 Step 2: 计算上午卖出后还剩多少个 Step 3: 计算下午卖出多少个 Step 4: 计算最终剩余多少个 Step 5: 给出最终答案

这样引导后，AI 的准确率会显著提升（从约 60% 提升到 90%+）。

类比：Prompt 是程序员和 AI 之间的"接口设计"。写得好，AI 表现好；写得烂，AI 变智障。

5. Tool（工具）—— Agent 的"手脚"

是什么？Agent 不能光靠"想"来解决问题，它需要调用外部工具：

搜索工具：查 Google、百度、维基百科
计算工具：做数学题、写代码执行
文件工具：读取本地文档、操作数据库
API 工具：调用天气、地图、股票等第三方服务

为什么重要？LLM 的知识有截止日期（比如 GPT-4o 知识截止到 2023 年 10 月），也无法直接操作现实世界。工具让 Agent 突破这些限制，真正"动手做事"。

举例 1：搜索工具

你问："今天杭州天气怎么样？"
LLM 本身不知道"今天"的天气（知识有截止日期）。Agent 会：
识别出需要实时天气信息
调用天气查询工具（如和风天气 API）
获取实时数据："杭州今天晴，25°C，东南风 2 级"
用 LLM 组织成自然语言回复你

举例 2：代码执行工具

你问："帮我算一下 234567890123 的平方根"
LLM 直接算很容易出错（大数计算不是它的强项）。Agent 会：
调用Python 代码执行工具
执行math.sqrt(234567890123)
返回精确结果：484322.712...

举例 3：文件工具

你上传了一个 Excel 文件，说："分析这个销售数据，找出增长最快的品类"
Agent 会：
调用文件读取工具解析 Excel
调用数据分析工具（如 Pandas）计算增长率
调用图表生成工具画出趋势图
用 LLM 撰写分析报告

类比：如果 LLM 是大脑，Tool 就是手脚和感官。没有工具，Agent 只能"纸上谈兵"。

6. MCP（模型上下文协议）—— 工具的"通用插座"

是什么？MCP 全称Model Context Protocol，由 Anthropic 于 2024 年提出，是一个开放标准协议。

解决了什么问题？以前，每个 AI 平台都有自己的工具接入方式：

OpenAI 有 Function Calling
Google 有 Tool Use
各家格式不统一

开发者要为不同平台重复开发工具适配层。MCP 就像USB-C 接口——统一了 AI 与外部工具、数据源、系统的连接标准。

核心能力：

让 LLM 安全地访问本地文件、数据库
统一工具描述格式，一次开发，多处使用
支持双向通信（AI 既能查数据，也能写数据）

举例：MCP 的实际应用

假设你开发了一个"查公司工商信息"的工具：
没有 MCP 之前：
给 OpenAI 适配一套代码
给 Claude 适配一套代码
给 Kimi 适配一套代码
每新增一个模型，都要重写适配层
有了 MCP 之后：
你只需按 MCP 标准写一个工具描述文件
所有支持 MCP 的 AI 平台（Claude、Cursor、Kimi 等）都能直接调用
真正做到"一次开发，到处运行"

MCP 的架构：

┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ AI 应用 │ ←────→ │ MCP 协议层 │ ←────→ │ 外部工具/ │ │ (Claude/Cursor│ │ (统一接口) │ │ 数据源 │ │ /Kimi 等) │ │ │ │ (文件/DB/API)│ └─────────────┘ └─────────────┘ └─────────────┘

类比：MCP 是 AI 时代的"万能转接头"，让各种工具都能即插即用。

7. Agent —— 自主运行的"数字员工"

是什么？前面说的都是"零件"，Agent 是把这些零件组装起来的完整系统。

Agent 的核心循环（ReAct 框架）：

1. 观察（Observation）→ 看到当前状态 2. 思考（Thought）→ LLM 推理下一步 3. 行动（Action）→ 选择调用工具或回复用户 4. 循环 → 直到任务完成

举例 1：旅行规划 Agent

用户目标："帮我规划一个周末去上海迪士尼的行程，预算 2000 元"
Agent 的执行过程：
步骤思考（Thought）行动（Action）观察（Observation）
1 用户要去上海迪士尼，需要查交通、门票、住宿调用搜索工具查高铁票价杭州→上海虹桥，二等座 ¥73
2 交通成本约 ¥150（往返），还剩 ¥1850 调用搜索工具查迪士尼门票平日票 ¥475，周末票 ¥599
3 门票 ¥599，还剩 ¥1251 用于住宿和餐饮调用搜索工具查附近酒店周边酒店 ¥300-800/晚
4 住宿预算 ¥500，餐饮 ¥400，还有余量调用地图工具查地铁线路虹桥→迪士尼：地铁 10 号线转 11 号线，约 90 分钟
5 信息收集完毕，可以生成方案了调用LLM生成完整行程输出详细的 2 天 1 晚行程单

步骤	思考（Thought）	行动（Action）	观察（Observation）
1	用户要去上海迪士尼，需要查交通、门票、住宿	调用搜索工具查高铁票价	杭州→上海虹桥，二等座 ¥73
2	交通成本约 ¥150（往返），还剩 ¥1850	调用搜索工具查迪士尼门票	平日票 ¥475，周末票 ¥599
3	门票 ¥599，还剩 ¥1251 用于住宿和餐饮	调用搜索工具查附近酒店	周边酒店 ¥300-800/晚
4	住宿预算 ¥500，餐饮 ¥400，还有余量	调用地图工具查地铁线路	虹桥→迪士尼：地铁 10 号线转 11 号线，约 90 分钟
5	信息收集完毕，可以生成方案了	调用LLM生成完整行程	输出详细的 2 天 1 晚行程单

举例 2：AI 客服 Agent

用户问题："我上周买的耳机左耳没声音了，订单号 #12345"
Agent 的执行过程：
调用订单查询工具→ 查到订单：AirPods Pro，购买日期 7 天前
调用知识库工具→ 查到故障排查流程
调用LLM→ 生成回复："您好，您的耳机在 15 天包换期内，建议先尝试重置蓝牙配对...如仍有问题，可申请换货。"
如果用户说"还是不行"→ 调用工单创建工具→ 自动生成售后工单

举例 3：数据分析 Agent（AutoGPT 风格）

用户目标："分析我司 Q3 销售数据，找出问题并给出建议"
Agent 自主执行：
读取Q3_sales.xlsx
发现数据有缺失值 → 自动调用数据清洗工具
计算各区域增长率 → 发现华东区下滑 15%
调用搜索工具查行业报告 → 发现竞品同期在华东区大力促销
生成完整分析报告（含图表、结论、建议）

类比：Agent 是一个能自主完成 KPI 的"数字实习生"，你只需要下达目标，它自己搞定过程。

8. Agent Skill（Agent 技能）—— 可复用的"能力模块"

是什么？Skill 是 Agent 的预制功能包。比如：

web_search_skill：封装了搜索引擎调用逻辑
code_execution_skill：封装了 Python 代码运行环境
email_send_skill：封装了邮件发送功能
ppt_generation_skill：封装了 PPT 自动生成功能

为什么重要？

模块化：像乐高积木一样组合不同能力
复用性：一个 Skill 可以在多个 Agent 中使用
低代码：非程序员也能通过配置 Skill 来构建 Agent

举例 1：Coze（扣子）平台的 Skill

在字节跳动的 Coze 平台上，构建一个 Agent 就像搭积木：
新建一个 Bot
从 Skill 商店添加技能：
添加 "网页搜索" Skill
添加 "图片生成" Skill
添加 "代码执行" Skill
配置 Prompt："你是一个全能助手，擅长搜索、画图、写代码"
发布！一个具备多种能力的 Agent 就诞生了

举例 2：Dify 工作流中的 Skill

在 Dify 平台上，你可以把常用逻辑封装成 Skill：
Skill: "周报生成器" ├── 步骤 1: 读取本周 Git 提交记录（调用 Git API Tool） ├── 步骤 2: 读取本周会议纪要（调用飞书 API Tool） ├── 步骤 3: 用 LLM 总结成周报格式 └── 步骤 4: 发送邮件给主管（调用邮件 Tool）
封装好后，每周一早上，Agent 自动执行这个 Skill，帮你生成并发送周报。

举例 3：开源社区的 Skill 生态

GitHub 上有很多开源的 Agent Skill：
browser-use：让 Agent 能操作浏览器（自动填表、抢票、查信息）
composio：提供 100+ 预置工具（GitHub、Notion、Gmail、Slack 等）
langchain-community：社区贡献的各种工具封装
开发者可以直接 import 使用，不用从零开发。

类比：Skill 是 Agent 的"APP 商店"，下载安装就能扩展新能力。

三、知识串联：一张图看懂全貌

┌─────────────────────────────────────────┐ │ 用户输入（Prompt） │ └─────────────────┬───────────────────────┘ ▼ ┌─────────────────────────────────────────┐ │ ┌─────────┐ ┌──────────┐ ┌────────┐ │ │ │ LLM │ │ Context │ │ Token │ │ ← 核心引擎 │ │ (大脑) │ │ (记忆) │ │ (燃料) │ │ │ └────┬────┘ └──────────┘ └────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────┐ │ │ │ MCP 协议层 │ │ ← 统一接口 │ │ （模型上下文协议） │ │ │ └─────────────┬───────────────────┘ │ │ │ │ │ ┌────────┴────────┐ │ │ ▼ ▼ │ │ ┌─────────┐ ┌──────────┐ │ │ │ Tool │ │ Skill │ │ ← 能力扩展 │ │ (工具) │ │ (技能包) │ │ │ │ ·搜索 │ │ ·写代码 │ │ │ │ ·计算 │ │ ·发邮件 │ │ │ │ ·查API │ │ ·做PPT │ │ │ └─────────┘ └──────────┘ │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────┐ │ Agent 系统 │ ← 自主决策循环 │ （目标 → 思考 → 行动 → 完成） └─────────────────┘

四、总结

概念	一句话理解	地位	典型例子
LLM	会说话的超级大脑	核心	GPT-4o、Kimi、Claude
Token	AI 的计费/记忆单位	燃料	1000 字中文 ≈ 1500 tokens
Context	AI 能看到的当前信息	黑板	对话历史 + 系统设定 + 工具结果
Prompt	指挥 AI 的指令艺术	遥控器	角色设定 + 思考链引导
Tool	AI 操作现实世界的手段	手脚	搜索、计算、文件读取、API 调用
MCP	工具的统一连接标准	插座	一次开发，Claude/Cursor/Kimi 通用
Agent	能自主思考行动的系统	成品	旅行规划 Agent、AI 客服、数据分析 Agent
Agent Skill	可复用的功能模块	零件包	Coze Skill 商店、Dify 工作流

五、一个完整的 Agent 实战案例

场景：你是一个大学生，想让 Agent 帮你完成"期末论文资料收集"任务。

你输入的目标：

帮我收集关于"生成式 AI 对教育行业影响"的论文资料， 需要：5 篇核心期刊论文、2 份行业报告、1 份数据图表。 整理成 Markdown 格式的文献综述大纲。

Agent 的完整执行流程：

目标接收 │ ▼ LLM 拆解任务 ├── 子任务 1: 搜索核心期刊论文（5 篇） ├── 子任务 2: 搜索行业报告（2 份） ├── 子任务 3: 查找相关数据图表 └── 子任务 4: 整理成 Markdown 大纲 │ ▼ 调用搜索 Tool（通过 MCP 协议） ├── 调用 Google Scholar API → 找到 8 篇相关论文 ├── 调用 arXiv API → 找到 3 篇预印本 └── 调用行业数据库 → 找到 4 份报告 │ ▼ Context 管理 ├── 将搜索结果存入上下文 ├── 筛选最相关的 5 篇论文 + 2 份报告 └── 调用图表生成 Tool 制作数据可视化 │ ▼ LLM 生成最终输出 ├── 读取 Context 中的所有资料 ├── 按学术格式组织内容 └── 生成 Markdown 文献综述大纲 │ ▼ 任务完成，输出结果

最终输出示例：

# 生成式 AI 对教育行业影响 —— 文献综述大纲  ## 一、研究背景与现状 - [论文 1] 《Generative AI in Education》...（Nature, 2024） - [论文 2] 《The Impact of ChatGPT on Learning Outcomes》...（Science, 2023）  ## 二、主要影响维度 ### 2.1 教学方式变革 - [论文 3] ... ### 2.2 学生认知发展 - [论文 4] ... ### 2.3 教育公平性 - [论文 5] ...  ## 三、行业数据支撑 - [报告 1] 麦肯锡《EdTech 2024 趋势报告》 - [报告 2] 艾瑞咨询《中国 AI+教育白皮书》 - [图表] 全球生成式 AI 教育应用市场规模（2020-2025）  ## 四、总结与展望 ...