当前位置: 首页 > news >正文

从 LLM 到 Agent Skill

AI Agent 入门指南:从零理解智能体的世界

理解 AI Agent 生态中的核心概念,知道每个名词是做什么用的


一、先搞清楚:什么是 AI Agent?

想象你有一个超级聪明的数字助理

  • 它不仅能聊天,还能主动帮你做事

  • 它会自己思考下一步该干什么

  • 遇到不懂的,它会查资料、用工具来完成任务

这就是AI Agent(智能体)—— 一种能够感知环境、自主决策、执行动作的人工智能系统。

Agent = LLM(大脑)+ 工具(手脚)+ 自主规划(灵魂)


二、核心概念

1. LLM(大语言模型)—— Agent 的"大脑"

是什么?LLM 全称 Large Language Model,比如 ChatGPT、Kimi、Claude 等。它们通过海量文本训练,学会了理解和生成人类语言。

在 Agent 中有什么用?Agent 的所有"思考"都靠 LLM 完成:

  • 理解你的需求

  • 规划执行步骤

  • 生成回复内容

  • 判断任务是否完成

举例:

你说:"帮我规划一个 3 天 2 晚的杭州旅行"

LLM 会理解你的需求(旅行规划)、分析约束条件(3天2晚、杭州)、生成包含景点、交通、住宿的完整方案。

常见 LLM:

模型出品公司特点
GPT-4oOpenAI综合能力强,多模态
Kimi K2.6Moonshot AI长上下文(200万字),中文优秀
Claude 4Anthropic推理能力强,安全性高
DeepSeek-V3DeepSeek开源,性价比高

类比:LLM 就像 Agent 的"大脑皮层",负责认知和推理。


2. Token —— AI 的"计量单位"

是什么?Token 是 LLM 处理文本的最小单位。你可以理解为 AI 的"文字碎片":

  • 英文:1 个 token ≈ 0.75 个单词

  • 中文:1 个汉字 ≈ 1~2 个 token

为什么重要?

  • 计费标准:调用 API 按 token 数量收费

  • 长度限制:每个 LLM 都有"上下文窗口"(比如 128K tokens),决定了它能"记住"多少内容

  • 性能指标:处理速度常以 tokens/秒 衡量

举例:

你发送了一段 500 字的中文文章让 AI 总结。

这段文章大约占用800~1000 个 tokens。如果模型上下文窗口是 4K tokens,那它还能"记住"大约 3000 tokens 的后续对话。超过这个限制,最早的内容就会被"遗忘"。

计费参考(以 GPT-4o 为例):

输入:$2.5 / 1M tokens(约 50 万字中文) 输出:$10 / 1M tokens

也就是说,你发一篇 1000 字的文章给 GPT-4o 分析,成本大约0.005 元人民币

类比:Token 就像 AI 的"脑细胞消耗量",做越复杂的事,消耗越多。


3. Context(上下文)—— AI 的"记忆黑板"

是什么?Context 是 Agent 当前能看到的全部信息,包括:

  • 你之前说的话

  • 系统给它的角色设定

  • 它自己查到的资料

  • 工具返回的结果

为什么重要?LLM 是无状态的——它不会真正"记住"你,每次对话都靠上下文来"假装记得"。如果上下文太长,早期的信息会被遗忘(超出窗口限制)。

举例:

你正在和 AI 讨论一篇论文:

Round 1:你粘贴了论文摘要(占 500 tokens)Round 2:你问了 3 个相关问题(占 300 tokens)Round 3:你让 AI 对比另一篇论文(又粘贴 500 tokens)

如果上下文窗口是 2K tokens,到第 5 轮时,最早粘贴的论文摘要可能已经被挤出上下文,AI 就会"忘记"那篇论文的内容,回答变得不准确。

解决策略:

  • RAG(检索增强生成):把长文档切分成小块,只把最相关的部分放入上下文

  • 摘要压缩:定期让 AI 总结之前的对话,用摘要替代原文

类比:Context 就像一块黑板,写满了就擦掉最上面的内容。Agent 的设计核心之一就是如何高效管理这块黑板


4. Prompt(提示词)—— 指挥 AI 的"咒语"

是什么?Prompt 是你输入给 AI 的指令或问题。但高级的 Prompt 远不止"问句话"那么简单。

在 Agent 中的高级用法:

  • System Prompt:给 Agent 设定角色("你是一个专业的旅行规划师...")

  • Few-shot Prompt:给几个例子,让 AI 模仿风格

  • Chain-of-Thought:引导 AI 一步步思考("请先分析需求,再列出步骤...")

举例 1:普通 Prompt vs 高级 Prompt

普通 Prompt

写一首关于春天的诗。

高级 Prompt(角色设定 + 风格示例)

你是一位擅长写现代诗的诗人,风格类似海子,语言简洁、意象丰富、富有哲思。 ​ 请写一首关于"春天"的诗,要求: 1. 不超过 12 行 2. 包含"风"、"种子"、"远方"三个意象 3. 结尾要有留白,给人想象空间

举例 2:Chain-of-Thought(引导思考)

请帮我计算:一个商店进了 150 个苹果,上午卖出 1/3,下午卖出剩下的 2/5,还剩多少? ​ 请按以下步骤思考并回答: Step 1: 计算上午卖出多少个 Step 2: 计算上午卖出后还剩多少个 Step 3: 计算下午卖出多少个 Step 4: 计算最终剩余多少个 Step 5: 给出最终答案

这样引导后,AI 的准确率会显著提升(从约 60% 提升到 90%+)。

类比:Prompt 是程序员和 AI 之间的"接口设计"。写得好,AI 表现好;写得烂,AI 变智障。


5. Tool(工具)—— Agent 的"手脚"

是什么?Agent 不能光靠"想"来解决问题,它需要调用外部工具

  • 搜索工具:查 Google、百度、维基百科

  • 计算工具:做数学题、写代码执行

  • 文件工具:读取本地文档、操作数据库

  • API 工具:调用天气、地图、股票等第三方服务

为什么重要?LLM 的知识有截止日期(比如 GPT-4o 知识截止到 2023 年 10 月),也无法直接操作现实世界。工具让 Agent 突破这些限制,真正"动手做事"。

举例 1:搜索工具

你问:"今天杭州天气怎么样?"

LLM 本身不知道"今天"的天气(知识有截止日期)。Agent 会:

  1. 识别出需要实时天气信息

  2. 调用天气查询工具(如和风天气 API)

  3. 获取实时数据:"杭州今天晴,25°C,东南风 2 级"

  4. 用 LLM 组织成自然语言回复你

举例 2:代码执行工具

你问:"帮我算一下 234567890123 的平方根"

LLM 直接算很容易出错(大数计算不是它的强项)。Agent 会:

  1. 调用Python 代码执行工具

  2. 执行math.sqrt(234567890123)

  3. 返回精确结果:484322.712...

举例 3:文件工具

你上传了一个 Excel 文件,说:"分析这个销售数据,找出增长最快的品类"

Agent 会:

  1. 调用文件读取工具解析 Excel

  2. 调用数据分析工具(如 Pandas)计算增长率

  3. 调用图表生成工具画出趋势图

  4. 用 LLM 撰写分析报告

类比:如果 LLM 是大脑,Tool 就是手脚和感官。没有工具,Agent 只能"纸上谈兵"。


6. MCP(模型上下文协议)—— 工具的"通用插座"

是什么?MCP 全称Model Context Protocol,由 Anthropic 于 2024 年提出,是一个开放标准协议

解决了什么问题?以前,每个 AI 平台都有自己的工具接入方式:

  • OpenAI 有 Function Calling

  • Google 有 Tool Use

  • 各家格式不统一

开发者要为不同平台重复开发工具适配层。MCP 就像USB-C 接口——统一了 AI 与外部工具、数据源、系统的连接标准。

核心能力:

  • 让 LLM 安全地访问本地文件、数据库

  • 统一工具描述格式,一次开发,多处使用

  • 支持双向通信(AI 既能查数据,也能写数据)

举例:MCP 的实际应用

假设你开发了一个"查公司工商信息"的工具:

没有 MCP 之前

  • 给 OpenAI 适配一套代码

  • 给 Claude 适配一套代码

  • 给 Kimi 适配一套代码

  • 每新增一个模型,都要重写适配层

有了 MCP 之后

  • 你只需按 MCP 标准写一个工具描述文件

  • 所有支持 MCP 的 AI 平台(Claude、Cursor、Kimi 等)都能直接调用

  • 真正做到"一次开发,到处运行"

MCP 的架构:

┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ AI 应用 │ ←────→ │ MCP 协议层 │ ←────→ │ 外部工具/ │ │ (Claude/Cursor│ │ (统一接口) │ │ 数据源 │ │ /Kimi 等) │ │ │ │ (文件/DB/API)│ └─────────────┘ └─────────────┘ └─────────────┘

类比:MCP 是 AI 时代的"万能转接头",让各种工具都能即插即用。


7. Agent —— 自主运行的"数字员工"

是什么?前面说的都是"零件",Agent 是把这些零件组装起来的完整系统

Agent 的核心循环(ReAct 框架):

1. 观察(Observation)→ 看到当前状态 2. 思考(Thought)→ LLM 推理下一步 3. 行动(Action)→ 选择调用工具或回复用户 4. 循环 → 直到任务完成

举例 1:旅行规划 Agent

用户目标:"帮我规划一个周末去上海迪士尼的行程,预算 2000 元"

Agent 的执行过程:

步骤思考(Thought)行动(Action)观察(Observation)
1用户要去上海迪士尼,需要查交通、门票、住宿调用搜索工具查高铁票价杭州→上海虹桥,二等座 ¥73
2交通成本约 ¥150(往返),还剩 ¥1850调用搜索工具查迪士尼门票平日票 ¥475,周末票 ¥599
3门票 ¥599,还剩 ¥1251 用于住宿和餐饮调用搜索工具查附近酒店周边酒店 ¥300-800/晚
4住宿预算 ¥500,餐饮 ¥400,还有余量调用地图工具查地铁线路虹桥→迪士尼:地铁 10 号线转 11 号线,约 90 分钟
5信息收集完毕,可以生成方案了调用LLM生成完整行程输出详细的 2 天 1 晚行程单

举例 2:AI 客服 Agent

用户问题:"我上周买的耳机左耳没声音了,订单号 #12345"

Agent 的执行过程:

  1. 调用订单查询工具→ 查到订单:AirPods Pro,购买日期 7 天前

  2. 调用知识库工具→ 查到故障排查流程

  3. 调用LLM→ 生成回复:"您好,您的耳机在 15 天包换期内,建议先尝试重置蓝牙配对...如仍有问题,可申请换货。"

  4. 如果用户说"还是不行"→ 调用工单创建工具→ 自动生成售后工单

举例 3:数据分析 Agent(AutoGPT 风格)

用户目标:"分析我司 Q3 销售数据,找出问题并给出建议"

Agent 自主执行:

  1. 读取Q3_sales.xlsx

  2. 发现数据有缺失值 → 自动调用数据清洗工具

  3. 计算各区域增长率 → 发现华东区下滑 15%

  4. 调用搜索工具查行业报告 → 发现竞品同期在华东区大力促销

  5. 生成完整分析报告(含图表、结论、建议)

类比:Agent 是一个能自主完成 KPI 的"数字实习生",你只需要下达目标,它自己搞定过程。


8. Agent Skill(Agent 技能)—— 可复用的"能力模块"

是什么?Skill 是 Agent 的预制功能包。比如:

  • web_search_skill:封装了搜索引擎调用逻辑

  • code_execution_skill:封装了 Python 代码运行环境

  • email_send_skill:封装了邮件发送功能

  • ppt_generation_skill:封装了 PPT 自动生成功能

为什么重要?

  • 模块化:像乐高积木一样组合不同能力

  • 复用性:一个 Skill 可以在多个 Agent 中使用

  • 低代码:非程序员也能通过配置 Skill 来构建 Agent

举例 1:Coze(扣子)平台的 Skill

在字节跳动的 Coze 平台上,构建一个 Agent 就像搭积木:

  1. 新建一个 Bot

  2. 从 Skill 商店添加技能:

    • 添加 "网页搜索" Skill

    • 添加 "图片生成" Skill

    • 添加 "代码执行" Skill

  3. 配置 Prompt:"你是一个全能助手,擅长搜索、画图、写代码"

  4. 发布!一个具备多种能力的 Agent 就诞生了

举例 2:Dify 工作流中的 Skill

在 Dify 平台上,你可以把常用逻辑封装成 Skill:

Skill: "周报生成器" ├── 步骤 1: 读取本周 Git 提交记录(调用 Git API Tool) ├── 步骤 2: 读取本周会议纪要(调用飞书 API Tool) ├── 步骤 3: 用 LLM 总结成周报格式 └── 步骤 4: 发送邮件给主管(调用邮件 Tool)

封装好后,每周一早上,Agent 自动执行这个 Skill,帮你生成并发送周报。

举例 3:开源社区的 Skill 生态

GitHub 上有很多开源的 Agent Skill:

  • browser-use:让 Agent 能操作浏览器(自动填表、抢票、查信息)

  • composio:提供 100+ 预置工具(GitHub、Notion、Gmail、Slack 等)

  • langchain-community:社区贡献的各种工具封装

开发者可以直接 import 使用,不用从零开发。

类比:Skill 是 Agent 的"APP 商店",下载安装就能扩展新能力。


三、知识串联:一张图看懂全貌

┌─────────────────────────────────────────┐ │ 用户输入(Prompt) │ └─────────────────┬───────────────────────┘ ▼ ┌─────────────────────────────────────────┐ │ ┌─────────┐ ┌──────────┐ ┌────────┐ │ │ │ LLM │ │ Context │ │ Token │ │ ← 核心引擎 │ │ (大脑) │ │ (记忆) │ │ (燃料) │ │ │ └────┬────┘ └──────────┘ └────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────────┐ │ │ │ MCP 协议层 │ │ ← 统一接口 │ │ (模型上下文协议) │ │ │ └─────────────┬───────────────────┘ │ │ │ │ │ ┌────────┴────────┐ │ │ ▼ ▼ │ │ ┌─────────┐ ┌──────────┐ │ │ │ Tool │ │ Skill │ │ ← 能力扩展 │ │ (工具) │ │ (技能包) │ │ │ │ ·搜索 │ │ ·写代码 │ │ │ │ ·计算 │ │ ·发邮件 │ │ │ │ ·查API │ │ ·做PPT │ │ │ └─────────┘ └──────────┘ │ └─────────────────────────────────────────┘ │ ▼ ┌─────────────────┐ │ Agent 系统 │ ← 自主决策循环 │ (目标 → 思考 → 行动 → 完成) └─────────────────┘

四、总结

概念一句话理解地位典型例子
LLM会说话的超级大脑核心GPT-4o、Kimi、Claude
TokenAI 的计费/记忆单位燃料1000 字中文 ≈ 1500 tokens
ContextAI 能看到的当前信息黑板对话历史 + 系统设定 + 工具结果
Prompt指挥 AI 的指令艺术遥控器角色设定 + 思考链引导
ToolAI 操作现实世界的手段手脚搜索、计算、文件读取、API 调用
MCP工具的统一连接标准插座一次开发,Claude/Cursor/Kimi 通用
Agent能自主思考行动的系统成品旅行规划 Agent、AI 客服、数据分析 Agent
Agent Skill可复用的功能模块零件包Coze Skill 商店、Dify 工作流

五、一个完整的 Agent 实战案例

场景:你是一个大学生,想让 Agent 帮你完成"期末论文资料收集"任务。

你输入的目标

帮我收集关于"生成式 AI 对教育行业影响"的论文资料, 需要:5 篇核心期刊论文、2 份行业报告、1 份数据图表。 整理成 Markdown 格式的文献综述大纲。

Agent 的完整执行流程:

目标接收 │ ▼ LLM 拆解任务 ├── 子任务 1: 搜索核心期刊论文(5 篇) ├── 子任务 2: 搜索行业报告(2 份) ├── 子任务 3: 查找相关数据图表 └── 子任务 4: 整理成 Markdown 大纲 │ ▼ 调用搜索 Tool(通过 MCP 协议) ├── 调用 Google Scholar API → 找到 8 篇相关论文 ├── 调用 arXiv API → 找到 3 篇预印本 └── 调用行业数据库 → 找到 4 份报告 │ ▼ Context 管理 ├── 将搜索结果存入上下文 ├── 筛选最相关的 5 篇论文 + 2 份报告 └── 调用图表生成 Tool 制作数据可视化 │ ▼ LLM 生成最终输出 ├── 读取 Context 中的所有资料 ├── 按学术格式组织内容 └── 生成 Markdown 文献综述大纲 │ ▼ 任务完成,输出结果

最终输出示例:

# 生成式 AI 对教育行业影响 —— 文献综述大纲 ​ ## 一、研究背景与现状 - [论文 1] 《Generative AI in Education》...(Nature, 2024) - [论文 2] 《The Impact of ChatGPT on Learning Outcomes》...(Science, 2023) ​ ## 二、主要影响维度 ### 2.1 教学方式变革 - [论文 3] ... ### 2.2 学生认知发展 - [论文 4] ... ### 2.3 教育公平性 - [论文 5] ... ​ ## 三、行业数据支撑 - [报告 1] 麦肯锡《EdTech 2024 趋势报告》 - [报告 2] 艾瑞咨询《中国 AI+教育白皮书》 - [图表] 全球生成式 AI 教育应用市场规模(2020-2025) ​ ## 四、总结与展望 ...

整个过程中,你只输入了一句话,Agent 自主完成了:搜索、筛选、整理、格式化。这就是 Agent 的价值——把复杂任务自动化。


最后的话:AI Agent 不是遥不可及的黑科技,它正在变成像"做 PPT"一样的基础技能。


http://www.jsqmd.com/news/800650/

相关文章:

  • Sora生成Reel的版权雷区(Meta律师函实录):3类高危素材判定树+美国DMCA豁免条款应用速查表(仅限本周开放下载)
  • 【卷卷观察】Chrome偷偷塞了4GB AI模型到你电脑里——你的硬盘、带宽和隐私到底归谁?
  • 《Foundation 下拉菜单》
  • 功率MOSFET工作原理与电力电子应用解析
  • 六边形网格(Hexagonal Grids)在数据可视化与GIS中的隐藏优势:比你想的更实用
  • 牛津树资源合集
  • 从手动拖拽到零操作日程闭环:Gemini在Google Calendar中完成的3层智能跃迁(附可验证的Gmail-GCal-Gemini事件流日志)
  • CTF密码学实战:从RSA等式推导到佛曰解密,保姆级攻略带你通关CTFshow 1024杯Crypto/Misc
  • Go语言单例模式如何实现_Go语言单例模式教程【通俗】
  • Ollama模型下载加速方案:利用ollama-direct-downloader解决网络瓶颈
  • 英语阅读_share with you teenagers at school
  • CSS如何利用Sass实现透明度动态化_通过函数计算CSS颜色值
  • Delphi开发Windows光标管理工具:Win32 API实战与系统交互
  • Layui如何修改表格单元格内文字的行间距
  • Argo CD与Helmfile集成:进阶GitOps实践与多环境部署
  • 基于OpenClaw协议的轻量级AI代理网关MiniClaw实战指南
  • 深度解析:后台管理系统的模块化架构原理与DDD中台演进之路
  • 云计算运维入门课-第一天
  • League-Toolkit:基于LCU API的英雄联盟客户端智能自动化解决方案
  • RFID电动车智能门禁管理系统技术采用四层架构设计,实现电动车智能化管理。感知层采用防水防撕RFID电子车牌;识别层配置3-4米远距离读卡器;控制层集成ARM7处理器;执行层通过电动道闸或摆闸或广告门
  • 别再死记硬背了!用两个真实案例带你吃透MATLAB linprog函数(附完整代码)
  • Sora 2 v2.3 Beta中隐藏的Gaussian Splatting API接口(仅开放给前500名通过CUDA认证开发者)
  • Arm SMMUv3_ROOT寄存器架构与颗粒保护机制详解
  • 英雄联盟游戏效率工具League Akari:智能自动化与数据分析完整指南
  • C# ToString()格式化踩坑实录:从‘诡异’的舍入到自定义格式串的妙用
  • 基于微信小程序的家政服务预约系统(30291)
  • ensp关闭完美世界运行时显示权限不够
  • 街道政务服务站,办事通行更省心
  • 基于MCP协议实现AI助手与Jira/Confluence的本地化集成
  • 2026年市面上的培训机构管理系统对比,谁才是性价比之王