Agent 入门实战(上篇):宏观篇——从概念到市场
2023 年被称作“大模型元年”,2024 年“AI 应用”井喷,而 2025、2026 年的行业关键词几乎毫无悬念地锁定在了一个词上——Agent(智能体)。
随便打开一个技术论坛或招聘网站,你会发现“Agent 工程师”“智能体开发”“Multi-Agent 架构”已成为高频词汇。那么,Agent 到底是什么?为什么它会火?国内外有哪些主流框架?市场又需要什么样的 Agent 工程师?上篇我们先从宏观层面,把这些“地图”铺开。
一、重新认识 Agent:它不只是“聊天机器人 Plus”
1.1 从“模型”到“行动者”
如果用一个公式粗暴概括:
Agent = LLM(大脑) + 规划(Planning) + 工具(Tools) + 记忆(Memory) + 行动(Action)
传统的 LLM 应用(比如一个问答机器人)是“你问一句,它答一句”,没有自主决策、不会调用外部工具、也没有持续记忆。Agent 则完全不同,它是一个能够感知环境、制定计划、使用工具、执行动作,并基于反馈进行迭代的自主系统。
举个例子:你告诉 Agent “帮我查一下北京明天的天气,如果下雨就提醒我带伞,并把提醒发到我的邮箱”。它会:
理解意图(解析指令)
规划步骤(先查天气 → 判断是否下雨 → 如果下雨,调用邮件工具发送提醒)
调用工具(天气 API、邮件服务)
执行动作并返回结果
甚至在这个过程中出错时自我纠错(比如 API 返回异常,切换备选工具)
这种“思考-行动-观察”循环,被看作是 LLM 原生应用走向真正生产力的关键一跃。
1.2 Agent 的核心能力解析
规划(Planning):任务分解、步骤编排、路径选择。常用技术如 ReAct、Plan-and-Execute、Tree of Thoughts 等。
工具使用(Tool Use):能够调用外部 API、执行代码、操作数据库、读写文件、操控浏览器等。这是 Agent 从“纸上谈兵”变成“动手干仗”的基础。
记忆(Memory):短期记忆(上下文窗口内的对话历史)和长期记忆(基于向量数据库或知识库的用户画像、历史经验),让 Agent 能学习、能个性化。
多 Agent 协作(Multi-Agent):多个专职 Agent 分工协作,像一支微型团队,有的负责检索、有的负责分析、有的负责代码生成,通过消息传递或任务委派完成复杂工作。
1.3 为什么现在 Agent 才真正火起来?
本质上是大模型能力越过了可用性门槛。2023 年之前,语言模型尚且难以稳定遵循指令,工具调用的格式(如 JSON)也很难保持合法。到了 GPT-4、Claude 3.5 这一代模型,指令遵循、推理、结构化输出等能力大幅增强,才使得“让模型自主规划和执行”从论文走进现实。
再加上各大厂商(OpenAI、Anthropic、Google、Meta、阿里、百度等)把 Agent 能力直接内置进模型和框架,生态工具迅速丰富,引爆了这波浪潮。
二、国内外主流 Agent 生态速览
现在 Agent 赛道的生态,可以用“框架扎堆、平台混战”来形容。为便于理解,我们可以把它们分为开发框架(面向工程师)和低代码/产品化平台(面向非开发者和快速构建)两大类。
2.1 海外主流 Agent 框架
LangChain / LangGraph
LangChain 是最早流行的 LLM 应用框架,其中AgentExecutor封装了经典的 ReAct 模式。2024 年后团队推出了LangGraph,用图(Graph)来显式定义 Agent 的状态流转和多 Agent 交互,更精细地控制每一步的执行逻辑。目前仍是全球使用最广泛的 Agent 框架,但也被批评抽象层过多、调试困难。AutoGPT / BabyAGI
2023 年走红的现象级项目,证明了“让 AI 自主设定目标并拆解执行”的概念可行。但因实际可靠性和 token 消耗巨大,现在更多作为原型参考,很少直接用于生产。CrewAI
主打多 Agent 协作,概念简单:定义 Agent(角色、目标、背景故事)、分配任务(Task)、组建团队(Crew),非常符合心理模型。适合构建内容生成流水线、研究分析团队等场景,学习门槛较低。AutoGen(微软)
微软推出的多 Agent 对话框架,核心是“可对话的 Agent”,通过多轮对话完成任务,支持代码生成、执行和人类介入。2.0 版本后抽象为异步事件驱动架构,更适用于复杂的企业工作流。OpenAI Agents SDK
2025 年 OpenAI 发布的官方 Agent 开发工具包(原 Swarm 实验项目升级而来),极其轻量。核心概念就三个:Agent(带指令和工具的智能体)、Handoff(把对话转交给另一个 Agent)、Guardrails(输入/输出安全校验)。几乎没有强加的结构,你可以自由组合。下篇我们会用它动手实操。Anthropic MCP + A2A 协议
严格来说 MCP(Model Context Protocol)是模型与外部工具/数据源交互的标准协议,A2A(Agent-to-Agent)则是 Google 等力推的跨 Agent 通信协议。它们不是框架,但在构建开放互联的 Agent 生态中极其重要。越来越多的框架已内置支持。
2.2 国内主流 Agent 平台 / 框架
国内大厂和创业公司齐头并进,生态呈现出“平台化、场景化”的特点。
Coze(扣子)
字节跳动推出的 Agent 构建平台,支持零代码搭建、丰富的插件市场、知识库、工作流编排和定时任务,且能一键发布到飞书、微信、豆包等渠道。非常适合快速制作客服、营销、个人助理类 Agent。国内开发者入门必看。Dify
开源的低代码 LLM 应用平台,定位类似“中国版 LangChain + GPTs 商店”。提供可视化的工作流编排、RAG 管道、Agent 策略(ReAct、Function Calling 等)以及对话日志。被大量企业用于内部知识库问答和业务流程自动化。百度千帆 AppBuilder / 文心智能体平台
百度基于文心大模型的应用构建平台,Agent 部分叫“智能体”,提供零代码和低代码两种模式,支持插件、知识增强、记忆等功能,深度打通百度搜索生态。千帆模型能力在企业级市场有一定优势。阿里百炼 / 通义千问智能体
阿里云百炼平台可构建 Agent 应用,基于通义千问系列模型。支持函数调用、知识库、流程编排等。通义千问 APP 内部的智能体频道也展示了面向 C 端的 Agent 体验。腾讯元器
腾讯混元大模型的智能体开发平台,依托微信生态,可快速构建公众号助手、企业微信客服 Agent 等。因为背靠微信流量入口,备受关注。其他值得关注
FastGPT:开源知识库问答平台,Agent 模块支持工具调用。
Agently:轻量级 Agent 开发框架,AI 原生思路设计。
ModelScope(魔搭社区)Agent:阿里系开源社区,有很多预训练 Agent 模型和教程。
三、走进招聘市场:Agent 工程师到底需要什么能力?
翻看各大招聘平台(Boss 直聘、猎聘、LinkedIn),你会发现“Agent 工程师”“智能体开发工程师”“AI 应用开发工程师”的岗位激增。本质上,市场需要的是能将大模型与实际业务逻辑连接起来,构建可靠、可扩展的 AI 系统的工程师。
3.1 硬技能金字塔
底座:LLM 基础
熟悉主流模型(GPT-4o、Claude、Gemini、Qwen、DeepSeek 等)的能力边界,掌握提示工程(Prompt Engineering)、结构化输出、上下文工程。知道什么时候该 fine-tune,什么时候该用 few-shot,什么时候必须上 Agent。核心:Agent 框架与设计模式
至少深入掌握 1~2 个框架(如 LangGraph、AutoGen、OpenAI Agents SDK),理解 ReAct、Plan-Execute、LLM Compiler 等规划策略,能设计工具 Schema 和管理工具生命周期,能设计记忆方案(窗口记忆、摘要记忆、向量记忆)。扩展:RAG 与知识增强
Agent 离不开“知识”,向量数据库、嵌入模型、文档切分与检索策略是必知必会。RAG 的进阶技术(如 Graph RAG、Agentic RAG)也开始被要求。多 Agent 与编排
理解 Agent 间的通信机制、任务委派、状态共享。能够设计多 Agent 协作拓扑(流水线、星型、网状),并处理冲突和并发。工程落地
能写生产级代码(Python 为主,异步编程常用),熟悉 API 设计、容器化部署、可观测性(Langfuse、Phoenix、OpenTelemetry)、安全与防护(提示注入防御、内容审核、权限控制)。评估与测试
Agent 的非确定性使传统测试手段失效。需要构建评估集,使用 LLM-as-a-Judge、人工抽检、轨迹评估(Trace Evaluation)等方法,确保 Agent 质量。
3.2 软技能与思维转变
“拥抱不确定性”:Agent 的输出无法 100% 控制,工程师需要从“写死逻辑”转变为“设计约束和容错”。
产品感:Agent 工程师往往同时肩负产品设计的角色,要判断哪些地方该用 Agent,哪些地方应回归确定性自动化。过度 Agent 化反而降低体验。
快速学习:这个领域每周都有新论文、新框架、新协议,极强的学习能力和技术判断力是必备的。
3.3 市场薪资与发展
2025 年初,国内一线城市有 1~3 年经验的 Agent 工程师,薪资普遍在 25K~45K/月;资深或架构方向可达 50K~70K 以上,并伴有期权。海外市场 Remote 岗位年薪在 150K~300K 美元之间。岗位多集中在 AI 初创公司、大厂 AI 实验室、以及正积极“AI 改造”的传统软件企业。
在可预见的未来,Agent 工程师很可能像当年的“后端工程师”一样,成为一个基础岗位类别。
