当前位置：首页 > news >正文

Agent 入门实战（上篇）：宏观篇——从概念到市场

news 2026/6/30 13:36:29

2023 年被称作“大模型元年”，2024 年“AI 应用”井喷，而 2025、2026 年的行业关键词几乎毫无悬念地锁定在了一个词上——Agent（智能体）。
随便打开一个技术论坛或招聘网站，你会发现“Agent 工程师”“智能体开发”“Multi-Agent 架构”已成为高频词汇。那么，Agent 到底是什么？为什么它会火？国内外有哪些主流框架？市场又需要什么样的 Agent 工程师？上篇我们先从宏观层面，把这些“地图”铺开。

一、重新认识 Agent：它不只是“聊天机器人 Plus”

1.1 从“模型”到“行动者”

如果用一个公式粗暴概括：

Agent = LLM（大脑） + 规划（Planning） + 工具（Tools） + 记忆（Memory） + 行动（Action）

传统的 LLM 应用（比如一个问答机器人）是“你问一句，它答一句”，没有自主决策、不会调用外部工具、也没有持续记忆。Agent 则完全不同，它是一个能够感知环境、制定计划、使用工具、执行动作，并基于反馈进行迭代的自主系统。

举个例子：你告诉 Agent “帮我查一下北京明天的天气，如果下雨就提醒我带伞，并把提醒发到我的邮箱”。它会：

理解意图（解析指令）
规划步骤（先查天气 → 判断是否下雨 → 如果下雨，调用邮件工具发送提醒）
调用工具（天气 API、邮件服务）
执行动作并返回结果
甚至在这个过程中出错时自我纠错（比如 API 返回异常，切换备选工具）

这种“思考-行动-观察”循环，被看作是 LLM 原生应用走向真正生产力的关键一跃。

1.2 Agent 的核心能力解析

规划（Planning）：任务分解、步骤编排、路径选择。常用技术如 ReAct、Plan-and-Execute、Tree of Thoughts 等。
工具使用（Tool Use）：能够调用外部 API、执行代码、操作数据库、读写文件、操控浏览器等。这是 Agent 从“纸上谈兵”变成“动手干仗”的基础。
记忆（Memory）：短期记忆（上下文窗口内的对话历史）和长期记忆（基于向量数据库或知识库的用户画像、历史经验），让 Agent 能学习、能个性化。
多 Agent 协作（Multi-Agent）：多个专职 Agent 分工协作，像一支微型团队，有的负责检索、有的负责分析、有的负责代码生成，通过消息传递或任务委派完成复杂工作。

1.3 为什么现在 Agent 才真正火起来？

本质上是大模型能力越过了可用性门槛。2023 年之前，语言模型尚且难以稳定遵循指令，工具调用的格式（如 JSON）也很难保持合法。到了 GPT-4、Claude 3.5 这一代模型，指令遵循、推理、结构化输出等能力大幅增强，才使得“让模型自主规划和执行”从论文走进现实。

再加上各大厂商（OpenAI、Anthropic、Google、Meta、阿里、百度等）把 Agent 能力直接内置进模型和框架，生态工具迅速丰富，引爆了这波浪潮。

二、国内外主流 Agent 生态速览

现在 Agent 赛道的生态，可以用“框架扎堆、平台混战”来形容。为便于理解，我们可以把它们分为开发框架（面向工程师）和低代码/产品化平台（面向非开发者和快速构建）两大类。

2.1 海外主流 Agent 框架

LangChain / LangGraph
LangChain 是最早流行的 LLM 应用框架，其中AgentExecutor封装了经典的 ReAct 模式。2024 年后团队推出了LangGraph，用图（Graph）来显式定义 Agent 的状态流转和多 Agent 交互，更精细地控制每一步的执行逻辑。目前仍是全球使用最广泛的 Agent 框架，但也被批评抽象层过多、调试困难。
AutoGPT / BabyAGI
2023 年走红的现象级项目，证明了“让 AI 自主设定目标并拆解执行”的概念可行。但因实际可靠性和 token 消耗巨大，现在更多作为原型参考，很少直接用于生产。
CrewAI
主打多 Agent 协作，概念简单：定义 Agent（角色、目标、背景故事）、分配任务（Task）、组建团队（Crew），非常符合心理模型。适合构建内容生成流水线、研究分析团队等场景，学习门槛较低。
AutoGen（微软）
微软推出的多 Agent 对话框架，核心是“可对话的 Agent”，通过多轮对话完成任务，支持代码生成、执行和人类介入。2.0 版本后抽象为异步事件驱动架构，更适用于复杂的企业工作流。
OpenAI Agents SDK
2025 年 OpenAI 发布的官方 Agent 开发工具包（原 Swarm 实验项目升级而来），极其轻量。核心概念就三个：Agent（带指令和工具的智能体）、Handoff（把对话转交给另一个 Agent）、Guardrails（输入/输出安全校验）。几乎没有强加的结构，你可以自由组合。下篇我们会用它动手实操。
Anthropic MCP + A2A 协议
严格来说 MCP（Model Context Protocol）是模型与外部工具/数据源交互的标准协议，A2A（Agent-to-Agent）则是 Google 等力推的跨 Agent 通信协议。它们不是框架，但在构建开放互联的 Agent 生态中极其重要。越来越多的框架已内置支持。

2.2 国内主流 Agent 平台 / 框架

国内大厂和创业公司齐头并进，生态呈现出“平台化、场景化”的特点。

Coze（扣子）
字节跳动推出的 Agent 构建平台，支持零代码搭建、丰富的插件市场、知识库、工作流编排和定时任务，且能一键发布到飞书、微信、豆包等渠道。非常适合快速制作客服、营销、个人助理类 Agent。国内开发者入门必看。
Dify
开源的低代码 LLM 应用平台，定位类似“中国版 LangChain + GPTs 商店”。提供可视化的工作流编排、RAG 管道、Agent 策略（ReAct、Function Calling 等）以及对话日志。被大量企业用于内部知识库问答和业务流程自动化。
百度千帆 AppBuilder / 文心智能体平台
百度基于文心大模型的应用构建平台，Agent 部分叫“智能体”，提供零代码和低代码两种模式，支持插件、知识增强、记忆等功能，深度打通百度搜索生态。千帆模型能力在企业级市场有一定优势。
阿里百炼 / 通义千问智能体
阿里云百炼平台可构建 Agent 应用，基于通义千问系列模型。支持函数调用、知识库、流程编排等。通义千问 APP 内部的智能体频道也展示了面向 C 端的 Agent 体验。
腾讯元器
腾讯混元大模型的智能体开发平台，依托微信生态，可快速构建公众号助手、企业微信客服 Agent 等。因为背靠微信流量入口，备受关注。
其他值得关注
- FastGPT：开源知识库问答平台，Agent 模块支持工具调用。
- Agently：轻量级 Agent 开发框架，AI 原生思路设计。
- ModelScope（魔搭社区）Agent：阿里系开源社区，有很多预训练 Agent 模型和教程。

三、走进招聘市场：Agent 工程师到底需要什么能力？

翻看各大招聘平台（Boss 直聘、猎聘、LinkedIn），你会发现“Agent 工程师”“智能体开发工程师”“AI 应用开发工程师”的岗位激增。本质上，市场需要的是能将大模型与实际业务逻辑连接起来，构建可靠、可扩展的 AI 系统的工程师。

3.1 硬技能金字塔

底座：LLM 基础
熟悉主流模型（GPT-4o、Claude、Gemini、Qwen、DeepSeek 等）的能力边界，掌握提示工程（Prompt Engineering）、结构化输出、上下文工程。知道什么时候该 fine-tune，什么时候该用 few-shot，什么时候必须上 Agent。
核心：Agent 框架与设计模式
至少深入掌握 1~2 个框架（如 LangGraph、AutoGen、OpenAI Agents SDK），理解 ReAct、Plan-Execute、LLM Compiler 等规划策略，能设计工具 Schema 和管理工具生命周期，能设计记忆方案（窗口记忆、摘要记忆、向量记忆）。
扩展：RAG 与知识增强
Agent 离不开“知识”，向量数据库、嵌入模型、文档切分与检索策略是必知必会。RAG 的进阶技术（如 Graph RAG、Agentic RAG）也开始被要求。
多 Agent 与编排
理解 Agent 间的通信机制、任务委派、状态共享。能够设计多 Agent 协作拓扑（流水线、星型、网状），并处理冲突和并发。
工程落地
能写生产级代码（Python 为主，异步编程常用），熟悉 API 设计、容器化部署、可观测性（Langfuse、Phoenix、OpenTelemetry）、安全与防护（提示注入防御、内容审核、权限控制）。
评估与测试
Agent 的非确定性使传统测试手段失效。需要构建评估集，使用 LLM-as-a-Judge、人工抽检、轨迹评估（Trace Evaluation）等方法，确保 Agent 质量。

3.2 软技能与思维转变

“拥抱不确定性”：Agent 的输出无法 100% 控制，工程师需要从“写死逻辑”转变为“设计约束和容错”。
产品感：Agent 工程师往往同时肩负产品设计的角色，要判断哪些地方该用 Agent，哪些地方应回归确定性自动化。过度 Agent 化反而降低体验。
快速学习：这个领域每周都有新论文、新框架、新协议，极强的学习能力和技术判断力是必备的。

3.3 市场薪资与发展

2025 年初，国内一线城市有 1~3 年经验的 Agent 工程师，薪资普遍在 25K~45K/月；资深或架构方向可达 50K~70K 以上，并伴有期权。海外市场 Remote 岗位年薪在 150K~300K 美元之间。岗位多集中在 AI 初创公司、大厂 AI 实验室、以及正积极“AI 改造”的传统软件企业。

在可预见的未来，Agent 工程师很可能像当年的“后端工程师”一样，成为一个基础岗位类别。

查看全文

http://www.jsqmd.com/news/1096209/