LLM 只是开始,Agentic Workflow 才是生产力的真正解锁方式
LLM 只是开始,Agentic Workflow 才是生产力的真正解锁方式
作者:软件工程师视角的技术博主
更新时间:202X年X月X日
阅读时长:预计45-60分钟
前置知识:了解大语言模型(LLM)的基础概念、Prompt Engineering 入门、Python基础(可选进阶部分需)
引言:从“问答工具”到“工作伙伴”的范式跃迁
1.1 痛点引入:LLM 时代的“天花板焦虑”
如果把2022年底ChatGPT的横空出世比作“AI的iPhone时刻”,那么在短短两年后的今天,我们已经集体进入了“LLM产品过剩”的阶段——从通用对话类的Claude、Gemini、文心一言,到垂直领域的代码助手GitHub Copilot、文档分析Notion AI、文案生成MidJourney + Claude 3.5 Sonnet的组合拳,几乎每个打工人的电脑/手机里都至少装了3个以上的LLM工具。
但你是否有过这样的LLM“天花板”体验?
场景1:需求拆解的“心累循环”
假设你是一家创业公司的产品经理,需要写一份202X年第三季度的用户留存提升方案:
- 你先给GPT-4o发了个100字左右的需求:“帮我写一份SaaS产品Q3的用户留存提升方案”
- GPT-4o给了你一份框架很全、但完全没有贴合你们公司用户画像、竞品数据、现有运营策略的“通用模板式方案”
- 你不得不花30分钟补充一堆Prompt约束:“我们公司是做个人知识管理的,目标用户是25-35岁的互联网打工人,活跃率现在是18%,7日留存22%,30日留存5%,上个月试了积分签到但效果平平,竞品有Notion AI个人版、语雀空间、飞书多维表格的个人页……”
- 这次GPT-4o给的方案稍微好一点,但缺少具体的落地细节,比如积分体系改版的具体规则、A/B测试的分组逻辑、预算分配的比例
- 你又要拆成N个小问题一个个问,中间还要不断切换上下文、粘贴之前提到过的数据,问了大概20个问题,花了2个多小时,终于攒出了一份能看的初稿——但这时候你已经累得不想再改了,而且初稿里还有几个数据前后矛盾的地方
场景2:多工具协作的“断点困境”
再假设你是一位自由摄影师兼内容创作者,需要做一套“秋季人像摄影教程”的小红书图文:
- 用MidJourney v6生成了10张符合“治愈系、暖色调、林间小道、手持桂花茶、北京密云水库周边”要求的参考图
- 把参考图导出到Lightroom Classic调色,调了大概2个小时,保存了预设但忘记命名
- 打开Notion AI,让它根据生成的参考图和调色思路,写一篇800字左右的小红书图文文案,加了一堆话题标签
- 用Canva把参考图、文案、自己拍的一张实景演示图拼在一起,中间因为尺寸调整、文字排版又花了1个小时
- 最后发布到小红书的时候,发现话题标签格式不对(比如加了中文空格、重复了),预设也找不到了——整套流程下来,花了5个多小时,但真正“有创造性”的部分(比如确定风格、实景拍摄)只占了1个小时,剩下的4个小时全是在做重复的、机械的、跨工具的衔接工作
场景3:复杂任务的“执行缺失”
如果你是一位数据分析师,需要完成一份“202X年Q2公司电商平台的销售漏斗分析报告”:
- 你给GPT-4o SQL Expert写了一堆自然语言的查询要求,比如“帮我查询202X年4-6月,天猫、京东、拼多多三个渠道的UV、PV、加购率、转化率、客单价”
- GPT-4o SQL Expert生成了一段SQL代码,你复制到公司的BigQuery里执行,结果报错说表名不对(因为公司最近刚把表名从
sales_data改成了ecommerce_sales_202X) - 你把报错信息和正确的表名告诉GPT-4o SQL Expert,它重新生成了代码,这次执行成功了,但导出的CSV文件太大(10GB),没法直接用Excel打开
- 你又问GPT-4o Python Expert怎么处理大文件,它给了你一段用Pandas分块读取的代码,你复制到PyCharm里,结果报错说缺少
pandas和numpy的依赖 - 你安装了依赖,重新运行代码,这次成功把10GB的CSV文件压缩成了10MB的汇总Excel,但汇总的维度又不对(比如没有按“地区-城市-区县”三级拆分)
- 你又要改代码、重新运行、重新汇总,前前后后花了3个多小时,终于拿到了正确的数据——但这时候你已经没有精力去做深度的数据分析和可视化了,只能匆匆忙忙画了几个柱状图、折线图交差
1.2 核心问题:为什么LLM alone 无法真正解锁生产力?
上述三个场景,其实反映了当前LLM应用的三个核心局限性:
- 上下文窗口有限+多轮对话效率低:虽然GPT-4o的上下文窗口已经扩展到了128K tokens(Claude 3 Opus甚至达到了200K tokens),但对于复杂的跨工具、跨多轮、跨数据源的任务来说,128K/200K tokens仍然不够用——而且即使上下文窗口够大,多轮对话的效率也非常低:你需要不断切换上下文、粘贴数据、解释规则,LLM也需要不断理解新的约束、修正之前的错误,整个过程就像“挤牙膏”一样
- 缺乏“自主决策+自主执行”的能力:当前的LLM本质上只是一个“概率语言模型”,它只能根据输入的Prompt生成“最可能的下一个token”,无法像人类一样设定目标、拆解任务、规划步骤、选择工具、执行任务、监控进度、修正错误、总结反思——也就是说,它只是一个“执行者”,而不是一个“决策者”,更不是一个“自主工作者”
- 跨工具、跨数据源的“断点协作”问题:当前的LLM工具大多是“孤岛式”的——GitHub Copilot只能写代码,Notion AI只能处理文档,MidJourney只能生成图像,Canva只能做设计,BigQuery/PyCharm只能处理数据……要完成一个复杂的任务,你需要在这些工具之间不断切换、复制粘贴、手动衔接,而这些“断点工作”往往占据了整个任务80%以上的时间
1.3 解决方案概述:什么是Agentic Workflow?
要解决上述三个核心局限性,我们需要的不是“更大、更强的LLM”,而是一套能够让LLM“自主决策、自主执行、自主协作”的工作流——这就是Agentic Workflow(代理工作流)。
1.3.1 核心概念(通俗版)
通俗来讲,Agentic Workflow就是把LLM变成一个“会思考、会干活、会协作的虚拟员工”:
- 你只需要给它一个清晰的、可量化的目标(比如“帮我生成一份SaaS产品Q3的用户留存提升方案,要求有具体的落地细节、预算分配、A/B测试计划,字数控制在5000字以内”)
- 它会自动设定子目标、拆解任务、规划步骤、选择合适的工具(比如文档数据库、代码编辑器、数据分析工具、设计工具等)、执行任务、监控进度、修正错误、总结反思
- 最后它会给你一个完整的、符合要求的交付成果——中间所有的“断点工作”“挤牙膏式的多轮对话”“跨工具协作”都由它自动完成
1.3.2 核心概念(学术/技术版)
从学术/技术的角度来看,Agentic Workflow是由一个或多个LLM Agent(代理)组成的、能够自主完成复杂任务的闭环工作流。
其中,LLM Agent(代理)是Agentic Workflow的核心单元,它通常由以下四个核心组件组成(我们会在后面的章节详细展开):
- LLM Core(大语言模型核心):作为Agent的“大脑”,负责理解目标、生成决策、执行推理
- Memory System(记忆系统):作为Agent的“大脑皮层+硬盘”,负责存储短期记忆(当前任务的上下文)、长期记忆(历史任务的经验、规则、数据等)
- Tool Use(工具使用):作为Agent的“手脚”,负责与外部世界交互——比如调用API、读写文件、执行代码、操作数据库、使用设计工具等
- Planning & Reflection(规划与反思):作为Agent的“思维闭环”,负责设定子目标、拆解任务、规划步骤、监控进度、修正错误、总结反思
而Agentic Workflow(代理工作流)则是将一个或多个LLM Agent通过某种方式(比如串联、并联、层次化、协作化等)组织起来,形成一个能够自主完成复杂任务的闭环系统。
1.4 最终效果展示:Agentic Workflow vs LLM alone 的对比
为了让大家更直观地感受到Agentic Workflow的威力,我们先来看一个简化版的对比示例(后面的章节会有完整的、可复现的实战案例):
1.4.1 任务目标
帮我生成一份202X年Q2公司电商平台的销售漏斗分析报告,要求:
- 查询202X年4-6月,天猫、京东、拼多多三个渠道的UV、PV、加购率、转化率、客单价、复购率
- 按“地区-城市-区县”三级拆分数据
- 处理大文件(原始数据约10GB)
- 用Python的Matplotlib和Seaborn生成可视化图表(柱状图、折线图、漏斗图、热力图)
- 写一份3000字左右的分析报告,包含数据解读、问题发现、优化建议
- 将所有内容打包成一个PDF文件
1.4.2 LLM alone 的执行流程(耗时约8小时)
如场景3所述,整个流程需要:
- 拆成N个小问题,多轮对话(约20轮)
- 手动切换工具(BigQuery → PyCharm → Excel → Canva → Word → PDF转换器)
- 手动修正错误(约5次)
- 手动衔接数据(约10次)
- 手动生成可视化图表(约1小时)
- 手动写分析报告(约2小时)
- 手动打包成PDF(约10分钟)
1.4.3 Agentic Workflow 的执行流程(耗时约30分钟)
而使用Agentic Workflow的话,整个流程只需要:
- 打开一个基于Agentic Workflow的工具(比如AutoGPT、GPT-4o with Advanced Data Analysis + Custom Tools、LangChain Agent、CrewAI等)
- 给它一个清晰的、可量化的目标Prompt(大概200字左右)
- 点击“开始执行”按钮
- 30分钟后,它会自动给你一个打包好的PDF文件,包含所有要求的内容——中间所有的“断点工作”“挤牙膏式的多轮对话”“跨工具协作”都由它自动完成
1.5 价值主张:为什么Agentic Workflow 是生产力的真正解锁方式?
从上述对比示例可以看出,Agentic Workflow 相比 LLM alone,具有以下三个核心价值:
- 效率提升10-100倍:将“断点工作”“挤牙膏式的多轮对话”“跨工具协作”的时间从80%以上降低到10%以下,让你把更多的时间花在“有创造性”的部分
- 质量大幅提升:Agentic Workflow 具有“规划与反思”的能力,能够不断监控进度、修正错误、总结反思,避免了LLM alone 容易出现的“前后矛盾”“数据错误”“框架不全”等问题
- 降低使用门槛:你不需要再学习“Prompt Engineering 的高级技巧”“SQL的语法”“Python的数据分析库”“设计工具的操作”——只需要给Agent一个清晰的、可量化的目标,它就能自动完成所有的工作
1.6 文章脉络:本文的讲解思路和结构
本文是一篇深度剖析+问题解决型的技术博客,我们将按照以下思路和结构进行讲解:
- 引言:从LLM时代的“天花板焦虑”入手,引出核心问题,介绍什么是Agentic Workflow,展示最终效果对比,提出价值主张,梳理文章脉络
- 基础概念篇:详细解释Agentic Workflow的核心概念——包括LLM Agent的四个核心组件、Agentic Workflow的四种常见架构模式、Agentic Workflow与其他相关概念(比如RAG、Prompt Engineering、AutoML等)的区别与联系
- 核心原理解析篇:深入探讨Agentic Workflow的核心原理——包括LLM Core的推理机制(Chain-of-Thought、Tree-of-Thought、Graph-of-Thought等)、Memory System的设计与实现(短期记忆、长期记忆、向量数据库等)、Tool Use的设计与实现(Function Calling、ToolFormer、ReAct等)、Planning & Reflection的设计与实现(Goal Decomposition、Step Planning、Self-Correction、Iterative Refinement等)
- 实战案例篇:通过三个完整的、可复现的实战案例,手把手教你如何使用Agentic Workflow——包括使用AutoGPT完成“电商平台销售漏斗分析报告”、使用LangChain Agent完成“个人知识管理系统的搭建与优化”、使用CrewAI完成“秋季人像摄影教程的小红书图文制作”
- 最佳实践与常见问题篇:分享Agentic Workflow的10个最佳实践,解答10个常见问题,分析Agentic Workflow的优缺点与适用场景
- 行业发展与未来趋势篇:梳理Agentic Workflow的发展历史(从早期的专家系统到现在的LLM Agent),分析当前的行业现状,展望未来的发展趋势
- 总结与展望篇:回顾文章的核心内容和关键步骤,总结Agentic Workflow的核心价值,展望Agentic Workflow的未来发展前景,提供相关的学习资源和链接
基础概念篇:拆解Agentic Workflow的“四梁八柱”
在引言部分,我们已经对Agentic Workflow有了一个初步的了解——通俗来讲,它就是把LLM变成一个“会思考、会干活、会协作的虚拟员工”;从学术/技术的角度来看,它是由一个或多个LLM Agent组成的、能够自主完成复杂任务的闭环工作流。
在这一篇章中,我们将深入拆解Agentic Workflow的“四梁八柱”——包括LLM Agent的四个核心组件、Agentic Workflow的四种常见架构模式、Agentic Workflow与其他相关概念的区别与联系。
2.1 核心概念:什么是LLM Agent?
LLM Agent(代理)是Agentic Workflow的核心单元,也是Agentic Workflow能够“自主决策、自主执行、自主协作”的关键。
2.1.1 LLM Agent的定义(学术版)
在2023年发表的一篇名为《The Rise and Potential of Large Language Model Based Agents: A Survey》的综述论文中,作者对LLM Agent给出了一个非常严谨的学术定义:
LLM Agent(基于大语言模型的代理)是一种以大语言模型(LLM)为核心控制器的计算系统,它能够感知外部环境、存储和检索记忆、使用各种工具、制定和执行计划、与其他代理或人类交互,从而自主完成一个或多个复杂的目标。
2.1.2 LLM Agent的定义(通俗版)
为了让大家更容易理解,我们可以把LLM Agent比作一个**“刚入职的虚拟实习生”**:
- LLM Core(大语言模型核心)就是这个虚拟实习生的“大脑”——它具备一定的知识储备、推理能力、沟通能力,但没有任何“工作经验”
- Memory System(记忆系统)就是这个虚拟实习生的“大脑皮层+工作日志+公司知识库”——大脑皮层存储短期记忆(比如今天的任务目标、刚才和老板的对话内容),工作日志存储长期记忆(比如之前完成的任务、犯过的错误、学到的经验),公司知识库存储一些通用的规则、流程、数据等
- Tool Use(工具使用)就是这个虚拟实习生的“手脚+办公设备”——它可以使用电脑、打印机、Excel、Word、Python、API等各种工具,来完成具体的工作
- Planning & Reflection(规划与反思)就是这个虚拟实习生的“思维闭环”——它可以先理解老板的需求,然后制定一个工作计划,接着按照计划一步步执行,执行过程中如果遇到问题,它会主动想办法解决,或者向老板请教,最后完成任务后,它会写一份工作总结,反思自己在任务中做得好的地方和做得不好的地方,以便下次做得更好
2.1.3 LLM Agent的四个核心组件详解
在引言部分,我们已经提到了LLM Agent的四个核心组件——LLM Core、Memory System、Tool Use、Planning & Reflection。现在,我们将对这四个核心组件进行更详细的解释(后面的章节会有更深入的原理剖析和代码实现)。
2.1.3.1 LLM Core(大语言模型核心)
LLM Core是LLM Agent的**“大脑”,也是整个Agentic Workflow的“中央处理器”——它负责所有的理解、推理、决策、生成**工作。
LLM Core的核心功能包括:
- 目标理解:理解用户输入的目标(自然语言或结构化语言),将其转化为Agent能够执行的指令
- 推理生成:使用Chain-of-Thought(思维链)、Tree-of-Thought(思维树)、Graph-of-Thought(思维图)等推理机制,生成决策、执行步骤、反思内容等
- 工具调用决策:根据当前的任务状态,决定是否需要调用工具、调用哪个工具、如何调用工具
- 记忆检索决策:根据当前的任务状态,决定是否需要检索记忆、检索哪些记忆、如何检索记忆
- 交互生成:生成与其他代理或人类交互的内容(自然语言或结构化语言)
LLM Core的常见选择包括:
- 闭源LLM:比如OpenAI的GPT-4o、GPT-4o mini、GPT-3.5 Turbo,Anthropic的Claude 3 Opus、Claude 3.5 Sonnet、Claude 3 Haiku,Google的Gemini 1.5 Pro、Gemini 1.5 Flash,百度的文心一言4.0,阿里的通义千问4.0等
- 开源LLM:比如Meta的Llama 3、Llama 3.1,Mistral AI的Mistral 7B、Mixtral 8x7B、Mixtral 8x22B,Microsoft的Phi-3,Zephyr等
选择LLM Core的核心指标包括:
- 推理能力:比如MMLU、GSM8K、HumanEval等基准测试的得分
- 上下文窗口大小:比如128K tokens、200K tokens、1M tokens等
- 工具调用能力:比如是否支持Function Calling、ToolFormer等
- 生成速度:比如每秒生成多少个tokens
- 成本:比如每1K tokens的输入/输出价格
- 安全性:比如是否有内容过滤、隐私保护等功能
- 可定制性:比如是否支持微调、LoRA、QLoRA等
2.1.3.2 Memory System(记忆系统)
Memory System是LLM Agent的**“大脑皮层+硬盘”——它负责存储和检索短期记忆、长期记忆、通用知识**,解决了LLM Core“上下文窗口有限”“无法记住历史任务的经验”“无法获取实时/私有知识”的问题。
Memory System的核心功能包括:
- 记忆存储:将LLM Core生成的内容、工具调用的结果、外部环境的信息等存储到记忆系统中
- 记忆检索:根据LLM Core的请求,从记忆系统中检索相关的内容
- 记忆更新:根据LLM Core的反思内容,更新长期记忆中的经验、规则、数据等
- 记忆压缩:对短期记忆进行压缩,避免占用过多的上下文窗口
- 记忆遗忘:对长期记忆中不重要的内容进行遗忘,避免占用过多的存储空间
Memory System的常见分类包括:
- 短期记忆(Short-Term Memory, STM):也称为“工作记忆(Working Memory)”,存储当前任务的上下文——比如用户输入的目标、之前的推理步骤、工具调用的结果、外部环境的最新信息等。短期记忆的容量通常比较小(比如相当于LLM Core的上下文窗口大小),而且只能存储较短的时间(比如当前任务完成后就会被清空)。短期记忆的常见实现方式包括:直接使用LLM Core的上下文窗口、使用FIFO(先进先出)队列、使用滑动窗口等。
- 长期记忆(Long-Term Memory, LTM):存储历史任务的经验、规则、数据等——比如之前完成的任务、犯过的错误、学到的经验、用户的偏好、公司的知识库等。长期记忆的容量通常非常大(几乎不受限制),而且可以存储很长的时间(比如几年、几十年)。长期记忆的常见实现方式包括:向量数据库(Vector Database)、关系型数据库(Relational Database)、文档数据库(Document Database)、图数据库(Graph Database)等。
- 通用知识记忆(General Knowledge Memory):存储LLM Core已经预训练过的通用知识——比如历史、地理、科学、技术、文化等。通用知识记忆通常不需要单独实现,因为它已经内置在LLM Core中了。
- 实时/私有知识记忆(Real-Time/Private Knowledge Memory):存储LLM Core预训练时没有的实时/私有知识——比如今天的新闻、公司的最新财报、用户的私人数据等。实时/私有知识记忆通常需要通过RAG(Retrieval-Augmented Generation,检索增强生成)技术来实现,我们会在后面的章节详细展开RAG与Agentic Workflow的区别与联系。
Memory System的常见技术包括:
- 向量嵌入(Vector Embedding):将文本、图像、音频等非结构化数据转化为高维向量(比如1024维、2048维、4096维等),以便进行相似度计算和检索。常见的向量嵌入模型包括:OpenAI的text-embedding-3-small、text-embedding-3-large,Anthropic的Claude Embeddings,Google的Gemini Embeddings,Meta的Llama Embeddings,Sentence-BERT等。
- 向量数据库(Vector Database):专门用于存储和检索高维向量的数据库——它支持快速的相似度搜索(比如Top-K搜索、余弦相似度搜索、欧氏距离搜索等)。常见的向量数据库包括:Pinecone、ChromaDB、FAISS(Facebook AI Similarity Search)、Weaviate、Milvus、Qdrant等。
- RAG(Retrieval-Augmented Generation):将向量检索与LLM生成结合起来的技术——它首先从向量数据库中检索与当前任务相关的内容,然后将检索到的内容与用户的输入一起输入到LLM Core中,最后LLM Core根据检索到的内容和用户的输入生成输出。RAG技术解决了LLM Core“无法获取实时/私有知识”“容易产生幻觉(Hallucination)”的问题。
2.1.3.3 Tool Use(工具使用)
Tool Use是LLM Agent的**“手脚”**——它负责与外部世界交互,解决了LLM Core“无法执行具体的操作”“无法获取实时/私有知识”“无法处理非结构化数据”的问题。
Tool Use的核心功能包括:
- 工具定义:将外部工具(比如API、函数、数据库、设计工具等)的功能、参数、返回值等定义为LLM Core能够理解的格式(比如JSON Schema、OpenAPI Schema等)
- 工具调用决策:LLM Core根据当前的任务状态,决定是否需要调用工具、调用哪个工具、如何调用工具
- 工具执行:根据LLM Core的决策,执行对应的工具调用
- 工具结果处理:将工具调用的结果转化为LLM Core能够理解的格式(比如自然语言、JSON等),然后存储到记忆系统中
Tool Use的常见类型包括:
- 数据处理工具:比如SQL查询工具、Python代码执行工具、Excel处理工具、CSV处理工具等
- 信息检索工具:比如Google搜索工具、Bing搜索工具、维基百科搜索工具、新闻API工具等
- 文件操作工具:比如文件读取工具、文件写入工具、文件删除工具、文件压缩工具、文件解压工具等
- API调用工具:比如OpenAI API工具、Anthropic API工具、Google Maps API工具、GitHub API工具、电商平台API工具等
- 设计工具:比如MidJourney API工具、Stable Diffusion API工具、Canva API工具、Figma API工具等
- 其他工具:比如翻译工具、语音识别工具、语音合成工具、代码格式化工具、代码调试工具等
Tool Use的常见实现方式包括:
- Function Calling(函数调用):OpenAI、Anthropic、Google等闭源LLM厂商提供的官方工具调用功能——它允许LLM Core生成一个JSON格式的函数调用请求,然后你可以根据这个请求执行对应的函数,最后将函数的返回值输入到LLM Core中。Function Calling是目前最简单、最常用的Tool Use实现方式。
- ToolFormer:Meta在2023年发表的一篇名为《ToolFormer: Language Models Can Teach Themselves to Use Tools》的论文中提出的Tool Use实现方式——它通过微调的方式,让LLM Core学会自己决定是否需要调用工具、调用哪个工具、如何调用工具。ToolFormer的优点是不需要依赖闭源LLM厂商的Function Calling功能,可以使用开源LLM实现;缺点是需要进行微调,成本较高。
- ReAct(Reasoning + Acting):Google在2022年发表的一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文中提出的Tool Use实现方式——它将推理(Reasoning)和行动(Acting)结合起来,让LLM Core在执行每一步行动之前,先进行推理,然后根据推理的结果执行行动,最后根据行动的结果进行下一步的推理。ReAct的优点是可以提高LLM Core的推理能力和工具调用的准确性;缺点是生成速度较慢,成本较高。
- LangChain Tools:LangChain框架提供的一套标准化的Tool Use实现方式——它封装了大量的常用工具(比如Google搜索工具、Python代码执行工具、SQL查询工具等),并提供了一套统一的接口,让你可以轻松地将这些工具集成到LLM Agent中。
2.1.3.4 Planning & Reflection(规划与反思)
Planning & Reflection是LLM Agent的**“思维闭环”**——它负责设定子目标、拆解任务、规划步骤、监控进度、修正错误、总结反思,解决了LLM Core“缺乏自主决策能力”“容易产生幻觉”“无法从错误中学习”的问题。
Planning & Reflection的核心功能包括:
- 目标分解(Goal Decomposition):将用户输入的大目标分解成若干个小的、可执行的子目标
- 步骤规划(Step Planning):为每个子目标规划具体的执行步骤
- 进度监控(Progress Monitoring):监控任务的执行进度,检查
