当前位置: 首页 > news >正文

浅析对AI Agent代理和Workflow工作流的理解、Agent最适宜的场景(搜索和编码)及原因(正反馈机制)

一、Agent VS Workflow

  现在市面上许多产品都称自己为"AI代理",这造成了很大混淆。Barry解释道:"随着模型的改进...我们开始看到两种不同的模式:一种是由代码预先编排的工作流;另一种是代理,它在某种程度上更简单,但在其他方面更复杂。"就像市场上很多食品都标榜"纯天然"一样,"AI代理"这个词被过度使用,导致人们难以区分真正的代理和普通的AI应用。

  两者关键区别在于自主决策能力,简单说 Workflow 就像是固定的生产线,每个步骤都是预先设计好的;而 Agent 则像是有自主思考能力的助手,通过感知 - 决策 - 执行的路径,可以自己决定怎么做、做多久。

  (工作流 - 预先编排、代理 - 自主决策)

  想象一下厨房里的两种场景:

1、Workflow:按照菜谱一步步做菜,第一步切菜,第二步放油,第三步炒菜,每一步都是预先定好的,按部就班地执行,过程中如果出现没油了,可能炒菜就得中断了。

2、Agent:你告诉一个会做饭的人“做一道可口的晚餐”,他会根据冰箱里有什么材料,自己决定做什么菜,如何烹饪,需要走多少步骤才能完成,如果没油了,Agent 会自己知道要去买油。

  归根结底,真正的 Agent 有两个关键特点:

1、能自己做决定:不需要人类告诉它每一步该做什么

2、会一直工作到完成任务:运行次数不是预先固定的,而是根据需要自动调整

  Erik 用生活中的例子解释了这种差别:"代理的提示会更加开放,通常会给模型工具或多个检查项,说:'嘿,这是问题,你可以进行网络搜索,或者编辑这些代码文件,或者运行代码,并持续这样做直到你有答案。'"

  想象你对助手说:"帮我预订一次旅行"。如果是工作流,你可能需要指定每一步:"先查航班,然后找酒店,再看景点";而真正的代理则只需一个指令,它会自己决定如何完成整个预订过程。

  这就是 AI Agent 它承诺可以自主完成复杂任务,而不需要人类的步步指导。但这种自主能力虽然令人印象深刻,但也有它的局限和适用场景。

二、最适合 Agent 的任务特征

  在选择使用 Agent 的场景时,来自 Anthropic 的 Barry 提出了一个非常实用的标准:我认为代理最适合的场景是那些既复杂又有价值的任务,但失败后的风险较低或监控成本不高的任务。这是代理应用的理想交叉点。简单来说最适合 Agent 的任务应该是:

1、足够复杂:简单任务用代理可能是“杀鸡用牛刀”

2、有一定价值:值得投入资源去自动化

3、容错性高:即使代理偶尔出错,也不会造成严重后果,在人监督的情况下可以进一步降低风险

  举个生活中的例子,你可能会让 Agent 帮你筛选邮件或整理文档,因为即使它偶尔分类错误,后果也不严重。但你可能不会让 Agent 直接操作你的银行账户进行大额转账,因为错误成本太高。

  在众多可能的应用场景中,两个目前最成功的领域:编码和搜索。

  关于搜索应用,Barry解释道:"以搜索为例,这是一个非常有价值的任务。进行深入的迭代搜索非常困难,但你总是可以用一些精度换取召回率,然后获得比需要更多的文档或信息,然后过滤下来。所以我们在代理搜索方面看到了很多成功"。这意味着代理可以进行多轮、深入的信息检索,不断调整搜索策略,最终找到用户真正需要的信息,而不仅仅是关键词匹配的结果。

  对于编码应用,Erik展示了极大的热情:“编码代理我认为非常令人兴奋,因为它们是可验证的,至少部分是。你知道,代码有一个很好的特性,你可以为它编写测试,然后编辑代码,测试要么通过要么不通过”。如果代理可以帮助程序员写代码、找bug、优化性能,甚至自动根据需求生成完整的程序。虽然这不会取代程序员,但可以显著提高他们的工作效率。

三、为什么编码和搜索特别适合AI代理

  Erik点出了关键原因:如果每次它再次运行测试,它看到错误或输出是什么,这让我认为,模型可以通过获得这种反馈来收敛到正确的答案。如果你没有某种机制在迭代时获得反馈,你就没有注入更多的信号,你只会有噪音。所以没有这样的机制,代理就没有理由收敛到正确的答案。(如果没有正反馈,AI 不知道后面怎么走)

  这里的核心是反馈机制。成功的代理应用需要一种方式来验证结果是否正确,并据此改进。

1、在编码中,测试用例提供了明确的反馈:代码要么通过测试,要么失败

2、在搜索中,结果的相关性可以通过多种方式评估,代理可以不断调整查询直到找到满意答案

  对于我们用户而言,这意味着什么?简单说,当我们考虑使用AI代理时,应该优先考虑那些:

1、任务复杂但错误不会造成严重后果的场景;

2、存在某种方式可以验证结果好坏的场景;

3、代理可以通过多次尝试逐渐改进的场景;

  比如,你可以放心让AI代理帮你写邮件草稿(你可以审核后再发送),或者帮你整理照片和文件(错误可以轻松纠正),但可能不适合让它直接执行重要的财务决策或医疗诊断等高风险任务。

四、对 AI Coding 能否替代程序员的理解

  程序员的 Coding 时间甚至占不到 50%,所有 AI 编程工具暂时还取代不了人类, 先来捋一下程序员是怎么写代码的

  1. 参与需求评审、设计评审,明确编程目标
  2. 利用自身知识做技术方案设计
  3. 使用企业、社区方案完成代码框架
  4. coding 期间需要与产品多次拉扯、确认需求细节
  5. 完成代码实现,对程序进行完善:通过报错信息对程序进行修改;上网查询相关信息;向身边专家求助
  6. 对代码进行单元测试
  7. 集成测试、冒烟、项目验收

  有了对 Agent 了解之后,发现貌似程序员的不可取代性主要集中在需求理解,技术设计和代码框架对企业内部知识有依赖,AI 无法全面完成,其余的工作 Agent 在程序员的监督下可以代劳。

  虽然Cursor 在诞生时就通过 Codebase Indexing 理解项目全文 解决了上述很多问题。当用 Cursor 打开一个项目时,Cursor 会自动对代码库进行扫描和索引。它会分析代码中的各种元素,如函数、类、变量等,并建立它们之间的关系。通过这种方式,AI 可以快速定位到相关的代码片段,了解代码的上下文和用途。这样,当开发者提出一个代码生成需求时,AI 可以根据索引信息,参考项目中已有的代码模式和风格,生成更符合项目实际情况的代码。

  但是 AI 擅长通用问题的解决,而对产品需求的理解,AI 始终无法了解现实世界的复杂性;并且根据实际使用的情况来看,Cursor AI 对结合项目最佳实践,给我最优建议上(我觉得还是欠缺一些,AI 可能考虑的更偏重于解决了这个事就好 - 不管用什么方案,而好的程序员会考虑在什么场景下和未来扩展性下用什么方案更好,会考虑其实用性);且针对上述第4点(coding 期间需要与产品多次拉扯、确认需求细节)甚至在开发过程中发现产品需求的重大漏洞,或者产品需求对系统架构的重大侵入破坏,需要程序员去权衡利弊而各方 battle 的场景也不少见,而目前 AI 给个指令,就会无脑去干。

五、总结

1、代理 - 自主决策;工作流 - 预先编排

2、代理最适合的任务特征:复杂且有价值、最重要的是容错率要高(即使错了,也不会有多大影响)

  当前代理最适合的场景:搜索、编码

3、为什么编码和搜索最适合:核心是有正反馈机制。(模型通过正反馈能够收敛到正确的答案,如果没有正反馈,AI 不知道后面怎么走)

  所以什么任务适合使用代理:(1)首先,任务复杂但不会造成严重后果 -> (2)接着,任务可通过某种方式验证结果好或坏 -> (3)接着,代理通过结果的好坏能够多次尝试逐渐改进

http://www.jsqmd.com/news/83730/

相关文章:

  • 大疆(DJI)前端开发岗位面试经验总结与备战指南
  • 17、索引创建与格式规范全解析
  • LangChain RAG 学习笔记:从文档加载到问答服务
  • 20251213
  • me_cleaner 终极指南:简单快速禁用Intel管理引擎保护系统安全
  • 无锁队列之moodycamel::ConcurrentQueue
  • 戴森球计划FactoryBluePrints终极指南:3步打造高效星际工厂
  • 【保姆级教程】apache-tomcat的安装配置教程 - 教程
  • 先吞下去再消化,AI 时代的强大消化神器 NotebookLM 成熟了
  • 深度学习基础理论————常见评价指标以及Loss Function
  • AI写论文工具排行榜:9个优选方案,覆盖开题到终稿全流程
  • windows著名漏洞——Zerologon(零登录)
  • 快速排序:10分钟掌握高效算法精髓
  • 北京雅思培训机构综合评测与选择指南 - 品牌测评鉴赏家
  • 《Ascend C 高效内存管理实战:Unified Buffer 优化策略与 DMA 调度详解》
  • 深入 Ascend C 编程:从零构建高性能 AI 算子—— 卷积优化、Winograd 实现与全链路性能调优实战》
  • 向量数据库与元数据治理:应对企业AI应用的三大数据挑战
  • React(一):使用react-router构建导航应用
  • 终极AI绘画管理神器:5步实现高效模型资源整合
  • Astrofy:快速构建现代化个人作品集的免费开源模板
  • 灌肠机厂家综合实力排行榜,优质生产商盘点,国内灌肠机厂家综合实力与口碑权威评选 - 品牌推荐师
  • <P2613 【模板】有理数取余>
  • 策知道|如何用3分钟读懂2026年政府工作报告?
  • 终极指南:如何快速获取ABB RobotWare数据包完整资源
  • 终极Python火焰图分析工具Pyflame完整使用指南
  • 如何快速掌握THC-Hydra:网络安全新手的完整指南
  • 路由器的5G和手机上的5G是一个意思吗?深度解析两大区别
  • 3大实战场景:深度解决.NET MAUI在Android平台的适配痛点
  • 国家战略托底!这 5 个热门专业(含民生 / 科技领域),未来难被人工智能替代,就业稳!
  • 2025年12月低频变压器,高频变压器,平板类变压器公司推荐:行业测评与选择指南 - 品牌鉴赏师