当前位置: 首页 > news >正文

【Agent智能体10 | 反思设计模式-AI数据分析的可视化实战】

声明:本篇博客是以吴恩达的【Agent智能体】教程为基础,并对其中的内容做了笔记整理以及个人收获的总结。

上一篇【Agent智能体9 | 反思设计模式-提示词工程的进阶法则】主要是聚焦提示词工程,讨论了如何写好的提示词(例如:多给几个样本,给出审查标准等),来让语言模型进行自我反思。

这篇主要是用了一个更为复杂的例子(可视化咖啡销量),视角切换到了智能体工作流( agentic workflow)方面,且引入了多模型协作的例子,通过这个例子,你可以肉眼可见地感受到,引入反思机制后,AI 输出结果的惊人进化!

任务背景:可视化咖啡销量(Visualizing coffee sales)

  • 输入数据:一份包含日期(date)、价格(price)和咖啡名称(coffee_name)的原始表格数据
  • 用户需求:“创建一个图表,比较 2024 年和 2025 年第一季度(Q1)的咖啡销量” (Create a plot comparing Q1 coffee sales in 2024 and 2025)。

分析:如果只是简单地把这个需求丢给普通的 LLM,它可能会写出一段能运行但图表效果很差的代码。智能体工作流就是为了解决这个问题。

图表生成的智能体工作流 (Chart generation agentic workflow)

整个流程展示了 AI 如何通过“迭代”来完成任务:

  • 步骤 1:初次生成 (Write python code)用户输入提示词后,LLM 首先生成了第一版 Python 代码(V1 code),利用pandasmatplotlib处理数据并绘图。
  • 步骤 2:执行并输出 (Execute V1 code)系统在后台运行这段代码,生成了第一版图表(plot.png)。可以看到,左下角的第一版图表是一个“堆叠柱状图”。这种图表虽然没有明显的语法错误,但很难让人直观地对比不同咖啡在两年的销量变化,阅读体验很差。
  • 步骤 3:反思与批评 (Critique image, update code)这是智能体工作流的关键!系统并没有直接把第一版图表交给用户,而是将生成的图表和代码再次交给 LLM 进行审查。LLM 发现图表不够清晰,于是修改了代码(生成 V2 code)。
  • 步骤 4:再次执行得到最终结果 (Execute new code)运行第二版代码后,得到了右下角的新图表(plot_v2.png)。这变成了一个“分组柱状图”,将 2024 和 2025 年的数据并列放置,清晰明了地展示了每种咖啡的销量对比

使用不同的 LLM 进行反思(Reflection with a different LLM)

  • 模型 1(生成器 - Code generation):负责根据用户的提示词写出第一版基础代码。

    • 提示词:“编写 Python 代码生成可视化图表以回答用户的问题 {用户提示词}”
  • 模型 2(审查员 - Reflection):负责扮演“质检员”。可以是同一个模型,也可以是一个能力更强、专门用于分析不同视角的其他 LLM。系统会将第一版代码、生成的图片以及对话历史发给它。

    • 提示词:“你是一位专家级数据分析师,负责提供建设性的反馈。第一步:审查附带的图表的可读性、清晰度和完整性。第二步:编写新代码来落实你的改进建议。”

这样充分利用不同LLM的优势,可以得到质量更高的结果!

总结

这套流程展示了Agentic Workflow(智能体工作流)相较于传统的Zero-shot(零样本一次性生成)的巨大优势

但是,反思在一些应用上提升有限:在另一些应用上提升明显,还有些应用几乎没有提升。不过了解反思对应用影响是很有帮助的。下篇文章将简单讲述评估反射的一些方式。

如果这篇文章对你有帮助,欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力!

http://www.jsqmd.com/news/912954/

相关文章:

  • 【单射频链束训练】对具有1个射频链的OFDM-MIMO系统进行束扫描研究附Matlab代码
  • 忘记压缩包密码怎么办?3步教你用专业工具快速找回
  • 别再死磕Vivado了!用VSCode写ZYNQ代码,效率翻倍的保姆级配置指南
  • CentOS 7.6下Mellanox网卡驱动升级避坑指南:从依赖安装到模块冲突解决
  • 植物大数据平台技术解析与品牌选型参考指南:新疆本地做智慧农业、数字农业的公司/新疆棉花智慧农业企业有哪些?/新疆棉花种植用的植物监测传感器企业/选择指南 - 优质品牌商家
  • 专业级AVIF图像插件:Photoshop高效图像压缩完整解决方案
  • ROS2跨机通信真就这么简单?用DDS和ROS_DOMAIN_ID轻松隔离你的机器人网络
  • WarcraftHelper魔兽争霸III优化工具:5分钟解锁游戏全部潜力,告别老旧限制
  • 多 Agent 对证循环协作架构:Hermes + Claude Code + Codex 三角色工作流实战
  • 房地产咨询 Agent:房源匹配 Harness
  • 你的Zotero文献语言设置对了吗?GB/T 7714样式下,让英文文献正确显示‘et al.’的完整配置流程
  • AI 模型推理服务部署深度解析:从 Triton 到 vLLM 的生产级推理架构
  • Arm CCI-550/CCI-500地址通道带宽异常分析与优化
  • 如何选留香沐浴露品牌?2026年5月推荐TOP10对比香气持久案例适用场景 - 品牌推荐
  • 成都及四川EPS泡沫板服务机构排行:南充市,广安市,雅安市,檐口线条、石膏装饰线条、自建房外墙线条、EPS浮雕线条选择指南 - 优质品牌商家
  • 这6个动作让python selenium爬虫规避检测
  • 【Claude NPV分析权威指南】:20年财务AI专家首曝大模型估值新范式,3步精准测算项目真实价值
  • 揭秘Claude情感曲线异常波动:5步精准定位Prompt情绪失焦根源并实时校准
  • Linux服务器内存升级避坑指南:手把手教你用dmidecode查清空余卡槽和兼容参数
  • 180、运动控制中的行业标准:CNC标准ISO 841
  • 国民技术N32G430双分区(Boot+App)IAP项目实战:Makefile编译与pyOCD烧录全解析
  • 别再只画堆叠图了!用Seurat+ggplot2搞定单细胞比例统计与组间差异分析(附完整代码)
  • 2025-2026年留香沐浴露品牌推荐:十大口碑产品评测卧室安睡香氛助眠市场份额价格 - 品牌推荐
  • 哪些25-30万五座SUV车型值得选?2026年5月推荐TOP5评测家用空间案例适用场景 - 品牌推荐
  • AI实战之小程序-别急着写页面,先把Uniapp工程骨架搭稳
  • 抖音下载神器终极指南:一键获取无水印视频的完整教程
  • dto 转entity方法
  • 银河麒麟V10系统下,用vsftpd搭建FTP服务器的保姆级避坑指南
  • 基于框架的Token Curated Registries:构建去中心化策展系统的开发指南
  • 从CAD到遥控车:工程原理与CNC/3D打印混合制造全流程实战