当前位置: 首页 > news >正文

4 构建Agentic AI的实用技巧

构建Agentic AI的实用技巧

1. 构建 Agentic AI 的实用技巧

1.1 4.1 评估(Evals)

想提升 Agent 系统的效果,首先要搞清楚到底是哪个环节导致了效果变差。评估系统的作用就在于此。

快速原型和迭代是关键。推荐的方法:先构建一个简易但功能完整的原型 → 试运行并观察输出 → 找出表现不佳的地方 → 针对性建立评估。

1.1.1 案例一:发票处理(有明确答案)

系统从发票中提取四个必填字段,特别是到期日。手动检查 10-20 张发票后发现,系统经常混淆发票的开具日期和到期日。

发票处理工作流

构建评估:

  1. 找 10-20 张发票,人工记录正确到期日作为对照
  2. 在提示词中要求 LLM 以固定的年-月-日格式输出,便于自动检查
  3. 编写代码提取日期并与正确答案比对
  4. 调整系统后用这个指标衡量是否有提升

日期混淆问题

1.1.2 案例二:营销文案助理(无明确答案,有统一标准)

为 Instagram 图片生成标题,要求最多 10 个词。观察发现内容不错,但经常超长。

构建评估:准备 10-20 个测试任务,编写代码计算输出词数,与 10 词限制比对。这个评估没有每个例子的"正确答案",但有统一的长度标准。

1.1.3 案例三:研究智能体(主观评估)

Agent 根据用户主题撰写研究文章。检查发现,人类专家会捕捉到的重要观点,Agent 有时会遗漏。

研究智能体

构建评估:针对每个主题,人工准备 3-5 个黄金标准讨论点。用 LLM 作为裁判,统计文章提到了多少个标准点并打分。

1.1.4 评估的 2×2 矩阵

评估方式从两个维度划分:

客观评估(代码检查)主观评估(LLM 裁判)
有每例基本事实发票日期提取:每张发票有不同正确日期,代码比对研究观点覆盖:每个主题有不同重要观点,LLM 检查覆盖度
无每例基本事实文案长度检查:所有标题统一 10 词标准,代码统计评分量表评估:根据统一标准(如清晰度)打分

几个实用建议:

  • 从 10-20 个例子开始,快速获得指标,不要追求完美
  • 如果系统改进了但评估分数没提高,说明该改进评估本身了
  • 以专业人士的行为为灵感,观察系统在哪些方面不如人类专家

1.2 4.2 错误分析

当系统变得复杂后,仅靠直觉判断哪个环节出了问题已经不够。错误分析的核心是观察和量化,找出工作流程中表现最差的组件。

1.2.1 检查 Traces 和中间输出

Trace 是代理运行过程中每一步产生的中间输出的集合,单步输出称为 span。

方法:查看 trace,观察每个步骤的输出质量。以科研资料查询 Agent 为例:

  • 步骤 1(生成搜索词):请人类专家判断搜索词是否合理
  • 步骤 2(网页搜索结果):检查返回的 URL 和文章质量,是否太多非科学博客
  • 步骤 3(信息筛选):LLM 是否选择了严肃的科研文章而非夺人眼球的水文

1.2.2 聚焦错误并量化

将精力集中在最终输出不令人满意的案例上,建立电子表格统计每个组件出现错误的频率。

统计示例:如果发现对搜索结果不满意的频率远高于对搜索词不满意的频率(如 45% vs 5%),工作重点就应放在改进搜索引擎,而不是更改搜索词生成逻辑。

1.3 4.3 错误分析实例

1.3.1 案例一:发票处理

工作流程:PDF → PDF 转文本 → LLM 数据提取 → 数据库记录

发现问题:提取的到期日经常出错。收集 10-100 张出错的发票,定位错误来源:

  • PDF 转文本错误:文本提取太差,连人类都无法识别到期日
  • LLM 数据提取错误:文本输出够好,但 LLM 拉错了日期(如发票日期而非到期日)

发票错误定位

假设统计发现 LLM 数据提取导致更多错误 → 结论:应优化 LLM 提示词,而不是改进 PDF 转文本组件。

1.3.2 案例二:回复客户邮件

工作流程:客户邮件 → LLM 编写数据库查询 → 数据库 → LLM 起草回复 → 人工审核

发现问题:最终邮件回复不令人满意。定位错误来源:

  • LLM 查询编写错误:SQL 查询写错,无法获取客户信息
  • 数据库数据错误:数据本身损坏或不正确
  • LLM 邮件撰写错误:信息正确但内容或语气不妥

邮件错误定位

假设统计:LLM 编写查询导致 75% 的错误,LLM 撰写邮件只有 30% → 优先级:首先改进查询编写方式。

1.4 4.4 组件级评估

端到端评估和组件级评估的关系类似集成测试与单元测试。

端到端评估的问题:成本高,即使更换搜索引擎这样的小改动都要重跑整个流程;其他组件的随机性可能掩盖被改进组件的微小提升。

组件级评估的优势:信号更清晰,避免整体系统的噪声;适用于团队分工,每个团队自行维护指标。

1.4.1 实例:研究 Agent 的网页搜索

错误分析表明问题主要出在网页搜索组件。构建组件级评估:

  1. 针对少数查询,请人类专家提供黄金标准网页资源列表
  2. 用信息检索领域的标准指标(如 F1 分数)衡量搜索结果与黄金标准的重叠度
  3. 用这个指标快速调整搜索参数(更换引擎、调整结果数量、日期范围等)

网页搜索评估

工作流程:错误分析确定问题组件 → 构建组件级评估进行调优 → 运行端到端评估验证整体提升。

1.5 4.5 解决识别到的问题

跑完评估、定位问题后,下一步是着手改进。

1.5.1 非 LLM 组件的改进

  • 调参数:搜索引擎的结果数量、RAG 的相似度阈值和分块大小、检测模型的阈值
  • 换组件:尝试不同的服务提供商(不同搜索引擎、不同 RAG 引擎),找到最适合的

1.5.2 LLM 组件的改进

方法适用场景成本
改进提示词增加明确指令、使用少样本提示
尝试不同 LLM多模型测试,用评估选最优
任务分解单步指令太复杂,拆成生成+反思或多步调用
微调模型穷尽其他方法后仍需挤出最后几个百分点

培养模型选择直觉的方法:频繁试玩不同模型、建立个人评估集、阅读他人的提示词、在实际工作流中观察不同模型的 traces 和评估结果。

1.6 4.6 延迟与成本优化

强调:对早期团队,高质量输出比延迟和价格重要得多。先让系统跑好,再优化速度和成本。

1.6.1 优化延迟

关键:计时基准测试,找出瓶颈。

延迟分析

  • 记录每个步骤的耗时(如 LLM 1 耗时 7 秒,LLM 3 耗时 18 秒)
  • 定位最慢的组件
  • 优化手段:并行化独立步骤、尝试更快的模型或提供商

1.6.2 优化成本

关键:成本基准测试,找出最贵的步骤。

成本分析

  • 计算每个步骤的平均成本(LLM 按 token 计费、API 按调用次数计费)
  • 定位成本贡献最大的组件
  • 寻找更便宜的替代方案

1.7 4.7 开发过程总结

开发 Agent 系统主要在两项活动间切换:构建(写代码改进系统)和分析(决定下一步重点)。

系统从原型到成熟,经历四个阶段:

阶段描述分析方式
快速原型先做个能跑的版本手动检查输出,通读 trace,凭直觉找问题
初步评估系统开始成熟构建小型评估集(10-20 例),计算整体指标
严谨分析需要更精确的方向错误分析,量化各组件导致问题的频率
高效调优组件级精细改进构建组件级评估,高效调优单个组件

开发是非线性过程,需要在调整系统、错误分析、改进组件和调整评估间反复横跳。许多经验不足的团队花太多时间在构建上,太少时间在分析上,导致工作重点不集中。

http://www.jsqmd.com/news/906744/

相关文章:

  • 串的块链存储表示及其插入、删除操作
  • AI 幻觉杀死了我的生产环境:LLM 输出校验的 6 层防御机制与兜底方案设计
  • 订单越多,利润越少?本地生活行业告别“租流量”,用 LikeShop 搭建自己的用户体系
  • Microchip SAM-ICE与Keil µVision调试配置指南
  • 2026年5月评价高的安阳防爆电机公司如何选厂家推荐榜,YBZ系列、YBK系列、矿用隔爆型、粉尘防爆型电机厂家选择指南 - 海棠依旧大
  • naive ui tree 默认选中不生效
  • 电源箱厂家排行:深圳哪家最靠谱?
  • Cortex-M跟踪源无ATBYTES信号连接CoreSight系统方案
  • 提升JAVA从业者工作效率的Claude Code使用技巧
  • RAG 文档切片实战:国标知识库篇(一)——基础切片
  • 告别Edge兼容模式!Win11里找回那个熟悉的IE图标,搞定老旧系统登录
  • CoreSight ELA-600跟踪数据溢出优化方案
  • 从零到一:如何用chanvis搭建你的专属缠论量化分析系统
  • 车辆线性二,三,四自由度汽车动力学模型稳定性对比仿真【附说明文档】
  • 从傅里叶到希尔伯特黄变换:时间序列分析‘三巨头’怎么选?附Python代码对比
  • 【机器人协同】基于matlab多机器人路径跟踪与UWB IMU传感器模拟平台多小车协同运动仿真【含Matlab源码 15571期】
  • 【石油】基于matlab风化导致的石油有机碳和青藏高原净地质碳收支【含Matlab源码 15573期】
  • 2026 北京 GEO 优化服务商合作参考:客户评价与合规要求深度解析 - 玖叁鹿
  • 读懂JBoltAI智能问数升级:企业AI用数,瓶颈不是模型
  • 跨境直播拍卖高并发场景下的网络稳定性技术实践
  • 别再只算相关系数了!用Python做皮尔逊相关分析,这3个显著性检验的坑你踩过吗?
  • 用LangGraph构建支持“暂停与人工介入”的长周期任务工作流
  • Steam创意工坊模组自由获取指南:无需Steam客户端,轻松下载1000+游戏模组
  • C166架构中DPP寄存器的安全使用与性能优化
  • ST LIS3DHTR代理商
  • Windows 11 dwm.exe内存占用高?可能是Intel核显驱动的锅(附戴尔/灵越5570实测)
  • 奇迹 MU:剑与翼 打宝玩法与自由交易体系详解 官方下载开启
  • 2026年现阶段武汉全屋定制指南:聚焦高还原度靠谱施工队的选择逻辑 - 2026年企业资讯
  • 雾化器语音提示芯片方案:便携电池供电+低功耗WT588F02-8S-C
  • 告别批量计算:用Python手把手实现RLS算法,处理实时数据流(附完整代码)