当前位置: 首页 > news >正文

入门大模型工程师第八课----让Agent加一道自检闭环

前言


你已经看到 Agent 能拆任务、分头查资料、汇总成一份报告。可只要任务稍微长一点,另一个问题就会冒出来:报告写得很顺,但里面有没有把没完成的事写成完成?有没有遗漏阻塞事项?有没有把不能对外发送的信息写进去?

这类问题不一定靠一句“认真核对一下”就能解决。你需要让 Agent 写完以后,还能拿着依据回头检查一遍。

本课继续用 QoderWork 这类桌面 Agent 演示文件夹读取和任务执行。换成其他支持读取文件夹或上传多个文件的 Agent 时,入口名字可能不同,但判断逻辑相同。

先从一份需要核实的日报初稿开始。

课程目标


学完这节课后,你将能够:

  • 写出执行规则,让 Agent 在执行任务时区分已完成、待确认、阻塞和不能对外发送的信息

  • 在生成草稿时同步留下过程记录,写清事项来源、原始记录状态和处理方式

  • 复核中发现的问题补进执行规则或自检清单,减少下次同类错误

1 日报初稿容易出什么问题


假设你每天结束工作前都会发一份日报。你把今天的任务记录、客户名单修改记录、会议纪要、报销进度交给 Agent,让它整理成日报。

它给出的初稿可能长这样:

## 2026-05-15 日报 ### 已完成 1. 完成客户续费名单整理,已按客户等级标注优先级。 2. 补充“客户回访话术”说明,已更新到团队共享文档。 3. 完成下周客户拜访排期,已和销售同事确认时间。 4. 费用报销材料已提交,后续等待财务打款。 ### 明日计划 - 跟进重点客户续费确认。 - 整理本周客户反馈。 ### 备注 - 已确认客户采购预算约某预算金额。

这份日报看起来顺畅,但发布前需要核实。对照原始记录,会发现几类问题:

日报里的说法

原始记录里的情况

问题

已和销售同事确认下周客户拜访时间

会议纪要写的是“还有两位客户待回复”

把待确认写成已完成

费用报销材料已提交

报销记录写的是“缺少发票,暂未提交”

把阻塞写成已完成

没有风险/阻塞栏目

任务记录里明确有阻塞项

遗漏阻塞事项

这不是格式问题。它真正错在状态和证据:待回复的事被写成确认,缺材料的事被写成提交。还有一类问题是发送范围:备注里的客户预算不该进入日报正文。

2 告诉 Agent 什么算合格


上面这些问题——状态写错、证据缺失、不该发的信息混进正文——可以通过一段执行规则来减少。把“什么算合格”写清楚,让 Agent 整理日报时全程遵守:

执行规则: - 已完成事项必须有证据。 - 进行中、阻塞、待确认不能写成已完成。 - 不能遗漏阻塞事项。 - 私密备注不能进入日报正文、问题清单、过程记录、自检结果等任何输出。

执行规则能减少错误,但不能保证输出已经合格。它不是只在开始前生效,而是 Agent 整理材料和生成日报时都要遵守的边界。

规则尽量写成能检查的句子。“内容准确”太宽,“已完成事项必须有证据”就更容易核对。

3 生成草稿时同步留下过程记录


为了让后面能检查,不要只让 Agent 给出日报正文,还要让它在旁边列一份过程记录。过程记录不用给别人看,只供你或检查 Agent 判断每个关键内容从哪里来、处于什么状态、能不能写进正文。即使过程记录只给自己看,也不要复述私密备注的具体内容。

这不是固定模板。你也可以换成别的表格列,关键是说清楚:写了什么、依据在哪里、原始记录里显示的状态是什么、这条内容应该怎么处理。比如保留、改写、移到待确认或风险/阻塞栏目,或者删除敏感内容。为了检查方便,先用下面这个表格:

事项|原始记录状态|来源文件|原文线索|处理方式

例如:

事项

原始记录状态

来源文件

原文线索

处理方式

客户续费名单整理

已完成

customer_list_update.md + tasks.md

已按客户等级标注优先级

保留在“已完成”栏目

下周客户拜访排期

待确认

meeting_notes.md + tasks.md

还有两位客户待回复

改到“待确认”栏目,不能写成已完成

费用报销材料

阻塞

reimbursement_notes.md + tasks.md

缺少发票,暂未提交

改到“风险/阻塞”栏目,并说明当前卡在哪里

执行规则用来说明 Agent 必须遵守什么,过程记录用来留下来源、状态和处理方式。没有过程记录,后面检查时就只能凭感觉判断“像不像对”。

4 换个对话,专门检查初稿


可以新开一个对话,把初稿、过程记录和必要的原始文件交给它,让它只做检查,不负责写稿。这样职责更单一。

很多检查项可以从执行规则改写而来。执行规则写“已完成事项必须有证据”,检查时就问“每条已完成是否都有证据?”自检清单可以按材料类型调整,这里先用下面这组问题:

自检清单: 1. 每条“已完成”是否有证据? 2. 是否有未完成事项被写成已完成? 3. 是否遗漏阻塞事项? 4. 是否把计划、讨论或承诺误写成结果? 5. 是否泄露或复述不能对外发送的信息?

通常你会看到它把问题列出来:

抓到的问题

初稿里的内容

依据

待确认写成已完成

已和销售同事确认下周客户拜访时间

会议纪要写“还有两位客户待回复”

阻塞写成已完成

费用报销材料已提交

报销记录写“缺少发票,暂未提交”

遗漏阻塞事项

初稿没有风险/阻塞栏目

任务记录里有阻塞项

敏感信息进入输出

备注里出现客户采购预算

私密备注写明不得进入日报

自检清单的作用不是“再读一遍”。只说“请认真检查一下”,通常容易得到泛泛的确认;说“按过程记录逐条检查”,更容易让它指出哪个关键内容没有证据、哪条状态写错了。

5把检查前后要做的事串起来


前面每一步单独看都很小,连起来才是一套固定流程:写之前有规则,写的时候留依据,写完后按清单检查,发现问题后修订输出,再整理下次能用的检查项。

这套流程可以这样展开:

什么时候

要做什么

日报里的例子

写之前

写执行规则

已完成事项必须有证据

生成草稿时

留过程记录

下周客户拜访排期来自会议纪要,仍有客户待回复

写完后

按自检清单检查

有没有把待确认写成已完成

发现问题后

修订输出

把排期移到“待确认”,把报销移到“风险/阻塞”

修订后

补规则或检查项

增加“待审批不能写成已完成或已确认”

这类套在模型外面的约束与引导机制,业界通常叫Harness Engineering(驾驭工程)。Harness 原意是马具,用来约束和引导马的力量;放到 Agent 里,Harness 就是约束规则、检查反馈和纠偏机制的组合,套在模型外面,让它跑得快但不跑偏。

执行规则在行动前就告诉 Agent 哪些状态不能写错、哪些内容不能对外发送;自检清单在行动后检查输出有没有偏离这些规则。业界有时把行动前的引导叫 Guides,把行动后的检查叫 Sensors。

每次发现问题后补规则或检查项,不是为了保证以后一定不出错,而是让下次更容易提前发现同类问题。

6 反复验证后,保存成下次能用的模板


刚才这套流程还是你手动触发的:你把材料交给 Agent,先生成日报,再换个对话检查,最后修订并补检查项。重复做几次之后,如果同一类事每天、每周都会发生,就可以把固定路线写下来:

读取指定资料 → 生成草稿并留过程记录 → 按自检清单检查 → 修订并调整检查项 → 等人确认

先不要急着自动发送或定时运行。下一步仍然建议手动触发:确认它能按固定路线读取材料、生成草稿、留下过程记录、按自检清单检查并修订。反复用几次确认这几步能稳定跑完后,再决定哪些低风险步骤可以自动,哪些动作必须等人确认。

可以自动化的通常是整理、摘要、草稿和待确认清单;发送、删除、移动真实业务文件、付款、外发含敏感信息的内容,都要停下来等人确认。

这套流程可以先保存成一份提示词模板,下次直接复制使用。模板不是固定格式,关键是把每次都要重复交代的内容放在一起;下次使用时,只需要改资料位置、日期和具体任务。模板里可以包含这些内容:

  • 执行规则:哪些状态不能写错,哪些信息不能对外发送;

  • 过程记录:每条内容要写清来源、原始状态和处理方式;

  • 自检清单:每次写完后要检查哪些问题;

  • 常见问题:以前出过哪些错,下次怎么查;

  • 需要你确认的动作:哪些内容不能自动发送或自动处理。

如果这份模板反复使用、内容也比较稳定,再考虑做成 Skill 或定时任务。同一类问题反复出现时,不要只改这一次输出,先把对应检查项补进提示词模板;如果已经做成 Skill,也同步补进 Skill。

http://www.jsqmd.com/news/958995/

相关文章:

  • UiPath依赖项恢复失败?试试这个本地包缓存迁移大法(附Package文件夹位置详解)
  • Java 继承 Thread 与实现 Runnable 创建线程区别
  • STM32新手必看:用Proteus 8.13仿真ILI9341液晶屏,从零到显示“Hello World”的完整流程
  • 别再只会用‘等于’了!西门子博图TIA Portal比较指令的7种实战用法(附S7-1200程序)
  • 工控必看:温度传感器快速选型指南
  • 快速原型对比:用快马一键生成trae solo与ide的轻量级demo
  • 别再只会用BT下载了!手把手带你用Python模拟DHT协议,理解P2P网络的核心
  • 【2023个人AI助手黄金配置指南】:CPU/GPU/内存/存储四维平衡公式首次公开(附实测性能衰减拐点数据)
  • UOS统信服务器安全策略实战指南:从入门到精通
  • openclaw添加与更换服务商模型
  • 机器马达异响?别慌,先教你如何通过声音辨别健康状态
  • 持续高扩容!2026-2032电子防窥膜分析研究报告,深挖行业蓝海机遇
  • 广东谋根全新拖拽式网页 + 多语言 + 分离式架构:CRMEB二开开启独立站新纪元结合AI Schema加持让企业营销全系统打通,从私欲营销到大模型优化领先同行
  • 国际EMBA排行榜2026最新榜单|顶尖项目实力对比与报考解析
  • # 让 AI 扫描你的电脑——Codex/Claude Code 一句 Prompt 带来的震撼体验
  • 不止于脚本:从一次流片经历看VCS混合仿真环境的最佳实践与自动化
  • Visdom从入门到‘玩坏’:除了画Loss曲线,你还能用它做这些意想不到的骚操作
  • 新手福音:在快马平台免配置玩转anaconda与python数据分析
  • 智能债券整合不是选择题,而是生存线(2024Q2全市场AI债券平台渗透率骤降11%的真相)
  • 用Wireshark和Python实战拆解pcap文件:从十六进制到可读数据包的完整解析流程
  • 校园二手书交易|基于SprinBoot+vue的校园二手书交易管理系统(源码+数据库+文档)
  • 做ae模板没灵感?这5个网站,帮你轻松搞定
  • 终极指南:如何在Linux系统上轻松安装和配置foo2zjs打印机驱动解决方案
  • 避坑指南:Amber膜体系模拟中,从CHARMM-GUI下载文件到成功运行MD的五个关键检查点
  • 2026年张家口代办工程监理资质市场深度解析:河北丰点企业管理咨询有限公司为何成为企业优选? - 2026年企业资讯
  • Windows下用VS2019编译CEF官方Demo,手把手搞定离屏渲染(OSR)环境
  • 2026 SaaS增长:挖掘海外 Affiliate 的 7 个隐藏渠道
  • 你的手机NFC除了支付还能这么玩?解锁NTAG芯片的自动化指令与创意交互实践
  • Tosylate-DPA-714介导¹⁸F-DPA-714 PET成像的前沿进展
  • 告别增删改查!深入剖析C# WinForm人员管理系统的5个高级技巧与优化实战