当前位置: 首页 > news >正文

把 Agent 效果从 “感觉” 变成 “可验证”

分为四步:

  1. 修改约束文档,形成改后版本

  2. 按官方最佳实践 review,先排除明显不合理的写法

  3. 派 Subagent 做 A/B 对照测试,比较改前和改后的效果

  4. 再由 review 汇总结果,评估这次约束改动是否真的有效

对照方式

  1. 准备同一份需求设计,分别交给使用改前约束和改后约束的两个 Subagent,两者都不参考实际代码,只根据需求盲写解决方案
  2. 盲写完成后,派独立 Evaluator 进行盲评。Evaluator 可以参考实际代码,但不知道 A/B 分别对应哪版约束
  3. 由主 Agent 汇总评估结果,对比两组方案表现,判断约束改进是否有效

注意点

Claude Code 在同一个会话中修改 CLAUDE.md 后,本次会话派发的 Subagent 看不到最新改动。它读取的是主会话启动时的 CLAUDE.md 快照

一个真实案例

Subagent 同时评测同一份需求设计时,改后版本的 Token 使用量下降,优化占比约 11.7%

⏺ 2 agents finished (ctrl+o to expand) ├ 盲写 writer 改后臂 · 15 tool uses · 135.8k tokens │ ⎿ Done └ 盲写 writer 改前臂 · 18 tool uses · 153.8k tokens ⎿ Done

发现

A/B 测试还发现了一个有意思的现象:如果在 CLAUDE.md 中定义约束文档本身的规则,

http://www.jsqmd.com/news/1094242/

相关文章:

  • GPT-4稀疏激活原理:MoE架构与动态路由技术解析
  • 告别低效手工:Nimble Document如何激活企业文档数据价值
  • Redis Key 空间事件通知机制
  • 计算机毕业设计之基于SSM框架的运动康复医疗管理系统
  • 怎样永久激活IDM下载工具:3步实用教程告别试用限制
  • 攻克eNSP AR1启动难题:从错误代码40到兼容性版本精准匹配
  • Agent 核心原理:用小项目验证核心能力
  • 为什么方向看准了,还是拿不住单子
  • AES加密在图片处理中的实战应用:原理、实现与安全考量
  • Win11Debloat终极指南:3分钟彻底优化你的Windows 11系统
  • 从 ReAct 到 Planning:从走一步看一步到先拆解再推进
  • 【交流纪实】现在的PCIe 6.0协议分析仪和训练器都进化到什么程度了?
  • Java集成MQTT协议对接第三方设备实战————从参数配置到业务落地的避坑指南
  • 【独家首发】ChatGPT Plus额度重置周期漏洞利用指南(非越狱,纯合规,已通过2024.06灰度测试)
  • 2026生成式引擎优化(GEO)行业观察:合肥本地AI搜索优化现状与落地逻辑
  • 告别传统:2026智能试剂柜行业智能化、物联化发展新趋势!
  • 2026顶流!5款AI论文工具实测,治愈文献焦虑,初稿撰写快人一步
  • ProperTree跨平台plist编辑器终极指南:如何高效管理macOS配置文件
  • 阿里云PolarDB(兼容Oracle)从入门到精通:部署、连接与SQL语法全解
  • 软件空对象管理化的空值默认处理
  • 如何使用 Python 设置 Excel 单元格数字格式
  • 基于双阀值区间扰动观察法与带预测模型模糊PID控制法的光伏MPPT控制仿真模型研究(Simulink仿真实现)
  • NHS-PEG-Silane 综合功能特性解析 —— 低吸附、高偶联、强锚固三大核心优势
  • 中小律所案件管理系统怎么选?案件云、Alpha、iCourt 适合谁
  • TAS5711数字功放芯片全解析:从D类放大原理到2.1声道实战设计
  • 别再走弯路!2026实测靠谱的AI论文写作工具|实测必入避坑版
  • RAG 2026进化:从Naive到Agentic,混合检索与多模态实战拆解
  • 修改IntelliJ IDEA开发工具的缓存目录
  • 计算机毕业设计之基于SSM框架的智能车位管理系统的设计与实现
  • 如何用AI生成课程论文?2026年大学生高效完成课程论文的完整指南