第30篇:Vibe Coding时代:LangGraph 评估体系实战,解决 Agent 效果只能凭感觉判断的问题
第30篇:Vibe Coding时代:LangGraph 评估体系实战,解决 Agent 效果只能凭感觉判断的问题
一、问题场景:Agent 到底有没有变好,全靠感觉
做 Agent 最大的问题之一是:
改了 Prompt、换了模型、加了 RAG、调整了流程,但不知道效果到底有没有提升。
常见判断方式:
我感觉这版更好 这次回答看起来不错 这个模型好像更聪明这在 Demo 阶段可以,但工程化不行。
真实项目需要回答:
1. 新 Prompt 是否比旧 Prompt 好? 2. 接入 RAG 后准确率是否提升? 3. 小模型能否替代大模型? 4. 多 Agent 是否真的更稳定? 5. 测试通过率是否提高? 6. 成本是否下降? 7. 延迟是否可接受?本文要解决:
如何给 LangGraph Agent 建立基础评估体系,让优化有数据依据。
二、Agent 评估应该看什么?
建议至少看 6 类指标:
