033、测试与评估:如何系统评估Agent的能力
上周调一个天气查询Agent,用户说“明天需要带伞吗”,Agent直接调了三天后的天气预报接口。问题出在哪?是意图识别错了,还是函数调用逻辑有漏洞?这种问题靠人工测试根本覆盖不全。今天咱们就聊聊,怎么系统性地给Agent“出考题”。
一、从单点测试到评估体系
传统软件测试看功能是否正常,Agent测试得看它“脑子”是否清醒。我习惯把评估分成三个层面:单元测试看基础能力,场景测试看任务完成度,压力测试看稳定性。
单元测试这块,别只测API连通性。得构造各种“刁钻”输入:
# 测试意图识别的边界情况test_cases=[("明天上海天气","weather_query"),# 标准情况