【AI面试临阵磨枪-95】Skill 评估:成功率、耗时、成本、稳定性、用户满意度?
一、面试题目
请讲解AI Agent Skill 全维度评估体系,包含:成功率、执行耗时、调用成本、稳定性、用户满意度,说明指标定义、计算口径、评估方法、优化方向。
二、知识储备
整体思路
Skill 评估是上线、迭代、下线、评分的核心依据,从业务可用、性能、成本、稳定、体验五大维度量化打分,实现优胜劣汰。
1. 成功率(核心业务指标)
指标定义
- 公式:
成功率 = 成功执行次数 ÷ 总调用次数 × 100% - 成功标准:业务闭环完成(退款成功、判责完成、信息获取完整)
- 失败分类:参数缺失、格式错误、业务异常、超时熔断、模型幻觉、下游工具失败
评估与优化
- 低于阈值(如95%)预警;低于90%强制优化/下线
- 优化:完善参数校验、异常兜底、重试机制、幻觉拦截
2. 执行耗时(性能指标)
指标定义
- 统计:平均耗时、P95、P99 耗时
- 拆分:冷启动耗时、工具调用耗时、推理耗时、IO耗时、编排耗时
评估与优化
- 实时业务类 P95 < 2s;复杂业务 P95 < 5s
- 优化:预热预加载、并行IO、缓存、减少串行调用、推理加速
3. 调用成本(商业化&运维指标)
指标定义
- 大模型成本:Token 消耗(输入+输出)
- 资源成本:向量检索次数、数据库查询、接口调用次数
- 人力成本:维护成本、异常处理成本
评估与优化
- 单位任务 Token 越少越优
- 优化:精简上下文、缓存热点数据、减少冗余检索、复用中间结果
4. 稳定性(工程质量指标)
核心子指标
- 异常率:超时、熔断、报错占比
- 重试率:网络抖动重试次数
- 幻觉率:模型编造参数、越权指令次数
- 可用性:7×24 可用率
- 租户隔离稳定性:单租户故障不扩散
评估与优化
- 幻觉率 > 3% 重点治理
- 优化:熔断降级、幂等、超时控制、强格式约束
5. 用户满意度(体验指标)
数据来源
- 客观:用户后续是否再次提问、是否转人工、会话闭环率
- 主观:星级评分、反馈标签(不准确、太慢、听不懂、太繁琐)
- 业务侧:投诉率、资损率、纠纷率
评估与优化
- 闭环率越高、转人工率越低,满意度越高
- 优化:流程简化、话术友好、反问精准、步骤精简
6. 综合评分模型(企业常用)
综合得分 = 成功率×40% + (1−P95耗时/阈值)×20% + (1−单位成本)×15% + (1−异常率)×15% + 满意度×10%高分推荐、低分预警、低分下线。
三、代码/埋点示例
# Skill 执行后埋点上报评估指标 monitor.record( skill_id="aftersale_refund_order", success=is_success, cost_token=token_used, duration=cost_time, hallucination=has_hallucination, user_feedback=score )四、破局之道(面试升华)
Skill 评估核心是可量化、可对比、可迭代。
通过成功率看业务可用、耗时看性能、成本看效率、稳定性看工程质量、满意度看真实体验,形成完整闭环,指导 Skill 持续优化、灰度迭代、优胜劣汰,实现 Agent 平台规模化高质量交付。
30秒口述精简版
Skill 从成功率衡量业务可用性,耗时衡量性能,成本衡量资源效率,稳定性衡量工程质量,用户满意度衡量真实体验,通过综合评分模型实现技能迭代、预警与淘汰。
