当前位置：首页 > news >正文

【AI面试临阵磨枪-54】如何监控 AI 系统：成功率、延迟、Token 消耗、幻觉率、调用量

news 2026/5/12 20:36:23

一、面试题目

面试官提问：“在大规模 Agent 系统中，你是如何建立监控体系的？请针对成功率、延迟、Token 消耗、幻觉率、调用量这五个核心指标，详细谈谈你的采集、分析与预警方案。”

二、知识储备

1. 核心背景：AI 监控的“三层模型”

基础层（Infra）：传统的 API 状态码、请求延迟（QPS/RT）。
成本层（Economic）：Token 消耗量、模型费用分布、缓存命中率。
内容层（Semantic）：幻觉检测、语义准确度、用户负反馈率。

2. 五大指标深度拆解

指标	监控方案 (How to Monitor)	核心价值 (Value)
成功率 (Success Rate)	非 200 状态码 + 语义解析错误。不仅看 HTTP 状态，还要看 JSON 校验是否失败。	衡量系统的稳定性。
延迟 (Latency)	TTFT (首字延迟)与TPOT (单 Token 推理延迟)。流式输出场景下，首字响应比总耗时更重要。	直接影响用户体验的流畅度。
Token 消耗	实时计费上报。按模型、按用户、按功能模块进行维度聚合分析。	成本预警，防止恶意刷量或代码死循环。
幻觉率 (Hallucination)	LLM-as-a-judge (RAGAS/G-Eval)。采样部分回复，通过更高阶的模型比对事实一致性。	监控内容的“智商”和可靠性。
调用量 (Throughput)	分时段分片统计。监控突发流量（Spike）和持续负载。	为弹性扩容提供决策依据。

三、破局之道

在回答完技术实现后，通过这段话展现你对“可观测性工程”的深度思考：

“监控 AI 系统，核心要理解我们是在‘监控一段黑盒逻辑的确定性’。

你可以告诉面试官：

成功率和延迟是‘生存指标’，我们要通过分布式链路追踪 (Tracing)找到哪一步 Skill 调用变慢了；
Token 消耗是‘生命指标’，必须建立Quota（配额）熔断机制；
幻觉率是‘灵魂指标’，它不能靠肉眼看，必须构建自动化评估流水线。

在工程实践中，我会将监控逻辑沉淀在Harness 的可观测性层或是Sidecar 代理中。一个优秀的架构师不应只看结果，而应构建‘全链路感知力’。只有当系统不仅能报‘死没死’，还能报‘聪不聪明’和‘值不值钱’时，AI 应用才真正具备了进入金融、政务等严苛业务场景的资格。”

四、代码实现

我们用两种语言演示如何实现一个简单的“AI 监控中间件”。

1. Python 实现：利用 Prometheus 记录 Token 与成功率

from prometheus_client import Counter, Summary, start_http_server import time # 定义指标 TOKEN_USAGE = Counter('llm_token_total', 'Total Tokens Consumed', ['model_name']) LATENCY = Summary('llm_latency_seconds', 'Time spent processing request') SUCCESS_COUNT = Counter('llm_request_success', 'Successful LLM calls') def monitored_llm_call(prompt): start_time = time.time() try: response = llm.generate(prompt) # 模拟调用 # 记录 Token 消耗 (假设响应里带了 usage) TOKEN_USAGE.labels(model_name="gpt-4").inc(response['usage']['total_tokens']) SUCCESS_COUNT.inc() return response finally: LATENCY.observe(time.time() - start_time) # 启动监控服务 # start_http_server(8000)

2. JavaScript (Node.js) 实现：语义化的 Trace 与错误拦截

/** * 带有全链路监控的 Agent 调用层 */ async function traceAgentExecution(task) { const traceId = generateId(); const startTime = Date.now(); try { const result = await agent.run(task); // 监控上报：逻辑成功率与耗时 telemetry.send({ traceId, status: 'success', latency: Date.now() - startTime, inputTokens: result.usage.prompt_tokens, outputTokens: result.usage.completion_tokens, isHallucination: await checkHallucination(result) // 采样检查 }); return result; } catch (err) { // 捕获异常：记录错误类型（API错误、逻辑错误、权限错误） telemetry.send({ traceId, status: 'fail', errorType: err.code || 'UNKNOWN', errorMessage: err.message }); throw err; } }

面试加分建议：

提到“负反馈环（Feedback Loop）”。监控不仅仅是为了报警，更是为了优化。你可以说：我会将用户点击“踩”或者重新生成的行为标记为负反馈信号，并将其与当时的 Trace ID 关联，作为下一轮Evaluation Harness的测试用例。这体现了你对 AI 产品持续进化的理解。

查看全文

http://www.jsqmd.com/news/804404/