当前位置：首页 > news >正文

【LLM推理优化与部署工程⑧】模型部署了，但没人知道它在干什么——出事了你都不知道

news 2026/5/2 16:54:12

某公司部署了一个AI客服，运行了三周，看起来一切正常。直到有一天，客户投诉到了总经理那里——AI在过去两周里，一直在告诉用户一个错误的退款政策，金额说错了，时间说错了，几百个用户受影响。

技术团队翻日志，发现日志里只有这样的记录：

2024-03-01 09:23:11 - POST /chat - 200 OK - 1.2s 2024-03-01 09:23:45 - POST /chat - 200 OK - 0.9s

状态码200，响应时间正常，一切看起来很健康。

但AI说了什么、说得对不对，没有任何记录。

这是AI项目里最常见、最危险的盲区：你知道服务在运行，但不知道它在说什么、说得对不对、用户是否满意。

传统后端监控和AI监控的本质差异

传统API的监控很直接：状态码200就是成功，500就是失败，延迟超过阈值就告警。对错是确定性的。

AI系统的问题在于：200 OK不代表回答是对的。

模型可以在0.8秒内信心满满地给出一个完全错误的答案，HTTP层面看起来完美无缺。

# 传统API：对错是确定性的defget_user_balance(user_id:str)->dict:balance=db.query(user_id)# 要么查到，要么报错return{"balance":balance}# 结果是确定的# AI接口：对错是概率性的，你不知道它在说什么defai_answer_question(question:str)->dict:response=llm.generate(question)return{"answer":response}# HTTP 200，但answer对不对？不知道

这意味着AI项目的监控需要额外多做一件事：监控输出的内容质量，不只是监控系统的运行状态。

AI监控需要关注的四个层次

层次四：业务效果 用户有没有真正被帮到？问题有没有解决？ 指标：任务完成率、用户满意度、用户是否重复问同一个问题 难点：需要追踪用户行为，不只是单次对话 层次三：输出质量 AI说的内容对不对？有没有幻觉？有没有风险内容？ 指标：事实准确率、有害内容率、拒绝率是否异常 难点：需要LLM-as-Judge或规则检测，成本较高 层次二：用户体验 用户满不满意这次交互？ 指标：点赞/踩率、对话轮次（多轮可能说明没解决问题）、退出时机 难点：需要前端埋点 层次一：系统运行 服务有没有在跑？速度正常吗？花了多少钱？ 指标：TTFT、总延迟、错误率、Token消耗量、成本 难点：相对容易，传统监控工具大多能做

大多数团队只做了层次一，最多到层次二。层次三和四，做的人极少——但恰恰是这两层，能发现那个"三周内一直说错退款政策"的问题。

层次一：系统监控，五分钟搭起来

先把最基础的系统监控做好，这是一切的前提。

importtimeimportfunctoolsimportloggingfromdataclassesimportdataclass,fieldfromtypingimportOptional,Callable,Anyfromdatetimeimportdatetime logger=logging.getLogger(__name__)@dataclassclassLLMCallRecord:"""一次LLM调用的完整记录"""call_id:strtimestamp:strmodel:str# 输入prompt_tokens:intprompt_preview:str# 前100个字符，用于排查问题# 输出completion_tokens:intresponse_preview:str# 前100个字符# 性能ttft_ms:Optional[float]# 首token延迟total_latency_ms:float# 总延迟# 成本（根据你用的模型换算）cost_usd:float# 状态success:boolerror:Optional[str]=None# 业务信息user_id:Optional[str]=Nonesession_id:Optional[str]=Nonefeature_name:Optional[str]=None# 哪个功能调用的（客服/摘要/分类）deftrack_llm_call(model_name:str,feature_name:str,price_per_1k_input:float=0.001,# 根据实际模型价格填price_per_1k_output:float=0.002,):""" 装饰器：自动记录LLM调用的各项指标 用法：在你的LLM调用函数上加这个装饰器 """defdecorator(func:Callable)->Callable:@functools.wraps(func)asyncdefwrapper(*args,user_id=None,session_id=None,**kwargs):importuuid call_id=str(uuid.uuid4())[:8]start_time=time.perf_counter()record=LLMCallRecord(call_id=call_id,timestamp=datetime.now().isoformat(),model=model_name,prompt_tokens=0,prompt_preview="",completion_tokens=0,response_preview="",ttft_ms=None,total_latency_ms=0,cost_usd=0,success=False,user_id=user_id,session_id=session_id,feature_name=feature_name,)try:result=awaitfunc(*args,**kwargs)# 从结果里提取指标（根据你用的SDK调整）record.prompt_tokens=result.usage.prompt_tokens record.completion_tokens=result.usage.completion_tokens record.response_preview=result.choices[0].message.content[:100]record.total_latency_ms=(time.perf_counter()-start_time)*1000record.cost_usd=(record.prompt_tokens/1000*price_per_1k_input