Pytorch图像去噪实战(六十七):服务监控实战,记录QPS、耗时、错误率和模型调用次数
Pytorch图像去噪实战(六十七):服务监控实战,记录QPS、耗时、错误率和模型调用次数
一、问题场景:服务上线后,只知道能访问,不知道跑得好不好
图像去噪服务上线后,最怕的是“黑盒运行”。
用户说慢,你不知道慢在哪。
用户说失败,你不知道失败率多少。
GPU占满了,你不知道是哪类请求导致的。
所以服务必须有监控。
至少要知道:
- 请求量
- 平均耗时
- 最大耗时
- 错误次数
- 模型调用次数
- 图片尺寸分布
- 不同模型耗时
- 当前服务是否健康
二、本文实现目标
我们先实现一个轻量级监控方案,不引入 Prometheus。
记录:
total_requests success_requests failed_requests avg_latency model_call_count并提供接口:
GET /metrics三、工程目录结构
m