Pytorch图像去噪实战(七十一):Prometheus + Grafana监控GPU去噪服务,构建可视化运维看板
Pytorch图像去噪实战(七十一):Prometheus + Grafana监控GPU去噪服务,构建可视化运维看板
一、问题场景:服务上线了,但GPU到底有没有被用起来?
图像去噪服务上线后,最常见的尴尬是:
接口能访问,但不知道服务到底跑得健不健康。
尤其是 GPU 推理服务,问题更复杂:
- GPU 利用率是否正常
- 显存是否持续上涨
- 请求耗时是否变慢
- 错误率是否升高
- 哪个模型调用最多
- 是否出现长尾慢请求
- GPU 是否空闲但接口仍然慢
如果没有监控,排查问题只能靠猜。
所以这一篇我们搭建一套基础监控体系:
FastAPI 指标暴露 Prometheus 采集 Grafana 可视化二、整体架构
FastAPI Denoise Service | | /metrics v Prometheus | v Grafana Dashboard如果是
