当前位置: 首页 > news >正文

[AI] 日志与监控:用 Prometheus + Grafana 监控本地 LLM 指标

目标:为本地/私有化 LLM 部署建立可观测性,覆盖指标采集、日志结构化、可视化面板与报警实践,适用于 vLLM/TGI/llama.cpp 等。

1. 监控范围

  • 性能:TTFT、p50/p95/p99 延迟、tokens/s、QPS、并发数。
  • 资源:GPU 显存/利用率、CPU、内存、磁盘 I/O、网络。
  • 质量:错误率、超时、重试、拒答率、敏感词命中。
  • 成本:tokens 消耗、缓存命中率。

2. 指标采集

  • vLLM/TGI:自带 Prometheus 端点(如:8000/metrics),包含请求延迟、tokens、显存。
  • llama.cpp:可通过--metrics或 exporter(如 telegraf + exec)采集;
  • GPU:nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv
  • 自定义:在网关/业务层增加请求计数、错误率、命中缓存等指标。

3. 日志

http://www.jsqmd.com/news/280873/

相关文章:

  • AppFlowy Cloud私有化部署完整指南:构建企业级知识协作平台
  • 终极Windows安全分析:5步快速排查系统深层威胁
  • 猫抓扩展终极使用教程:3分钟掌握资源嗅探技巧
  • OpCore Simplify:告别复杂配置,三分钟打造完美黑苹果
  • 猫抓Cat-Catch终极手册:浏览器媒体资源嗅探技术深度解析
  • [AI] 模型推理成本优化:批处理、动态批次与缓存复用实战
  • IQuest-Coder-V1镜像部署实测:启动时间与资源消耗数据
  • Win11Debloat终极指南:快速清理Windows系统臃肿软件
  • 如何快速掌握EmojiOne Color彩色表情字体:面向新手的完整使用教程
  • Windows 11终极优化指南:Win11Debloat完全解决方案
  • 联想拯救者BIOS隐藏设置完全解锁指南:性能提升终极方案
  • 终极字幕同步指南:3步搞定音频自动对齐
  • OpCore Simplify终极指南:从零开始构建完美Hackintosh配置
  • 单模型多任务新范式:Qwen In-Context Learning实战
  • BongoCat桌面猫咪伴侣:跨平台安装与个性化设置完全指南
  • BongoCat完全手册:打造智能桌面互动伴侣的技术解析与实战指南
  • 医疗数据用SMOTE过采样稳少数类
  • 从文本到语音的飞跃|Supertonic极速TTS落地实践
  • bthci.dll文件丢失找不到 免费下载方法分享
  • Tabby终端体验升级:从视觉疲劳到操作流畅的全方位进化
  • OpCore-Simplify终极指南:从新手到专家的完整OpenCore配置路径
  • 猫抓浏览器扩展:高效获取网页媒体资源的终极方案
  • Qwen3-Embedding-4B调用报错?API接口调试教程
  • OpCore-Simplify:零基础打造完美Hackintosh系统的智能配置神器
  • RTL8812AU驱动性能调优:从基础安装到高级监控模式实战
  • 自主软件工程突破:IQuest-Coder-V1代码流范式实战解析
  • 猫抓Cat-Catch完全指南:5步掌握网页媒体资源嗅探核心技术
  • Akagi智能麻将助手:开启你的麻将AI学习之旅
  • GPEN截图上传功能优化:Base64编码传输效率提升
  • IDM试用期永久锁定技术深度解析与实战指南