当前位置: 首页 > news >正文

SRE 应用稳定性看板-从应用维度监控服务健康状态,基于 Apdex 评分体系

# SRE 应用稳定性看板> 从应用维度监控服务健康状态,基于 Apdex 评分体系---## 一、应用监控维度### 1.1 系统层:资源使用率#### EC2 指标| 指标 | 说明 |
|------|------|
| CPU 利用率 | 处理器使用百分比 |
| MEM 利用率 | 内存使用百分比 |
| 磁盘利用率 | 存储使用百分比 |
| IO 利用率 | 磁盘 IO 使用率 |
| TCP 连接利用率 | 网络连接数 |
| OOM 次数 | 内存溢出次数 |#### K8S 指标| 指标 | 说明 |
|------|------|
| POD CPU 利用率 | 容器 CPU 使用率 |
| POD MEM 利用率 | 容器内存使用率 |
| POD PVC 利用率 | 持久卷使用率 |
| POD 异常重启次数 | 容器重启计数 |### 1.2 应用服务层#### JVM 指标| 指标 | 说明 |
|------|------|
| JVM CPU 利用率 | Java 进程 CPU |
| JVM 内存利用率 | 堆内存使用率 |
| JVM GC Count | GC 次数 |
| JVM GC Time | GC 耗时 |
| JVM Thread Count | 线程数 |#### 进程状态| 指标 | 说明 |
|------|------|
| 进程存活状态 | 进程是否运行 |### 1.3 应用运行层#### 吞吐量| 指标 | 说明 |
|------|------|
| QPS/TPS | 每秒请求/事务数 |#### 时延| 指标 | 说明 |
|------|------|
| 接口平均响应时间 | 平均延迟 |
| P99/P95/P90 响应延时 | 分位数延迟 |#### Error| 指标 | 说明 |
|------|------|
| 接口请求成功率 | 成功请求占比 |
| 5XX 次数 | 服务端错误数 |---## 二、服务评分:Service Apdex### 2.1 概述**Service Apdex**(综合计算指标)用于衡量服务整体健康状态。| 资源 | 说明 |
|------|------|
| **代码仓地址** | https://github.com/LiquidityTech/devops-infra-deploy-manifests/tree/main/devops-service/service-apdex |
| **Apdex 评分看板** | https://grafana.example.com/d/4d92cd2d-013d-4096-ae5e-954715d5c87a/sre-total-health-dashboard |

### 2.2 评分规则 - JAVA EC2 部署类型```python
ec2_java_service_apdex_rules = [{"index_name": "system_cpu_utilization", "limit_value": 0.95},{"index_name": "system_mem_utilization", "limit_value": 0.95},{"index_name": "system_disk_utilization", "limit_value": 0.90},{"index_name": "system_disk_io_utilization", "limit_value": 0.90},{"index_name": "system_tcp_utilization", "limit_value": 0.90},{"index_name": "system_oom_frequency_utilization", "limit_value": 1.0},{"index_name": "jvm_surviving_instance", "limit_value": 0},  # 存活实例必须等于服务实例数{"index_name": "jvm_heap_mem_utilization", "limit_value": 0.90},{"index_name": "request_success_rate", "limit_value": 0.99},  # 请求成功率若小于99%,则该项指标进行扣分{"index_name": "request_5xx_count_10_min", "limit_value": 50.0}
]
```### 2.3 评分规则 - JAVA K8S 部署类型```python
k8s_java_service_apdex_rules = [{"index_name": "pod_system_cpu_utilization", "limit_value": 0.95},{"index_name": "pod_system_mem_utilization", "limit_value": 0.95},{"index_name": "pod_abnormal_restart_count", "limit_value": 1.0},{"index_name": "pod_jvm_heap_mem_utilization", "limit_value": 0.90},{"index_name": "pod_request_success_rate", "limit_value": 0.99},  # 请求成功率若小于99%,则该项指标进行扣分{"index_name": "pod_request_5xx_count_10_min", "limit_value": 50.0}
]
```### 2.4 评分规则 - C++ EC2 部署类型```python
ec2_cpp_service_apdex_rules = [{"index_name": "system_cpu_utilization", "limit_value": 0.95},{"index_name": "system_mem_utilization", "limit_value": 0.95},{"index_name": "system_disk_utilization", "limit_value": 0.90},{"index_name": "system_disk_io_utilization", "limit_value": 0.90},{"index_name": "system_tcp_utilization", "limit_value": 0.90},{"index_name": "system_oom_frequency_utilization", "limit_value": 1.0},{"index_name": "process_surviving_instance", "limit_value": 0}  # 存活实例必须等于服务实例数
]
```---## 三、一期服务列表### 3.1 OMS 服务| 服务名 | 部署方式 |
|--------|----------|
| pb-trading-gateway | EC2 |
| pb-trading-engine | EC2 |
| pb-trading-dump | EC2 |
| pb-trading-market | EC2 |
| pb-trading-push | EC2 |
| pb-trading-monitor | EC2 |
| pb-trading-statistics | EC2 |
| pb-trading-query | EC2 |
| pb-trading-transfer | EC2 |
| rapidx-trading-query-realtime | EC2 |
| rapidx-trading-clearing | EC2 |
| rapidx-trading-market-gateway | EC2 |
| rapidx-trading-algo-server | EC2 |
| rapidx-trading-query-persistent | EC2 |
| rapidx-trading-onezero-maker | EC2 |
| ltp-exchange-data-server | EC2 |### 3.2 其他服务| 服务类别 | 服务名 |
|---------|--------|
| **Bitu** | bitu-trade |
| **EMS** | rapidtrade-server, rapidtrade-order, rapidtrade-quote, rapidtrade-stp, rapidtrade-data-push, Rapidtrade-storage |
| **Rapidmarket** | rapidmarket |
| **MDS** | connect-server, query-server, quote-server, connex-connect-server, connex-quote-server, open-api-connect-server, open-api-quote-server, mds-engine |
| **K8S** | ltp-user-project, am-client-service |---

 

http://www.jsqmd.com/news/412579/

相关文章:

  • 大数据领域数据中台的质量评估方法
  • 使用 Terraform + Terragrunt 管理 AWS 基础设施项目说明
  • **4皇后问题回溯搜索过程**的图文解析、关键函数说明及核心考点总结,结构清晰、逻辑准确
  • 系统思考:自由职业背后的悖论
  • Sora2 免费去水印网站
  • **回溯法在两个经典问题(0-1背包、n皇后)中的应用**的清晰解读,涵盖了搜索树结构、剪枝策略、可行解识别与核心约束条件
  • Learning on the Manifold: Unlocking Standard Diffusion Transformers withRepresentation Encoders
  • **分支限界法(结合回溯思想)求解0-1背包问题**的核心流程与结果
  • 20260225 之所思 - 人生如梦
  • build_fsd_luyan_from_rm——注释
  • 回溯法的两种实现方式(迭代与递归)本质上都是对解空间树进行深度优先搜索(DFS),区别在于控制搜索过程的机制不同
  • WPF implement DelCommand inherited from ICommand from scratch
  • **0-1 背包问题的分支限界法(Branch and Bound)求解框架**,核心融合了**贪心松弛上界估计**与**精确剪枝策略**
  • N9e配置电话告警,实现故障的电话(语音)通知
  • Grafana + Loki 使用说明
  • windows上子系统WSL下载和使用
  • linux系统 Qt 通常的目录结构
  • 算法备案分类详细及合规要点整理(2026年更新版)
  • MySQL数据库从win导出成_db.sql复制到linux
  • EC2 使用 dnsmasq 本地缓存 + EKS 使用 NodeLocalDNS
  • 基于 Kubernetes + Helm 部署高可用 ETCD 集群
  • OS 核心知识点全解析(一)
  • Redis 迁移方案-RedisShake
  • qml可拖动折线图
  • 【linuxqt】qsql_mysql.cpp:57:10: fatal error: QtSql/private/qsqldriver_p.h: No such file or directory
  • 我草我怎么这么牛
  • 基于 AWS Global Accelerator 实现全球低延迟访问-RapidX 全球加速方案
  • day96(2.25)——leetcode面试经典150
  • 【Linux】进程的页表详解
  • YOLO26最新创新改进系列:主干网络全新设计——EfficientNetV2-BackBone ,引入渐进式学习策略、自适应正则强度调整机制,共同优化训练速度和参数效率,全方位提升模型检测性能!!