故障分级标准(Incident Severity)P级别 / SEV级别介绍(P0 / SEV1)
文章目录
- 一文讲透故障分级标准(P0 / SEV1 等)
- 一、为什么需要分级?
- 二、两种主流命名体系
- 1️⃣ 国内常见:P0 / P1 / P2
- 2️⃣ 国外常见:SEV1 / SEV2 / SEV3
- 3️⃣ 本质区别
- 三、标准分级模型(推荐实践)
- ✅ 四级模型(推荐)
- ✅ 判断维度(关键)
- 1️⃣ 影响范围(Impact Scope)
- 2️⃣ 功能重要性(Criticality)
- 3️⃣ 可恢复性(Recoverability)
- 4️⃣ 业务影响(Business Impact)
- 四、分级不只是“标签”,而是行动指南
- 🔥 SEV1(P0)响应标准
- ⚠️ SEV2(P1)
- ℹ️ SEV3(P2)
- 💤 SEV4
- 五、常见误区
- ❌ 误区1:分级靠感觉
- ❌ 误区2:所有问题都报 P0
- ❌ 误区3:分级不影响行为
- 六、进阶:分级 + SLA / SLO
- 七、最佳实践总结
- 八、结语
一文讲透故障分级标准(P0 / SEV1 等)
在现代互联网系统中,故障不可避免。真正决定团队成熟度的,不是“有没有故障”,而是:
出现故障时,是否能快速、统一、理性地响应。
而这一切的基础,就是——故障分级标准(Incident Severity)。
一、为什么需要分级?
想象一个场景:
- 用户无法登录(核心功能挂了)
- 某个统计图加载慢
- 内部某个后台接口报错
如果这些问题都被“同等对待”,结果就是:
- 团队疲于奔命(所有问题都当紧急问题处理)
- 或者严重问题被忽视(没有优先级)
分级的核心目的:
- 统一认知(大家对严重性的理解一致)
- 指导响应策略(是否需要拉群、是否需要值班响应)
- 资源分配(谁先修、谁后修)
- 对外沟通(是否需要公告用户)
二、两种主流命名体系
目前业界常见两种命名方式:
1️⃣ 国内常见:P0 / P1 / P2
| 级别 | 含义 |
|---|---|
| P0 | 最严重,系统不可用 |
| P1 | 严重问题,核心功能受影响 |
| P2 | 一般问题,部分功能异常 |
2️⃣ 国外常见:SEV1 / SEV2 / SEV3
| 级别 | 含义 |
|---|---|
| SEV1 | Critical(致命) |
| SEV2 | Major(严重) |
| SEV3 | Minor(一般) |
3️⃣ 本质区别
其实没有本质区别,只是:
- P0 = SEV1
- P1 = SEV2
- P2 = SEV3
👉 只是命名习惯不同:
- 国内更偏“优先级(Priority)”
- 国外更偏“严重性(Severity)”
三、标准分级模型(推荐实践)
一个成熟团队通常会定义4级或5级分级体系:
✅ 四级模型(推荐)
| 等级 | 说明 | 示例 |
|---|---|---|
| SEV1 | 全站不可用 / 核心系统宕机 | 登录挂了、支付失败 |
| SEV2 | 核心功能受损 | 下单失败、接口大量错误 |
| SEV3 | 部分功能异常 | 推荐系统错误、部分接口慢 |
| SEV4 | 轻微问题 | UI错位、日志错误 |
✅ 判断维度(关键)
分级不是拍脑袋,而是基于几个核心维度:
1️⃣ 影响范围(Impact Scope)
- 全量用户
- 部分用户
- 单个用户
2️⃣ 功能重要性(Criticality)
- 核心路径(登录 / 支付 / 下单)
- 非核心功能(推荐 / 统计)
3️⃣ 可恢复性(Recoverability)
- 是否有降级方案
- 是否可手动恢复
4️⃣ 业务影响(Business Impact)
- 是否直接影响收入
- 是否影响品牌/用户信任
四、分级不只是“标签”,而是行动指南
一个好的分级体系,必须绑定响应机制。
🔥 SEV1(P0)响应标准
- 🚨 立即拉全员群(War Room)
- ⏱ 7x24 响应
- 👨💻 多团队协作(后端 / 运维 / SRE)
- 📢 对外公告(必要时)
- 📄 必须复盘(Postmortem)
⚠️ SEV2(P1)
- ⏱ 高优先级处理(通常1小时内响应)
- 👨💻 指定负责人
- 📄 需要复盘(可简化)
ℹ️ SEV3(P2)
- 📅 排期修复
- 🧾 记录问题
- 📊 纳入质量统计
💤 SEV4
- 🛠 backlog
- 🧹 顺手修
五、常见误区
❌ 误区1:分级靠感觉
“我觉得这个挺严重的”
👉 解决:必须制度化标准
❌ 误区2:所有问题都报 P0
结果:
- 团队疲劳
- 真正 P0 被忽视
👉 解决:严格定义 + review机制
❌ 误区3:分级不影响行为
如果:
- SEV1 和 SEV3 响应一样
那分级就没有意义。
六、进阶:分级 + SLA / SLO
成熟团队会把分级和SLA / SLO绑定:
| 等级 | 响应时间 | 修复时间 |
|---|---|---|
| SEV1 | 5分钟内 | 尽快恢复 |
| SEV2 | 30分钟内 | 数小时 |
| SEV3 | 24小时内 | 几天 |
| SEV4 | 无要求 | 排期 |
七、最佳实践总结
一个“好用”的分级体系应该具备:
✅ 简单清晰(不超过5级)
✅ 可量化(有判断标准)
✅ 可执行(绑定响应机制)
✅ 可复盘(持续优化)
八、结语
故障分级的本质,不是“给问题贴标签”,而是:
在混乱中建立秩序,在压力中做出正确决策。
当你的团队做到:
- 不争论严重性
- 自动触发响应流程
- 快速恢复系统
说明你的分级体系已经真正落地了。
