当前位置：首页 > news >正文

Google SRE实战：如何通过SLI、SLO与Error Budget构建高可用服务

news 2026/3/26 18:36:31

1. 从“感觉还行”到“量化承诺”：为什么你需要SLI、SLO和Error Budget？

做技术久了，尤其是负责线上服务，最怕听到老板或者业务方问：“咱们的系统最近稳不稳？” 你心里可能盘算着：“好像还行，最近没出什么大事故。” 但这种“感觉”在真正的业务决策面前，苍白无力。你说稳，那到底有多稳？是99.9%还是99.99%？你说不稳，那具体是哪个环节不稳？是API响应慢了，还是支付成功率下降了？这种模糊的沟通，不仅让技术团队的努力难以被看见，更可怕的是，它让技术债务和风险在黑暗中不断累积，直到某天突然爆发。

这就是Google SRE（站点可靠性工程）这套方法论要解决的核心问题：把服务的“稳定性”这个模糊概念，变成一套可测量、可沟通、可管理的量化体系。而SLI、SLO和Error Budget，就是这套体系里最核心的三个齿轮。我经历过从拍脑袋做运维到引入这套体系的完整过程，实话实说，初期会觉得有点“麻烦”，要定义指标、要设置目标、还要算“预算”。但一旦跑起来，你会发现整个团队的协作方式都变了——从被动救火，转向主动规划。

简单来说，你可以把它们理解为一个递进关系：

SLI（服务等级指标）：这是测量工具。就像你要监控身体健康，得先有体温计、血压仪。对于服务，就是请求延迟、错误率、吞吐量这些具体的数字。
SLO（服务等级目标）：这是健康标准。你知道了体温是36.5度，但多少度算发烧？37.3度。SLO就是给SLI定的那个“健康线”，比如“API的99%请求延迟必须低于200毫秒”。
Error Budget（错误预算）：这是风险缓冲和行动指南。假设你允许自己一个月有半天（0.14%）的“不舒服”时间。这个月感冒用了0.1%，那剩下的0.04%就是你做“有风险事情”（比如尝试新药、做剧烈运动）的预算。对应到服务，就是允许的不可用时间或错误数量。

没有这套体系，技术团队容易陷入两个极端：要么为了追求“五个九”（99.999%）的极致可用性，投入巨大成本却对业务增长帮助有限；要么对一些小毛病变得不敏感，直到量变引起质变。而有了它，我们就能在“用户体验”、“研发效率”和“运维成本”之间，找到一个科学的、大家都认可的平衡点。接下来，我们就拆开揉碎了，看看怎么把这套东西用起来。

2. 找到真正的“脉搏”：如何定义和测量你的SLI？

定义SLI是整个体系的基石，如果指标选错了，后面的一切都是空中楼阁。我踩过的第一个坑就是：一开始列了十几个指标，从CPU使用率到内存占用，觉得监控得越全面越好。结果呢？每天看一堆图表，根本不知道哪个真正代表了用户感受到的服务质量。后来才明白，SLI的核心原则是：它必须直接反映最终用户的体验。

2.1 选择哪些SLI？从关键用户旅程（CUJ）出发

别从技术监控列表里选指标，要从用户的视角倒推。这就是关键用户旅程（Critical User Journey, CUJ）的概念。想象一个用户在你的App上完成一次核心操作的全过程。比如，对于一个电商应用，一个核心CUJ就是“用户成功下单支付”。把这个旅程拆解：

用户点击“立即购买”。
页面跳转到订单确认页（依赖商品服务、库存服务）。
用户点击“支付”，调用支付接口。
支付成功后，返回成功页面，并生成订单（依赖支付服务、订单服务）。

那么，针对这个CUJ，我们应该关注哪些SLI呢？通常有四类黄金指标，它们放之四海而皆准：

延迟（Latency）：用户操作需要等多久？这里要小心，平均值（Average）往往具有欺骗性。一个99%的请求都在100毫秒内，但1%的请求要10秒，平均值可能看起来还行，但那1%的用户体验是灾难性的。所以，我们更关注尾部延迟，比如P99（99%的请求快于某个值）或P95。例如：“订单确认页加载的P95延迟小于2秒”。
流量（Traffic）：有多少人在用？这通常用每秒请求数（QPS/RPS）或并发连接数来衡量。它帮助你理解服务的负载，是容量规划的基础。
错误率（Errors）：有多少请求失败了？注意，失败不只是HTTP 5xx。对于“成功下单”这个CUJ，如果库存不足导致无法购买（可能返回200但业务状态码是“缺货”），对用户而言就是一次失败。因此，错误率需要结合业务逻辑来定义。例如：“从点击‘立即购买’到进入订单页的成功率”。
饱和度（Saturation）：服务有多“满”？这指的是系统关键资源的利用率，如CPU、内存、磁盘I/O、网络带宽。当饱和度接近100%，延迟和错误率通常会急剧上升。例如：“数据库连接池使用率低于80%”。

对于大多数面向用户的服务，延迟和错误率的组合是最能体现用户体验的SLI。我的建议是，初期不要贪多，从一个最核心的CUJ入手，定义1-3个最关键的SLI，把它做透。

2.2 如何实现SLI的测量？从日志和监控系统入手

定义了SLI，下一步就是把它测出来。这里需要工程化。通常有两种数据来源：

客户端埋点（最真实）：在App或Web前端埋点，直接测量从用户操作到收到响应的完整时间。这是最贴近用户体验的数据，但实施成本较高，且可能受用户网络环境影响。
服务端监控（最常用）：在服务入口（如API Gateway、负载均衡器）或关键服务处，通过访问日志或监控Agent来收集数据。这是目前最主流的方式。

以最常用的HTTP服务为例，假设我们使用Nginx作为入口，我们可以这样操作：

首先，确保Nginx的日志格式包含了请求时间和上游响应时间：

log_format sre '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" "$http_user_agent" ' 'request_time=$request_time upstream_response_time=$upstream_response_time'; access_log /var/log/nginx/access.log sre;

这里$request_time是请求总耗时，$upstream_response_time是后端应用的处理时间。

然后，使用日志收集工具（如Fluentd、Filebeat）将日志发送到时序数据库（如Prometheus）或日志分析平台（如ELK Stack）。在Prometheus中，我们可以利用这些数据定义指标。例如，使用Prometheus的histogram指标类型来统计延迟分布非常方便。

下面是一个简单的示例，展示如何在应用代码中（以Go为例）暴露一个用于监控延迟的Histogram指标：

import ( "github.com/prometheus/client_golang/prometheus" "github.com/prometheus/client_golang/prometheus/promhttp" "net/http" "time" ) var ( httpRequestDuration = prometheus.NewHistogramVec( prometheus.HistogramOpts{ Name: "http_request_duration_seconds", Help: "Duration of HTTP requests.", Buckets: prometheus.DefBuckets, // 默认的桶分布，适合秒级延迟 }, []string{"path", "method", "status"}, // 按路径、方法、状态码标签区分 ) ) func init() { prometheus.MustRegister(httpRequestDuration) } func yourHandler(w http.ResponseWriter, r *http.Request) { start := time.Now() // ... 处理你的业务逻辑 ... duration := time.Since(start).Seconds() httpRequestDuration.WithLabelValues(r.URL.Path, r.Method, "200").Observe(duration) // ... 返回响应 ... } // 暴露/metrics端点给Prometheus抓取 http.Handle("/metrics", promhttp.Handler())

这样，Prometheus就能抓取到详细的延迟分布数据。接下来，我们就可以基于这个数据来计算SLO了。

3. 设定合理的“及格线”：如何制定切实可行的SLO？

有了SLI这个体温计，SLO就是判断发烧与否的37.3度线。定SLO是个技术活，更是沟通艺术。定得太松（比如可用性99%），团队没有压力，服务质量上不去；定得太紧（比如可用性99.999%），为了达到目标，团队可能不敢做任何变更，创新停滞，运维成本飙升。我见过最糟糕的情况是，SLO由运维团队闭门造车定出来，然后强推给研发，结果双方互相扯皮。

3.1 SLO的构成：目标、窗口与表达式

一个完整的SLO描述通常包含三个部分：

SLI：我们测量什么。
目标值：我们希望它达到什么水平。
时间窗口：在多长时间内评估这个目标。

它的通用表达式是：SLI [操作符] 目标值，在 [时间窗口] 内。

例如：“API请求的P99延迟 <= 300ms，在滚动30天窗口内。” 再如：“登录请求的成功率 >= 99.9%，在每个日历月内。”

这里的时间窗口有两种常见选择：

滚动窗口：例如“过去30天”。它总是评估最近一段连续的时间，能更灵敏地反映近期状态。
日历窗口：例如“本月”、“本季度”。它和业务、财务周期对齐，便于汇报和结算。

我个人的经验是，对内监控和持续改进，用滚动窗口（如28天或30天）更合适；对外承诺（如果涉及SLA），则用日历窗口更清晰。

3.2 基于请求 vs. 基于窗口：两种SLO类型

这是理解SLO计算的一个关键点，原始文章提到了，但我想用更实际的例子解释一下。

基于请求的SLO（Request-based）：这是最常见、最直观的。它直接统计所有请求中，“好”的请求占的比例。
- 公式：（良好请求数 / 总请求数）>= 目标百分比
- 例子：“过去30天，95%的HTTP请求延迟低于200ms。” 这意味着，在这30天内的所有请求里，随机抽出一个请求，它有95%的概率是快于200ms的。它直接反映了用户请求的成功概率。
- 优点：易于理解，计算直接。
- 缺点：对短暂的、高强度的突发故障可能不敏感。比如，一分钟内100%的请求都失败，但当天其他时间都完美，从30天看，错误率可能仍然很低。
基于窗口的SLO（Window-based）：它先定义一个小的时间“桶”（比如1分钟、5分钟），判断这个“桶”是否达标，然后再看达标的“桶”占所有“桶”的比例。
- 公式：（达标的时间窗口数 / 总时间窗口数）>= 目标百分比
- 例子：“过去30天，99%的5分钟时间窗口内，错误率低于1%。” 这意味着，我们把30天切成无数个5分钟的小块，要求99%的小块里，错误率都低于1%。哪怕有一个5分钟全挂了，只要这样的“坏桶”不超过总桶数的1%，SLO就算达标。
- 优点：能有效防御短时、严重的故障，更强调服务的“持续稳定”能力。很多云服务商对“可用性”的定义就是基于窗口的（如一个月里，99.95%的时间可用）。
- 缺点：计算稍复杂，直观性稍差。

怎么选？对于延迟目标，我推荐用基于请求的SLO，因为用户关心的是自己的这次请求快不快。对于可用性（错误率）目标，可以考虑用基于窗口的SLO，因为它能防止“用长时间的正常来掩盖短时间的完全不可用”，这对用户体验至关重要。在实际中，我们常常两者结合使用。

3.3 制定SLO的实战步骤

从业务目标开始：和产品、业务方坐下来聊。他们最不能忍受的是什么？是页面打不开，还是支付太慢？是搜索不出结果，还是图片加载不出来？把业务痛点翻译成技术指标。
分析历史数据：别猜，看数据。拉出过去3-6个月核心SLI的历史趋势图（P50， P90， P99，错误率）。看看现在的服务水平到底在什么位置。如果历史P99延迟是500ms，就别拍脑袋定个100ms的SLO，那会逼死团队。
设定初步目标：一个常用的方法是“在历史表现的基础上，设定一个略有挑战但可达的目标”。例如，过去3个月的成功率是99.7%，那么可以设定SLO为99.8%或99.85%。这既提供了改进方向，又不会不切实际。
考虑依赖关系：你的服务依赖数据库、缓存、其他微服务。你的SLO必须比你的上游依赖方（用户）的SLO更严格，同时比你的下游依赖方的SLO更宽松。例如，你的App要求99.9%可用，那么你提供的API服务可能就需要99.95%的SLO，因为你的不可用会导致App的不可用。
沟通与确认：将初步的SLO草案与所有相关方（研发、测试、运维、产品、业务）评审。确保大家理解其含义，并认可这是团队共同的目标，而不是运维团队的单方面考核。
持续迭代：SLO不是刻在石碑上的。随着业务发展、架构变化，每个季度或每半年应该回顾一次SLO，看是否需要调整。

注意：不要追求完美的SLO。初期，一个“大致正确”且被团队认可的SLO，远胜过一群“绝对精确”但无人问津的指标。先跑起来，在过程中校准。

4. 化目标为行动燃料：理解并运用Error Budget

这是SRE理念中最精妙、也最具革命性的一环。Error Budget（错误预算）把SLO从一个静态的“考核指标”，变成了一个动态的“管理工具”。它回答了：“当我们达到SLO时，我们‘赢得’了什么？当我们未达到时，我们‘失去’了什么？”

4.1 Error Budget到底是什么？怎么算？

概念很简单：Error Budget = 1 - SLO。

如果SLO是“可用性99.9%”，那么Error Budget就是0.1%。这0.1%就是系统在目标时间段内被允许“犯错”的额度。

我们把它量化一下：假设你的服务一个月（30天）内总共处理了1亿个请求，SLO是99.9%的成功率。

总请求数：100,000,000
目标成功数：100,000,000 * 99.9% = 99,900,000
Error Budget（允许的失败请求数）：100,000,000 - 99,900,000 =100,000 个请求。

或者从时间维度看，一个月30天 * 24小时 * 60分钟 = 43200分钟。

SLO 99.9%可用性意味着允许的不可用时间：43200分钟 * (1 - 99.9%) =43.2分钟。

这100,000个错误请求，或者43.2分钟的不可用时间，就是你这个月的“错误预算”。你可以把它想象成团队共同管理的一笔“风险存款”。

4.2 Error Budget的核心用途：平衡稳定性与创新

传统运维模式下，稳定性和新功能发布（变更）往往是矛盾的。运维团队倾向于“少动”，以保稳定；研发团队则需要快速迭代。Error Budget为这对矛盾提供了一个客观的决策框架。

它的使用逻辑是这样的：

预算充足时（绿色区域）：说明当前服务稳定性很好，有足够的“犯错”空间。这时，团队可以大胆地进行有风险的活动，比如：
- 发布包含较大改动的新版本。
- 做激进的数据迁移或架构重构。
- 尝试新的、未经验证的技术方案。
- 减少一部分冗余资源以节约成本（需谨慎）。这个阶段，研发效率被优先考虑。
预算紧张时（黄色预警）：错误预算消耗较快，所剩不多。这时，团队应该转入保守模式：
- 暂停或推迟高风险的上线。
- 只进行必要的、低风险的Bug修复和补丁发布。
- 集中精力排查和修复导致预算消耗的问题根因。
- 增加监控和告警的灵敏度。
预算耗尽时（红色警报）：SLO已被违反或即将违反。此时，整个团队的唯一焦点必须是恢复服务稳定性：
- 冻结所有变更发布。
- 启动事故应急响应。
- 全员投入止损和修复工作。
- 事后必须进行彻底的复盘（Post-mortem），分析预算为何耗尽，并制定行动计划。

这样一来，Error Budget就成了一个自动的调节阀。它用数据告诉团队，现在是应该踩油门创新，还是应该踩刹车保稳。决策不再依赖于某个人的主观判断或部门间的争吵，而是基于客观的、大家事先都同意的数据。

4.3 如何跟踪和可视化Error Budget？

你需要一个实时的“预算仪表盘”。通常的做法是，在监控系统（如Grafana）中创建一个面板。

计算剩余预算：
- 首先，根据你的SLO（比如99.9%）和当前时间窗口已发生的总请求数，计算出总的预算量（如上面计算的100,000个错误）。
- 然后，统计当前时间窗口内实际发生的错误请求数。
- 剩余预算 = 总预算量 - 实际错误数。
可视化：
- 用一个燃烧图（Burn-down Chart）来展示是最直观的。横轴是时间（当前滚动窗口），纵轴是错误预算的数量。
- 画一条从总预算量到0的“理想消耗线”（如果错误均匀发生）。再画一条“实际消耗线”，显示当前剩余预算。
- 设置清晰的区域：绿色（>70%预算）、黄色（30%-70%）、红色（<30%）。
- 同时，可以展示当前消耗速率，预测照此速度多久会耗尽预算。

当这个图表对全团队可见时，它就是一个强大的沟通工具。每周站会看一眼预算燃烧图，大家自然就知道当前的工作重心应该是什么。

5. 从理论到实战：一个完整的案例推演

让我们用一个虚构但非常贴近现实的例子——“User-Service”（用户服务），来串起整个流程。这个服务提供用户登录、查询基本信息等核心API。

第一步：确定CUJ和SLI

核心CUJ：用户使用账号密码成功登录App。
关键SLI：
1. 登录API请求成功率：(成功登录次数 / 总登录请求次数)。这里“成功”定义为HTTP状态码200且返回体包含有效的用户令牌。
2. 登录API延迟：从收到登录请求到返回响应的时间。我们关注P99延迟。

第二步：制定SLO

分析历史数据发现，过去3个月，该服务：
- 成功率在99.95%到99.98%之间波动。
- P99延迟在150ms到250ms之间波动。
与产品、研发团队讨论后，设定如下SLO（滚动28天窗口）：
- SLO-可用性：登录API成功率 >= 99.9%。（基于请求）
- SLO-延迟：登录API的P99延迟 <= 300ms。（基于请求）
- 附加SLO-可用性（基于窗口）：在99%的5分钟时间窗口内，登录API错误率 < 0.5%。（用于防御短时严重故障）

第三步：计算并跟踪Error Budget

假设过去28天，登录API总请求数为5000万次。
可用性SLO (99.9%) 对应的总错误预算：50,000,000 * (1 - 99.9%) = 50,000 次错误请求。
实际监控显示，过去28天已发生错误请求（如密码错误除外，网络超时、5xx错误等）12,000次。
剩余错误预算：50,000 - 12,000 = 38,000 次。
预算消耗率：平均每天消耗 12,000 / 28 ≈ 429 次。按此速率，剩余预算还可支撑约 38,000 / 429 ≈ 88天。结论：预算非常充足，处于绿色区域。

第四步：基于预算的决策

当前状态：错误预算充足（绿色）。
团队决策：
- 可以执行：计划下周发布一个包含数据库查询优化的新版本，预计能降低P50延迟，但有一定风险引入新Bug。
- 可以执行：对用户画像查询接口进行重构，以支持新的业务需求。
- 可以执行：安排一次小规模的弹性伸缩演练，测试在流量激增时的自动扩容能力。
模拟突发情况：突然，因为一个底层缓存集群故障，导致在某个上午的30分钟内，登录失败率飙升，产生了8000次错误请求。
新状态：错误预算迅速消耗，剩余变为 38,000 - 8,000 = 30,000次。消耗速率变快，预测支撑时间缩短。状态进入黄色预警。
团队新决策：
- 立即行动：修复缓存问题，根因分析。
- 调整计划：原定明天的数据库优化版本发布暂停，待预算恢复至安全水平再评估。
- 加强监控：对缓存服务增加更细粒度的告警。
通过快速修复，后续几天服务恢复平稳，错误预算消耗回归正常速率。几周后，预算重新回到绿色区域，被暂停的发布任务得以继续。

这个案例展示了Error Budget如何将抽象的“稳定性”转化为具体的、可操作的决策依据，让研发和运维真正成为一个战壕里的战友，共同管理服务的风险与演进节奏。

6. 避坑指南：实践中常见的陷阱与应对策略

理念听起来很美，但在落地时总会遇到各种问题。我结合自己和同行们的经验，总结几个最常见的“坑”：

陷阱一：SLI选择不当，与用户体验脱节。

现象：监控显示CPU、内存一切正常，SLI达标，但用户不断投诉卡顿。
原因：选择的SLI是系统资源指标，而非用户感知指标。比如只监控了服务端处理时间，但忽略了网络延迟、前端渲染时间。
应对：始终坚持从CUJ出发定义SLI。采用端到端的监控，例如使用合成监控（Synthetic Monitoring）模拟用户操作，或大力推行真实用户监控（RUM），采集页面加载时间、首次输入延迟等浏览器指标。

陷阱二：SLO目标一刀切，或过于理想化。

现象：为所有接口统一设定99.99%的可用性和100ms延迟目标。为了达到这个不可能完成的任务，团队疲于奔命，反而忽略了核心功能的优化。
原因：没有区分服务/接口的优先级。支付接口和头像上传接口的重要性显然不同。
应对：实施分级SLO。将服务或API划分为不同等级（如Tier-1核心交易链路，Tier-2重要管理后台，Tier-3内部工具）。为不同等级设定不同严格程度的SLO，将资源和注意力集中在最关键的地方。

陷阱三：Error Budget机制被滥用或忽视。

现象1：研发团队认为“预算充足”，于是毫无节制地发布高风险变更，导致预算快速耗尽，引发严重事故。
应对：建立预算消耗的审批或预警流程。例如，单次发布预计消耗预算超过5%时，需要技术负责人审批。预算进入黄色区域时，自动触发邮件通知到相关团队负责人。
现象2：运维团队将Error Budget视为“惩罚工具”，一旦预算紧张就指责研发。
应对：强调Error Budget是团队共同资源，不是考核工具。它的耗尽是一个需要共同分析和解决的系统性问题，而不是某个人的过错。复盘会的目的是改进流程和系统，而不是追责。

陷阱四：监控数据不准，导致SLI/SLO失真。

现象：由于采样率过低、日志丢失、指标定义错误等原因，计算出的SLI与实际情况相差甚远。
应对：像对待生产代码一样对待监控和指标代码。进行定期审计和验证。可以设计一些探针测试，定期发起已知结果的请求，验证监控链路是否能正确捕获和计算。确保日志收集、指标上报的可靠性。

陷阱五：将SLO与绩效考核直接强绑定。

现象：公司强制将SLO达标率与团队奖金挂钩，导致团队想方设法“美化”数据，例如在月底预算紧张时拒绝一切合理变更，甚至修改监控逻辑。
应对：SLO和Error Budget的核心目的是推动正确的工程决策和改进，而不是惩罚。它应该是一个导向性指标，用于指导工作优先级。绩效考核应更关注团队在改进系统可靠性、进行有效复盘、提升协作效率等方面的行为和成果，而不是单纯看一个数字是否达标。

落地SLI/SLO/Error Budget体系，本质上是一场文化和流程的变革。它需要技术、产品、管理多方达成共识。起步时不妨小范围试点，选择一个核心服务，定义1-2个关键的SLO，跑通整个流程——从测量、公示到基于预算做一次发布决策。让团队亲身感受到它带来的好处：更清晰的目标、更少的无谓争吵、更理性的技术决策。当大家发现，这套工具能真正帮助我们在快速前进的同时不至于翻车，它就会从一项“任务”，变成一种自然而然的工程习惯。

查看全文

http://www.jsqmd.com/news/452096/