当前位置: 首页 > news >正文

为了防雪崩加了限流,结果入口先挂了

限流,本来是为了保护系统。
但在这次事故中,限流器本身成了第一个被拖垮的组件

更糟的是:

  • 后端服务没来得及崩
  • 网关先失去了响应能力
  • 所有请求卡在入口

这是一次非常典型的“限流设计正确,但位置和实现错误”的事故。


一、事故背景

系统架构简化如下:

text

Client ↓ Spring Cloud Gateway(统一入口) ↓ 下游微服务

事故发生前做了这些“看起来很正确”的事情:

  • 在 Gateway 层做统一限流
  • 使用 Redis 作为分布式限流存储
  • 限流算法:令牌桶 / 滑动窗口
  • 限流粒度:按接口 + IP

目标很明确:

入口挡流量,保护下游


二、事故现象

突发流量高峰后,系统表现为:

  • Gateway RT 飙升(几十 ms → 几秒)
  • 大量请求超时
  • 下游服务 CPU、线程池仍然正常
  • Redis QPS 急剧上升
  • Gateway 实例频繁 Full GC

最终结果:

限流没挡住流量,反而把网关拖死了


三、第一反应:限流规则是不是失效了?

第一时间检查限流规则:

  • 阈值配置正确
  • Redis key 在增长
  • 限流命中率正常

结论很反直觉:

限流规则是生效的,但系统还是扛不住

问题不在“限没限住”,而在“限流是怎么做的”


四、核心问题一:限流器成了“同步阻塞点”

Gateway 中的限流逻辑:

请求进入 ↓ 执行限流判断(Redis) ↓ 通过 → 转发 拒绝 → 返回 429

在高并发下,每一个请求都会:

  • 同步访问 Redis
  • 等待 Redis 返回结果
  • 才能决定是否放行

📌限流判断本身就是一次远程调用

当 QPS 上来时:

  • Redis RTT × 请求数
  • 网关线程被大量阻塞
  • Reactor 线程开始堆积

五、核心问题二:Redis 成了“全局热点”

限流 key 设计如下(示例):

javascript

gateway:rate_limit:/order/create

问题在于:

  • 热接口 → 热 key
  • 所有 Gateway 实例
  • 所有请求
  • 都在竞争同一个 Redis key

结果:

  • Redis 单点瓶颈
  • 网络 IO 放大
  • Gateway 等 Redis,Redis 又被 Gateway 打爆

👉形成“限流互相伤害”


六、核心问题三:限流位置选错了

这次事故最大的设计问题是:

把“高成本限流”放在了最外层入口

Gateway 层的特点:

  • 请求量最大
  • 并发最高
  • 对 RT 最敏感

但限流实现却是:

  • 分布式
  • 强一致
  • 同步远程依赖

📌入口层,最怕“慢”


七、为什么下游没挂,Gateway 先挂?

因为:

  • 下游有线程池、熔断、限流
  • Gateway 是“放大器”
  • Gateway 一旦慢,所有请求都慢

一句话总结:

网关是系统的喉咙,不是缓冲区


八、正确的限流设计思路

1️⃣ Gateway 层只做“轻量限流”

适合 Gateway 的限流:

  • 本地限流(Guava / Resilience4j)
  • 基于内存
  • 不依赖外部组件
  • 宁可不准,也要快

📌 原则:

入口限流要“快失败”


2️⃣ 分布式限流下沉到服务内部

真正需要精确控制的地方:

  • 核心接口
  • 资源敏感操作
  • 下游依赖重的逻辑

这些限流应该:

  • 放在服务内
  • 靠近资源
  • 粒度更细

3️⃣ 限流本身也要被限流

这是很多系统忽略的一点:

  • Redis 限流 → Redis 也要保护
  • Gateway → 也需要自我保护策略

例如:

  • Redis 超时直接放行 / 拒绝
  • 限流服务降级为本地策略

九、事故总结

这次事故并不是“限流没用”,而是:

  • 限流实现成本过高
  • 限流位置选择错误
  • 忽略了入口层的吞吐特性

最终导致:

系统没被流量打垮,却被“保护机制”先拖垮


十、写在最后

限流不是越统一越好,
入口不是越重越安全。

在分布式系统中:

任何保护机制,如果本身不可控,都会成为新的风险点。

http://www.jsqmd.com/news/235287/

相关文章:

  • 深度学习毕设选题推荐:基于python-CNN卷积神经网络对海洋壳类生物识别
  • 鸿蒙后台任务:ServiceExtensionAbility 中短时任务和长时任务到底怎么选?
  • Kafka入门:从零开始掌握消息队列
  • 智能合约团队协作:提示工程架构师的AI Prompt方案,统一开发规范
  • 芯片的“免疫系统”:为AI大模型芯片设计硬件级安全漏洞检测单元
  • 小白学C指针 *
  • 计算机深度学习毕设实战-基于python-CNN卷积神经网络对海洋壳类生物识别
  • 2024年AI原生应用在事实核查领域的最新研究进展
  • 【小程序】订单数据缓存 以及针对海量库存数据的 懒加载+数据分片 的具体实现方式
  • FHIR 中 _summary 参数
  • 救命神器2026专科生必看!8个AI论文网站深度测评与推荐
  • AI自动化编排:从入门到精通(基于Dify构建AI智能系统)
  • 【课程设计/毕业设计】基于机器学习python-CNN深度学习对宠物体型识别
  • Nuxt3全栈开发实战指南
  • 【毕业设计】深度学习基于python-CNN深度学习对宠物体型识别
  • 为什么AI算法工程师年薪能破百万?大厂高薪岗位学习指南与实战经验分享_月薪35-50k 16薪
  • 不用卡尺怎么测量复杂零件尺寸?告别卡尺,精准高效:SIMSCAN-E手持扫描仪在复杂零件检测中的革命性应用
  • 大数据领域数据服务在教育行业的创新应用
  • 【课程设计/毕业设计】通过python的对狗的体型识别通过python-CNN深度学习对狗的体型识别
  • 动态机器码
  • 动态机器码
  • 上海AI实验室突破:视觉提示技术实现机器人多角度感知
  • Edge Remove
  • 【毕业设计】通过python-CNN深度学习对狗的体型识别通过python-CNN深度学习对狗的体型识别
  • 深度学习毕设项目:通过python-CNN深度学习对狗的体型识别
  • 计算机深度学习毕设实战-通过python-CNN机器学习对狗的体型识别通过python-CNN深度学习对狗的体型识别
  • 深度学习毕设选题推荐:通过python深度学习对狗的体型识别
  • 单机防护机器码 仿网吧
  • 基于SpringAI的在线考试系统-企业级软件研发工程应用规范实现细节(完整)
  • Flink与CockroachDB集成:分布式SQL数据库