当前位置: 首页 > news >正文

可观测性实战:快速定位 K8s 应用的时延瓶颈

摘要:本文分享了某物流公司使用DeepFlow平台快速定位Nginx网关时延瓶颈的实战案例。该公司发现特定域名在夜间持续出现1秒超时,传统APM追踪和监控数据均无法定位根因。通过DeepFlow的零侵扰调用日志,分析人员迅速排除了业务响应慢和网络延迟的可能性,将问题锁定在Nginx自身。进一步分析确认,瓶颈源于Nginx配置中使用HTTP/1.0协议。将其升级为HTTP/1.1后,超时问题立即消失。本案例突显了DeepFlow基于eBPF的全链路、多协议观测能力在复杂环境中快速、精准定位故障的价值。

关键词:DeepFlow、Nginx、可观测性、故障排查、时延瓶颈、零侵扰、物流行业

本文为云杉网络原力释放 - 云原生可观测性分享会第十七期直播实录中的【可观测性实战系列】“实战案例其一·物流行业篇”。回看链接[1]PPT下载[2]

一、背景介绍

本次案例为某物流公司在今年 4 月份左右,SRE 通过监控 Nginx 日志,发现一个域名在每天晚上 12 点后存在大量持续 1s 的超时情况,这个问题困扰了用户近一个月。通过查看 DeepFlow 的调用日志,立即排除了业务响应慢的可能性,最终发现问题是 Nginx 自身配置问题导致的。这个案例展示了如何快速的定位 7 层网关时延瓶颈点。

01-nginx_access_log

问题持续排查了近一个月,问题的阻塞点如下:

  • 服务之间的访问关系复杂,插码(APM)形式追踪断路严重,无法直接确定瓶颈点所在位置
    • 服务跨集群部署
    • 部分服务内部通信即需要过 Nginx,又需要走 Ingress
    • 服务通信涉及多协议,既有 HTTP 又有 Dubbo
02-topology
  • 现有监控数据除 Nginx 日志超时以外,无任何异常情况,问题推进无头绪
    • 业务日志无 Error
    • Nginx 其他业务无 Error、无超时
    • Ingress 日志无 Error、无超时
    • 业务实例基础指标无毛刺
    • Ingress 监控指标无毛刺
    • Nginx 监控指标无毛刺

SRE 偶尔一次与 DeepFlow 社区沟通过程中说到此问题,社区推荐使用 Request Log 试试,应该能快速回答瓶颈点在哪里,在此之前 DeepFlow 开源版已经在逐步覆盖的过程中,正好存在响应慢的业务被 DeepFlow 覆盖了,接下分享下借助 DeepFlow 排障的整个过程。

二、排障过程

step 1:利用调用日志(Request Log),输入 url (request_resource 字段)确定超时情况存在。从趋势图可知,与 Nginx 日志反馈的情况一致

03-request_log

step 2: 聚焦一个时间段,利用调用日志的客户端/服务端,分析上下游

首先,利用调用日志的客户端作为服务端,追踪上游服务是否存在影响,可发现上游服务的时延在增加,因此可分析出来,上游服务时延的增加是由当前服务造成的,需要继续聚焦分析当前服务及下游服务是否存在瓶颈。

04-request_log_client

假设目前分析服务svc_a访问 Nginx 这一段的调用情况,将刚刚分析的数据绘制为拓扑图来看,将svc_a作为服务端,查看访问svc_a的客户端svc_b这条路径的延迟情况,结果显示延迟达到了1.5秒。因此,我们可以得出结论,目前的延迟问题很可能是由 Nginx 或者 Nginx 下游的服务引起的

05-topology_client

接下来利用调用日志的服务端作为客户端,去不停迭代追踪下游服务,可发现 Nginx 往下的服务响应都非常快,基本为 25ms 左右的时延,因此可以锁定时延瓶颈是 Nginx 造成的

06-request_log_server
07-topology_server

step 3:追踪某次调用的网络流日志,确定网络是否存在时延瓶颈。从图中可以看出来,网络上的建连时延和系统时延都不高,因此可以确定与网络无关,仅看 Nginx 自身问题即可

08-flow_log

step 4:追踪问题根因

接下来转交给了 Nginx 运维同学来继续定位,最后通过修改 Nginx 配置,将此业务的 HTTP 协议从 1.0 改为 1.1 后,1s 时延问题消失

三、问题总结

问:为什么 Nginx 中配置的 HTTP 协议从 1.0 改为 1.1 时延就消失了?因为笔者和运维同学都未对 HTTP 协议有特别深入的了解,以下为 ChatGPT 的回复,供大家参考。

HTTP 1.1 相较于 HTTP 1.0,引入了多个性能优化方面的改进,包括: 1. 持久连接:HTTP 1.1 支持在同一个TCP连接上发送多个HTTP请求和响应,减少了连接的建立和关闭次数,提高了性能和效率。 2. 流水线传输:HTTP 1.1 可以同时发送多个请求,而无需等待每个请求的响应返回,降低了网络通信的延迟,加快了数据传输速度。 3. 分块传输编码(Chunked Transfer Encoding):HTTP 1.1 可以将响应消息分成多个块进行传输和接收,提供了更快的响应时间,特别适用于大型或动态生成的内容传输。 4. 请求管线化(Request pipelining):在不等待响应返回的情况下,连续发送多个请求,减少了等待时间和网络延迟,提高了效率。 5. 缓存控制:HTTP 1.1 引入了更丰富的缓存控制机制,例如ETag、Cache-Control头部字段等,可以实现更精确的缓存控制,减少了对服务器的请求,提高了性能。 这些性能优化的改进使得HTTP 1.1相较于HTTP 1.0具有更好的性能和效率,提供了更快速、可靠的数据传输和网络通信。

问:DeepFlow 在整个案例的价值点是什么

  • 利用零插桩的调用日志(Request Log),分钟级锁定时延瓶颈点
  • 利用零插桩的流日志(Flow Log),分钟级确定非网络时延瓶颈
http://www.jsqmd.com/news/351247/

相关文章:

  • 大数据领域 HDFS 网络拓扑与数据传输
  • 家贫而妻美,势弱而早慧,无权多财
  • 集体好奇心与团队成员的责任感
  • 基于非洲秃鹫优化算法优化BP神经网络风电功率预测附matlab代码
  • 这人啊,必须得靠自己赢一次
  • 剖析大数据领域 Eureka 的负载均衡策略
  • 基于世界一流标杆与国企很热数字化实践系统化路径
  • 海沧装修公司推荐|实测3家靠谱装企,省心避坑更安心 - 品牌测评鉴赏家
  • 列式存储与行式存储 形式讲解
  • 灰色Gompertz模型预测附Matlab代码
  • 大模型RAG性能提升的关键:一文吃透8种文本分块策略(小白进阶必读)
  • DeepSeek论文图解+GLM-Image实战:大模型的记忆与思考平衡之道
  • P4041 学习笔记
  • 22种RAG优化策略实战项目:从小白到专家,落地必看指南!
  • Python毕设项目推荐-python基于协同过滤算法的各银行金融理财产品推荐系统理财产品推荐系统【附源码+文档,调试定制服务】
  • 程序员必看:27个大模型应用场景详解与实战指南(值得收藏)
  • Qwen3-TTS语音合成技术解析:零样本克隆、跨语言合成与指令控制的完美结合
  • Python毕设选题推荐:python基于协同过滤算法的理财产品推荐系统基于python的协同过滤理财产品套餐推荐系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 大模型Agent的“大脑”是如何思考的?一文搞懂推理与决策引擎核心机制
  • 大模型落地实战——2025年中标项目TOP5场景与厂商排行榜
  • 狡兔三窟式C++函数封装!更安全的定义与调用新玩法
  • P1714 切蛋糕
  • Java 并发编程深度解析(锁机制、线程池调优、CAS 原理与应用)
  • TDSQL岗位热潮来袭!高含金量认证+精准课程,助你抢占高薪先机
  • 实用指南:SAP MM采购订单推送OA分享
  • 化学镀银工艺:沉积动力学原理与在陶瓷基板应用中的厚度均匀性挑
  • 【2025年JBD SCI2区】基于分组的多策略粒子群算法 GPSOM附Matlab代码
  • 中国工业设计如何重塑未来体验?2026三大趋势引领产业变革新浪潮 - 匠言榜单
  • 从“能聊天“到“能做事“:Openclaw Agent架构深度解析,让大模型真正落地企业级应用
  • 化学镀银添加剂:添加剂成分对镀银性能的影响及在电子元件中的应