当前位置: 首页 > news >正文

MySQL慢查询暴增,排查别乱了节奏

线上系统运行中,MySQL慢查询突然开始增加,接口响应时间跟着拉长,应用连接池接近上限,数据库CPU也抬了起来。群里很快会出现各种判断:是不是数据库配置不够?是不是要扩容?要不要先重启应用?要不要把连接数调大?

这些动作有的能缓解压力,有的可能会把问题放大。慢查询暴增背后,可能是一条SQL访问路径变差,也可能是索引没有命中、长事务堵住后续请求、缓存失效导致流量直打数据库,还可能和刚上线的代码、定时任务、活动流量有关。

排查这类问题,关键在于顺序。顺序对了,十几分钟能缩小范围;顺序乱了,很容易盯着一堆指标来回切换,最后只能靠经验猜。

先看影响范围

慢查询出现后,第一步应该确认业务影响,而不是马上调整数据库。

先看哪些接口变慢,是全部业务都受影响,还是集中在订单列表、报表查询、库存扣减、用户搜索这几个接口上。再看慢的是读请求还是写请求,压力在主库还是从库,是否伴随主从延迟、连接池等待、接口超时。

如果只是报表查询变慢,优先怀疑大范围扫描、排序、分组或分页。

如果下单、支付、库存等写入链路变慢,要重点关注锁等待、长事务和主库写压力。

如果用户侧接口正常,后台任务变慢,可以先限制任务执行速度,避免后台任务继续抢数据库资源。

这个阶段不要急着把连接数调大。连接数变多,不代表数据库处理能力变强。如果SQL执行很慢,更多连接只会排队更久,还可能让CPU、IO和锁竞争进一步升高。

拉一条时间线

故障现场看到的指标,往往已经是连锁反应之后的状态。慢查询、CPU、连接数、接口超时可能都在升高,但它们不一定同时开始。

排查时建议先把时间线拼出来:慢查询从几点开始增加,哪个接口先变慢,应用连接池什么时候告警,数据库CPU和IO什么时候升高,最近一次发布或配置调整在什么时候,定时任务是否刚好启动。

比如慢查询在10:03开始明显增加,10:05接口耗时升高,10:07连接池告警,10:10 MQ消费延迟。这条线说明数据库访问很可能是早期异常点。

如果应用线程先堆积,随后数据库慢查询增加,就要回到应用层看是否有线程池耗尽、下游接口超时、连接释放慢等问题。

时间线可以从监控曲线、慢日志、应用日志、发布平台、任务调度平台里拼出来。不需要做得很复杂,先把关键节点按分钟排出来,排查方向会清楚很多。

找最可疑的SQL

慢查询日志里可能有很多SQL。故障现场没时间逐条分析,先挑对系统影响最大的SQL。

可以优先看两类:一类是单次执行时间变长的SQL,另一类是调用次数突然变多的SQL。前者可能是执行计划、索引、锁等待出了问题;后者单次可能不算夸张,但高频执行后会把数据库压住。

慢日志里有几个字段很值得看。query_time 表示执行耗时,rows_examined 表示扫描行数,rows_sent 表示返回行数。如果扫描几十万行,最后只返回几十行,这条SQL就很可疑。它可能没走到合适索引,也可能条件写法让索引用不上。

还有一类SQL平时不显眼,业务量一上来就暴露问题。比如用户列表带多个筛选条件,测试环境只有几万条数据,生产有几千万条数据;再加一个排序字段或模糊搜索,执行时间可能从几十毫秒变成几秒。

找SQL时不要只看最慢的一条,也要看总耗时。某条SQL单次500毫秒,每分钟执行几万次,对数据库的压力可能比一条偶发10秒的SQL更大。

执行计划要结合数据量看

找到可疑SQL后,需要看执行计划。这里最容易出现误判:看到执行计划里显示用了索引,就觉得问题不在SQL。

用了索引不代表用得合适。联合索引字段顺序不匹配、过滤条件选择性差、范围查询放在前面、排序字段不在索引里,都可能让数据库扫描大量数据。还有隐式类型转换,比如字段是字符串,查询条件传了数字,也可能影响索引使用。

排查时重点看访问类型、使用的索引、预估扫描行数、是否出现临时表和文件排序。order by、group by、大分页、复杂关联,都容易把执行成本抬高。

举个常见场景:一个订单查询SQL原本按用户ID和状态过滤,后来新增了按创建时间倒序分页。开发环境数据少,看不出问题;生产环境同一个用户下订单量大,分页越往后越慢。这个问题不一定靠加机器解决,更可能需要调整索引、限制分页深度,或者改成基于游标的查询方式。

执行计划只是线索,还要结合表数据量、字段分布、业务调用频率一起判断。

锁等待和长事务经常被漏掉

慢查询暴增时,不要只盯SELECT。有时SQL本身并不复杂,但一直在等锁。

例如某个批量更新任务开启事务后迟迟不提交,占住一批记录锁。后续更新请求排队等待,应用侧表现为接口慢、连接池耗尽,数据库里则看到大量会话处于等待状态。

还有些后台任务会在业务高峰期跑批量删除、批量更新,或者执行DDL操作。单独看任务没问题,放到高峰期就会影响在线交易。

排查时可以看当前事务、锁等待、活跃会话、是否存在长时间未提交事务。若确认是某个任务导致阻塞,处理前要和业务确认影响。订单、支付、账务、库存这类场景尤其要谨慎,不能只为了恢复指标就随意终止会话。

对锁问题来说,止血动作通常不是优化SQL,而是先处理阻塞源,暂停任务、回滚异常发布,或者临时切走部分流量。

缓存失效会把MySQL拖下水

很多MySQL慢查询暴增,根源在缓存层。

一个热点接口平时大部分请求走Redis,数据库压力很低。某次发布后缓存key规则改了,或者大量热点key同时过期,请求绕过缓存直接查库,MySQL流量会突然上升。慢查询开始增加,应用连接池也被拖住。

这类问题如果只盯MySQL,排查会绕远。要同时看Redis命中率、热点key变化、缓存过期策略、是否有缓存穿透请求、应用是否走了降级逻辑。

处理上也不能只改数据库。更快的方式可能是恢复缓存、预热热点数据、临时限流,或者对非核心查询做降级。等流量恢复正常后,再补缓存保护策略,比如互斥加载、过期时间打散、热点key监控等。

近期变更要重点排查

线上“突然”出问题,大多能在变更里找到线索。代码发布、SQL改动、索引调整、报表上线、任务调度变更、缓存策略调整、活动流量进入,都可能触发慢查询暴增。

有个典型案例:某业务上线了一个新的筛选条件,接口逻辑只是多拼了一个字段。测试环境查询很快,发布后生产慢查询快速上升。最后发现新条件改变了原来的索引匹配方式,数据库扫描行数从几千变成几十万。这个问题从代码看改动很小,从数据库看影响很大。

所以排查时要把发布记录和慢查询时间点对齐。如果时间高度重合,优先看这次变更涉及的SQL、接口和缓存逻辑。能回滚的先评估回滚,能关闭开关的先关闭开关。故障期间不要坚持在线上边猜边改复杂SQL。

处理顺序:先止血,再治理

慢查询暴增时,现场目标是让业务恢复稳定。长期优化可以放在故障后做,现场先控制影响面。

常见止血动作包括:限制问题接口流量,暂停报表和批处理任务,回滚最近发布,关闭新增查询入口,恢复缓存,处理异常锁等待,临时把部分读请求切到只读实例。

加索引要看时机。大表在线加索引可能带来额外压力,尤其在高峰期。如果没有把握,宁愿先降级或限流,等业务低峰再处理。扩容也要分场景,如果是容量长期不足,扩容有意义;如果是一条SQL高频扫大表,扩容只能短时间缓一下。

故障恢复后,再做长期治理。核心SQL上线前做执行计划检查,大表查询加规范,慢SQL按业务模块归属,定时任务增加限速和告警,报表库和交易库尽量隔离,缓存热点数据加保护,数据库连接池设置合理上限。

这些工作不复杂,但需要持续做。慢查询问题很少一次性清干净,业务变化后还会冒出来。

企业现场需要日常巡检

在企业环境里,MySQL慢查询暴增往往不是孤立事件。很多系统长期缺少慢SQL治理,平时只在故障后查几条日志,业务恢复后就停下来了。等数据量继续增长,或者新功能上线,类似问题还会再出现。

据我了解,江苏立维运维服务在数据库运维、云运维、驻场运维和7×24保障中处理过不少这类场景。他们通常不会只看数据库CPU或慢日志,而是把应用接口、连接池、Redis命中率、任务调度、发布记录放在一起分析,先判断压力从哪里传来,再决定止血动作。

这类服务更适合放在日常。比如定期做MySQL健康巡检,梳理慢SQL排行,检查索引缺失和冗余,评估备份恢复可用性,完善告警阈值和应急预案。对于内部DBA和运维人手有限、系统又比较多的企业,外部团队参与巡检和应急支持,可以减少临时救火的压力。

MySQL慢查询突然暴增,排查时别被告警带着跑。先确认影响范围,再拉时间线,然后看可疑SQL、执行计划、锁等待、缓存和近期变更。

线上处理要先稳住业务,再做SQL、索引、架构和流程层面的治理。慢查询表面发生在数据库,背后常常连着代码习惯、业务流量、缓存策略和运维流程。

排查顺序清楚,现场就不会乱。平时把巡检、告警和SQL治理做好,遇到问题时才有判断依据。

http://www.jsqmd.com/news/1067737/

相关文章:

  • 如何用WeChatExporter轻松备份微信聊天记录:新手也能掌握的数据守护术
  • 网盘直链解析工具终极指南:告别限速,掌握高效下载的完整方案
  • 为什么我的 Radeon 显卡没出力,检查这几点立刻解决
  • 长上下文推理不再难,Strix Halo 轻松拿捏十万字小说分析
  • 雷军再谈与董明珠赌约直言后悔:本是玩笑;刘强东:将来不需要快递员,希望送70万蓝领兄弟去培训;马斯克拿下7800亿元天价薪酬| 极客头条
  • 如何在macOS上3分钟实现微信防撤回:WeChatIntercept完整使用指南
  • 一份给CTO的API中转服务商选型清单:安全、计费、稳定、合规,一个都不能少
  • 挺进沙漠腹地:全国单体最大沙漠光伏项目通信网络选型与部署实践
  • 腾讯位置服务AI时空大数据分析能力解析
  • 学生专用台灯哪个牌子的好用?实测学生专用台灯爆款品牌,闭眼入
  • 序贯蒙特卡洛概率假设密度滤波(SMC-PHD) MATLAB 实现
  • 谷歌收录突然下降原因方案:3天内挽救索引腰斩的实操记录
  • Sunshine游戏串流完整指南:5步打造你的私人游戏云
  • 微信社群高并发消息如何稳接?从 WechatApi 看自动化数据看板与运营架构
  • 国内民用车载灭火器材主流品牌梯队格局、产能与核心竞争力对比分析
  • 如何免费解锁WeMod专业版功能:3个简单步骤完整指南
  • 网盘直链下载助手:一键解锁八大网盘高速下载的终极指南
  • 从零构建亿级社交数据采集管道:基于Kafka+Python的分布式用户动态爬虫实战
  • Docker/Kubernetes为何成为AI智能体视觉(TVA)的“细胞与组织”(2)
  • 目前口碑好的claude服务厂家
  • 两种主流四层板叠层怎么选?全方位对比
  • 免费开源!AMD Ryzen处理器调试神器SMUDebugTool:从新手到专家的完整指南
  • 5分钟掌握QKeyMapper:Windows终极按键映射工具让游戏手柄秒变键盘鼠标
  • 存储⑤—深入浅出SSD-SSD存储介质:闪存
  • 河南化妆品柜 10 大常见质量问题与工艺真相
  • Windows窗口管理终极指南:3分钟掌握PowerToys FancyZones高效工作法
  • 孤能子视角:硅基智能演化观察阶段性小结
  • StreamCap:免费跨平台直播录制工具终极指南
  • 终极指南:用OpenCore Legacy Patcher让老旧Mac焕发新生,完整安装最新macOS系统
  • 广州瞳神优选怎么样?新手选购游戏机必看指南