当前位置: 首页 > news >正文

线上CPU 100% 全流程排查步骤

一、第一步:服务器层面定位(Linux命令,先确认是系统/应用占用)

1. 整机CPU概览

top# 实时查看整机CPU、进程占用,shift+p按CPU排序uptime# 看1/5/15分钟负载,判断瞬时冲高还是持续满载
  • 重点:%Cpu(s) us用户态、sy内核态、id空闲
    • us高:应用代码逻辑耗CPU(Java业务死循环、密集计算)
    • sy高:系统调用频繁、内核问题、频繁GC/IO阻塞、线程上下文切换爆炸
    • id≈0:CPU打满;id高但负载高:IO等待高(wa高)

2. 定位占用CPU最高的进程PID

top-H# 显示进程+所有线程,线程维度看CPUpidstat-u1# 每秒输出进程CPU占用

记下占用CPU最高PID(假设PID=1234,Java进程)。

二、第二步:Java进程内部 → 哪个线程耗CPU(核心经典步骤)

1. 导出Java进程所有线程栈

  1. 拿到高CPU进程PID:jps -l列出所有Java进程
  2. top -Hp 1234查看该进程下CPU最高的线程TID(十进制)
  3. 十进制TID转十六进制:printf "%x\n 线程TID"(例:12345 → 0x3039)
  4. 打印线程堆栈:
jstack1234>jstack.log# 或arthas一键:thread -n 5
  1. 在jstack.log搜索十六进制0x3039,找到对应线程栈,直接定位代码行。

高频问题:死循环、无限while、大数据量循环遍历、正则回溯、频繁创建对象。

三、第三步:区分是【代码业务耗CPU】还是【GC疯狂消耗CPU】

1. 查看GC指标

jstat-gcPID1000# 每秒打印GC,S0/S1/Eden/O/M,YGC/FGC次数与耗时

判断:

  1. YGC频繁暴涨、FGC频繁、Full GC耗时高 → GC导致CPU100%
    原因:内存泄漏、大对象频繁创建、堆太小、不合理大内存分配。
  2. GC次数正常 → 业务代码逻辑占用CPU(死循环/密集运算)

2. 堆快照排查内存泄漏

jmap-dump:format=b,file=heap.hprof PID

heap文件下载后用MAT/JProfiler分析:大对象、泄漏对象、不合理缓存。

四、第四步:Arthas一键排查(线上首选,不用重启服务)

# 1. 安装启动curl-Ohttps://arthas.aliyun.com/arthas-boot.jar&&java-jararthas-boot.jar# 2. 找出CPU最高5个线程thread-n5# 3. 查看方法耗时(定位热点方法)profiler start;sleep30;profiler stop--formathtml

profiler生成火焰图:横向越长代表CPU占用越高,直接定位耗CPU方法。

五、第五步:补充系统侧异常排查

  1. 上下文切换过高vmstat 1cs列飙升 → 大量线程频繁切换(线程池不合理、自旋锁滥用)
  2. 软中断高cat /proc/softirqs网卡中断暴高 → 网络流量打满、大量连接
  3. 磁盘IO拉高CPUiostat -x 1 %iowait高,大量同步刷盘、频繁落库。

六、常见根因汇总

  1. 业务代码:死循环、嵌套循环、全表循环遍历、低效正则、大数循环计算
  2. GC问题:内存泄漏、超大对象、堆参数过小、频繁创建短命大对象
  3. 框架/中间件:连接池参数不合理、死锁自旋、定时任务密集调度
  4. 系统:大量TCP连接、磁盘爆满刷盘、内核bug

七、应急临时处理

  1. 紧急下线定时任务/流量降级,切流量;
  2. 临时重启实例(集群环境优先一台重启保可用);
  3. 临时调大堆参数缓解GC。
http://www.jsqmd.com/news/956824/

相关文章:

  • 本地多模态RAG-Fusion:面向文档智能的可控知识处理架构
  • 2026杭州西服定制实测测评|避坑指南+品牌对比,本地人真实选购攻略 - 生活测评君
  • DIY太阳能充电夹克:从光伏原理到可穿戴能源系统的完整实践
  • AI辅助开发智能香薰:让快马AI生成情景联动与自适应推荐代码
  • 2026 年 PCT 高压加速老化试验箱十大品牌权威评测|采购选型避坑指南 - 资讯分享168
  • 济南翡翠回收无盲区:从称重、打光到上仪器,全程可视才值得托付 - 开心测评
  • 用STM32 HAL库驱动TM1640数码管模块:告别模拟IO,一个CubeMX配置搞定
  • 【紧急预警】2024Q3起高发:LoRA微调后模型输出重复、loss震荡归零、梯度爆炸——3类反直觉训练故障的CUDA级溯源方案
  • AI 弘康合 智能电动扳手高效能 MOSFET 完整选型方案
  • 2026海口二手奢侈品包包回收避坑测评|行业套路拆解+正规机构添价收实测参考 - 薛定谔的梨花猫
  • 成都翡翠鉴定评估对比:5大回收品牌谁更专业? - 开心测评
  • 从零制作固态特斯拉线圈:Slayer激励器电路解析与高压电子实践
  • 手把手复现TrackFormer核心:用PyTorch从DETR出发,构建你自己的‘Track Query’推理循环
  • 基于STM32与机智云的智能家居安防系统实战开发指南
  • 2025届毕业生推荐的六大降重复率平台推荐榜单
  • 2026从估价到验货测评,汇总广州综合实力强的包包回收店 - 奢侈品交易观察员
  • 基于TPL5111的太阳能定时LED灯系统:低功耗户外照明DIY方案
  • 如何选择最适合您的金属安检门:2026最新选型攻略 - 品牌优选官
  • 深入理解select:从I/O多路复用到TCP服务器实战
  • 2026年6月优秀的少儿编程班品牌推荐,毛笔班/少儿编程班/编程课/软笔班/乐高机器人培训,少儿编程班机构口碑推荐 - 品牌推荐师
  • 小程序开发公司推荐:2026年十家常被提及的小程序制作开发公司 - 维双云小凡
  • 3分钟掌握Windows安卓应用安装:APK安装器高效运行方案
  • 基于WEMOS D1 mini与电容式土壤湿度传感器的智能浇水系统
  • ssm228图书商城网站的设计和开发+vue(文档+源码)_kaic
  • 2026临武贵金属奢侈品回收指南:郴奢汇临武店领衔,合规资质+全品类服务成核心推荐 - 小仙贝贝
  • 别再只用GCN了!用PyTorch Geometric实现DGCN处理有向图(附代码)
  • 2026年一体式电磁流量计十大品牌综合实力排名与选型深度解析 - 仪表品牌榜
  • 基于Arduino的北斗七星LED灯:从开源项目改造到星空模拟
  • ViGEmBus虚拟游戏手柄驱动终极指南:如何让任何手柄在Windows上完美运行
  • 2026年 压铸/铝合金压铸/精密压铸/压铸模具/汽车压铸厂家推荐:覆盖高压压铸与中大件外壳加工的实力品牌精选 - 企业推荐官【官方】