当前位置：首页 > news >正文

保姆级教程：用nvidia-smi命令行把GPU监控玩出花（从实时看板到自动日志）

news 2026/6/25 10:31:31

保姆级教程：用nvidia-smi命令行把GPU监控玩出花（从实时看板到自动日志）

在深度学习训练和科学计算领域，GPU资源监控就像汽车仪表盘对于驾驶员一样重要。想象一下，当你正在进行一个长达72小时的模型训练，突然发现显存泄漏导致实验中断，却因为没有完整的监控数据而无法定位问题发生的时间点——这种经历足以让任何工程师夜不能寐。本文将带你超越简单的nvidia-smi命令查看，构建一套从实时监控到自动化日志分析的完整解决方案。

1. 实时监控：打造你的GPU仪表盘

1.1 基础监控三板斧

大多数用户停留在直接运行nvidia-smi的初级阶段，这就像只用温度计测量室温——只能获得某个瞬间的快照。实际上，NVIDIA提供的工具链可以构建完整的监控体系：

# 经典用法：0.5秒刷新一次的监控面板 watch -n 0.5 nvidia-smi

这个命令虽然实用，但显示的信息过于密集。我们可以通过--query-gpu参数进行字段定制：

# 只显示关键指标 watch -n 1 "nvidia-smi --query-gpu=index,temperature.gpu,utilization.gpu,memory.used,memory.total --format=csv"

1.2 专业级监控工具：dmon与pmon

NVIDIA还提供了两个专业监控工具：

dmon：设备级监控（每GPU整体数据）
```
# 监控GPU核心使用率、显存和温度 nvidia-smi dmon -s puct -d 5
```
参数说明：
- -s p：电源使用情况
- -s u：GPU使用率
- -s c：处理器和内存时钟
- -s t：温度
pmon：进程级监控（每个进程的GPU使用）
```
# 每2秒刷新进程级监控 nvidia-smi pmon -d 2
```

提示：在tmux或screen会话中运行这些命令，可以创建持久的监控面板

2. 自动化日志：构建你的GPU黑匣子

2.1 基础日志记录

简单的日志记录只需要一行命令：

# 每分钟记录一次数据到CSV nvidia-smi -l 60 --query-gpu=timestamp,index,utilization.gpu,memory.used,temperature.gpu --format=csv -f gpu_log.csv

但这种方法存在两个问题：

日志文件会无限增长
无法自动按时间分割

2.2 高级日志方案

这里给出一个生产环境可用的脚本方案：

#!/bin/bash LOG_DIR="/var/log/gpu_monitor" mkdir -p $LOG_DIR while true; do CURRENT_DATE=$(date +%Y-%m-%d) LOG_FILE="$LOG_DIR/gpu_$CURRENT_DATE.csv" # 如果文件不存在，添加CSV头 [ ! -f "$LOG_FILE" ] && nvidia-smi --query-gpu=timestamp,index,name,utilization.gpu,memory.used,memory.total,temperature.gpu,power.draw --format=csv > $LOG_FILE # 追加数据 nvidia-smi --query-gpu=timestamp,index,name,utilization.gpu,memory.used,memory.total,temperature.gpu,power.draw --format=csv | tail -n +2 >> $LOG_FILE sleep 60 done

将上述脚本设置为systemd服务，即可实现24/7的稳定监控：

[Unit] Description=GPU Monitoring Service [Service] ExecStart=/path/to/gpu_monitor.sh Restart=always [Install] WantedBy=multi-user.target

3. 数据分析：从日志中挖掘黄金

3.1 基础分析技巧

收集的日志数据需要转化为洞察才有价值。以下是几个实用的分析命令：

# 找出GPU温度超过85度的记录 awk -F',' '{if($7>85) print}' gpu_log.csv # 计算平均GPU使用率 awk -F',' 'NR>1 {sum+=$4; count++} END {print "平均使用率:", sum/count, "%"}' gpu_log.csv

3.2 Python分析示例

对于更复杂的分析，可以使用pandas：

import pandas as pd df = pd.read_csv('gpu_log.csv') df['timestamp'] = pd.to_datetime(df['timestamp']) # 找出显存使用持续增长的时段 mem_growth = df.groupby('index')['memory.used [MiB]'].expanding().apply( lambda x: x.iloc[-1] - x.iloc[0] if len(x) > 10 else 0 ) print(mem_growth[mem_growth > 500].sort_values(ascending=False))

4. 高级技巧：异常检测与报警

4.1 实时异常检测

结合watch和awk可以实现简单的实时报警：

watch -n 10 "nvidia-smi --query-gpu=index,temperature.gpu,utilization.gpu --format=csv | awk -F',' 'NR>1 && (\$2>80 || \$3>95) {print \"警告: GPU\" \$1 \" 温度\" \$2 \" 使用率\" \$3 \"%\"; exit 1}'"

4.2 邮件报警集成

以下是一个完整的邮件报警脚本：

#!/bin/bash ALERT_TEMP=85 ALERT_UTIL=95 LOG_FILE="/tmp/gpu_alert.log" # 检查GPU状态 nvidia-smi --query-gpu=index,temperature.gpu,utilization.gpu --format=csv > $LOG_FILE # 分析数据 awk -F',' -v temp=$ALERT_TEMP -v util=$ALERT_UTIL \ 'NR>1 && ($2 > temp || $3 > util) { \ print "警报: GPU" $1 " 温度" $2 "C 使用率" $3 "%"; \ exit 1 \ }' $LOG_FILE if [ $? -eq 1 ]; then mail -s "GPU警报通知" admin@example.com < $LOG_FILE fi

5. 可视化：打造你的GPU监控中心

5.1 实时终端可视化

使用终端绘图工具如termgraph可以创建简单的图表：

# 安装termgraph pip install termgraph # 生成最近10分钟的GPU使用率图表 tail -n 10 gpu_log.csv | awk -F',' '{print $1,$4}' | termgraph --title "GPU使用率(%)"

5.2 Grafana集成

对于企业级监控，可以将数据导入Prometheus+Grafana：

使用nvidia_gpu_exporter暴露指标
Prometheus抓取数据
Grafana配置示例仪表盘

关键指标面板建议：

GPU使用率热图（按时间分布）
显存使用趋势线
温度变化曲线
功率消耗统计

6. 性能优化：监控数据的实际应用

6.1 识别计算瓶颈

通过交叉分析GPU使用率和显存使用率，可以发现不同类型的瓶颈：

现象	可能原因	解决方案
GPU使用率100%	计算密集型任务	优化算法或使用混合精度
显存接近100%	批处理大小过大	减小batch size
GPU使用率波动大	CPU预处理瓶颈	增加数据加载线程

6.2 自动调节训练参数

以下脚本根据GPU状态动态调整训练参数：

import subprocess import re def get_gpu_stats(): output = subprocess.check_output([ 'nvidia-smi', '--query-gpu=utilization.gpu,memory.used', '--format=csv,noheader,nounits' ]).decode('utf-8') gpu_util, mem_used = map(float, re.split(r',\s*', output.strip())) return gpu_util, mem_used # 在训练循环中调用 gpu_util, mem_used = get_gpu_stats() if gpu_util < 70 and mem_used < 8000: # 8GB increase_batch_size() elif gpu_util > 90 or mem_used > 14000: # 14GB decrease_batch_size()

查看全文

http://www.jsqmd.com/news/727509/