当前位置：首页 > news >正文

Slurm集群管理：除了sinfo，你还可以用这些方法查看节点负载和GPU使用情况

news 2026/7/24 15:17:37

Slurm集群监控工具箱：从基础命令到智能看板的进阶实践

当你面对一个繁忙的Slurm集群时，快速准确地掌握节点状态就像飞行员需要仪表盘一样重要。传统的sinfo和squeue如同基础的速度表，而现代集群管理则需要一套完整的监控生态系统。本文将带你构建从命令行到可视化看板的完整监控方案，特别针对GPU集群的独特需求提供定制化解决方案。

1. 原生工具链：Slurm自带的监控利器

Slurm提供了一套完整的命令行工具集，就像瑞士军刀一样各司其职。sinfo和squeue只是其中最基础的两个组件，真正的高手会组合使用这些工具来获取立体化的集群视图。

1.1 sinfo的进阶用法

基础的sinfo输出确实有限，但通过格式化输出选项，我们可以提取更丰富的信息。例如，以下命令组合可以显示每个节点的CPU、内存和GPU资源情况：

sinfo -N -o "%12N %8P %12C %8m %12G %12T" | sort -k2

这个命令会输出：

%12N：节点名（12字符宽度）
%8P：所属分区
%12C：可用CPU核心数
%8m：内存大小(MB)
%12G：GPU资源
%12T：节点状态

实用技巧：添加-h参数去除表头，方便脚本处理；使用-p <partition>可以筛选特定分区。

1.2 squeue的实时监控

squeue默认显示的是作业队列，但通过格式化输出可以获取更详细的资源占用情况：

squeue -o "%.10i %.12P %.8u %.8T %.10M %.6D %.4C %.8m %.20b %.20R"

关键字段说明：

%.20b：显示请求的加速器资源（如GPU）
%.8m：每个节点内存请求(MB)
%.6D：请求的节点数
%.4C：每节点CPU核心数

1.3 sacct的历史分析

sacct是分析历史作业的利器，特别适合追踪资源使用效率：

sacct -S 2024-01-01 -E 2024-01-31 --format=JobID,JobName,Partition,AllocCPUS,AllocGRES,ReqMem,Elapsed,State

这个命令可以统计一个月内：

每个作业的CPU和GPU分配情况
内存请求与实际使用时长
作业完成状态

2. 直接硬件探查：当Slurm元数据不够用时

有时我们需要绕过Slurm直接检查硬件状态，特别是在调试或验证资源分配时。这种方法虽然原始，但能提供最直接的硬件反馈。

2.1 SSH批量检查节点状态

通过并行SSH工具可以快速检查多节点状态。使用pdsh或clush可以高效完成这个任务：

clush -w node[1-32] "uptime && free -h | awk '/Mem:/{print \$3\" of \"\$2}'"

对于GPU节点，可以结合nvidia-smi获取详细信息：

clush -w gpu[1-8] "nvidia-smi --query-gpu=utilization.gpu,memory.used,memory.total --format=csv"

注意事项：

确保SSH密钥已配置免密登录
避免高频执行，可能影响节点性能
建议通过Slurm的srun执行而非直接SSH

2.2 实时GPU监控方案

GPU节点的监控需要特殊处理，以下是一个实用的GPU监控脚本：

#!/bin/bash watch -n 5 ' echo -e "Node\tGPU\tLoad\tMemUsed\tMemTotal\tTemp\tPower"; sinfo -N -h -o "%N" | sort | while read node; do ssh $node "nvidia-smi --query-gpu=index,utilization.gpu,memory.used,memory.total,temperature.gpu,power.draw --format=csv,noheader,nounits" | \ awk -v node=$node -F", " "{print node\"\t\"\$1\"\t\"\$2\"%\t\"\$3\"MB\t\"\$4\"MB\t\"\$5\"C\t\"\$6\"W\"}" done'

这个脚本会每5秒刷新一次所有节点的GPU状态，包括：

每个GPU的利用率
显存使用情况
温度和功耗

3. 第三方监控系统集成

对于生产环境，专业的监控系统可以提供更强大的功能。以下是两种主流方案与Slurm的集成方法。

3.1 Prometheus + Slurm Exporter

Prometheus是目前最流行的监控系统之一，配合Slurm Exporter可以获取丰富的指标：

安装Slurm Exporter：

git clone https://github.com/vpenso/prometheus-slurm-exporter cd prometheus-slurm-exporter make && make install

配置Prometheus抓取目标：

scrape_configs: - job_name: 'slurm' static_configs: - targets: ['slurm-manager:8080']

关键监控指标包括：

slurm_nodes_state：各状态节点计数
slurm_jobs_state：作业状态分布
slurm_cpus_alloc：CPU分配情况
slurm_memory_alloc：内存使用情况

3.2 Grafana看板配置

将Prometheus数据可视化是理解集群状态的最佳方式。以下是一个基础的Grafana看板配置要点：

集群概览：
- 节点状态饼图：sum(slurm_nodes_state) by (state)
- 分区资源利用率：slurm_cpus_alloc / slurm_cpus_total

GPU监控：

sum(nvidia_gpu_memory_used_bytes) by (instance) / sum(nvidia_gpu_memory_total_bytes) by (instance)

作业排队时间：

histogram_quantile(0.95, sum(rate(slurm_job_queue_seconds_bucket[1h])) by (le))

4. 定制化解决方案：构建你的监控工具箱

当标准工具无法满足需求时，定制脚本和工具链就成为必要选择。以下是几个实用方向。

4.1 智能报警系统

基于Slurm数据的报警脚本示例：

#!/usr/bin/env python3 import subprocess import smtplib from email.mime.text import MIMEText # 获取GPU节点高负载情况 cmd = "sinfo -N -h -o '%N %T' | grep gpu | awk '$2 != \"idle\" {print $1}'" busy_nodes = subprocess.check_output(cmd, shell=True).decode().splitlines() if busy_nodes: msg = MIMEText(f"以下GPU节点处于非空闲状态:\n{', '.join(busy_nodes)}") msg['Subject'] = 'GPU节点负载告警' msg['From'] = 'slurm-admin@example.com' msg['To'] = 'admin-team@example.com' with smtplib.SMTP('smtp.example.com') as s: s.send_message(msg)

4.2 资源使用预测

使用历史sacct数据进行简单的资源预测：

# 获取过去30天各用户的平均GPU使用时长 sacct -S $(date -d "30 days ago" +%Y-%m-%d) \ -E $(date +%Y-%m-%d) \ --format=User,AllocGRES,Elapsed \ -X -P | \ awk -F'|' '$2 ~ /gpu/ {split($3,a,":"); \ sec=a[1]*3600+a[2]*60+a[3]; \ print $1,$2,sec}' | \ awk '{user[$1][$2]+=$3; count[$1][$2]++} \ END {for(u in user) {for(g in user[u]) { \ print u,g,user[u][g]/count[u][g]/3600"小时"}}}'

4.3 自动化健康检查

定期运行的集群健康检查脚本框架：

#!/bin/bash # 检查项1：节点响应性 failed_nodes=$(sinfo -N -h -o '%N' | xargs -P 32 -I {} sh -c 'ping -c 1 -W 1 {} >/dev/null || echo {}') # 检查项2：Slurmd服务状态 dead_daemons=$(sinfo -N -h -o '%N' | xargs -P 32 -I {} ssh {} 'systemctl is-active slurmd' | grep -v active) # 检查项3：GPU健康状态 gpu_errors=$(sinfo -N -h -o '%N' -p gpu | xargs -P 8 -I {} ssh {} 'nvidia-smi -q | grep -A 1 "GPU 0000" | grep -q "Uncorrectable" && echo {}') # 生成报告 { echo "### 集群健康检查报告 $(date)" [ -n "$failed_nodes" ] && echo "❌ 无响应节点: $failed_nodes" [ -n "$dead_daemons" ] && echo "❌ Slurmd异常节点: $dead_daemons" [ -n "$gpu_errors" ] && echo "❌ GPU错误节点: $gpu_errors" } | mail -s "集群健康报告" admin@example.com

在实际的HPC中心运营中，我们发现将上述方法组合使用效果最佳。比如使用Prometheus进行长期监控，配合定制脚本处理特殊需求，再辅以定期健康检查，可以构建起全方位的集群监控体系。对于GPU密集型工作负载，特别建议实现细粒度的GPU监控，因为显存使用情况往往是资源争用的首要指标。

查看全文

http://www.jsqmd.com/news/926528/