当前位置: 首页 > news >正文

服务器训练过程程序崩溃,显卡资源释放方式

使用服务器训练过程出现程序崩溃,但是显卡资源未能释放的问题解决方式,主要是多卡使用过程,不能影响其他人正在使用的显卡资源。


一、查看显卡使用情况

查看显卡正在使用的进程

watch nvidia-smi
|NVIDIA-SMI580.126.09Driver Version:580.126.09CUDA Version:13.0|+-----------------------------------------+------------------------+----------------------+|GPU Name Persistence-M|Bus-Id Disp.A|Volatile Uncorr.ECC||Fan Temp Perf Pwr:Usage/Cap|Memory-Usage|GPU-Util Compute M.||||MIG M.||=========================================+========================+======================||0NVIDIA A100-SXM4-80GB Off|00000000:00:09.0Off|0||N/A39C P089W/400W|24375MiB/81920MiB|0%Default||||Disabled|+-----------------------------------------+------------------------+----------------------+|1NVIDIA A100-SXM4-80GB Off|00000000:00:0A.0Off|0||N/A35C P095W/400W|45173MiB/81920MiB|0%Default||||Disabled|+-----------------------------------------+------------------------+----------------------+|2NVIDIA A100-SXM4-80GB Off|00000000:00:0B.0Off|0||N/A39C P093W/400W|77961MiB/81920MiB|56%Default||||Disabled|+-----------------------------------------+------------------------+----------------------+|3NVIDIA A100-SXM4-80GB Off|00000000:00:0C.0Off|0||N/A37C P099W/400W|78351MiB/81920MiB|100%Default||||Disabled|+-----------------------------------------+------------------------+----------------------++-----------------------------------------------------------------------------------------+|Processes:||GPU GI CI PID Type Process name GPU Memory||ID ID Usage||=========================================================================================||2N/A N/A3342634C/bin/python377918MiB||3N/A N/A3342635C/bin/python378308MiB|

程序用的卡0和1训练,但是程序已经崩溃,卡0和1资源没有释放。

二、查看显卡正在使用的进程

查看显卡正在使用的进程

sudo fuser-v/dev/nvidia*
USER PID ACCESS COMMAND/dev/nvidia0:root3341936F...m pt_main_thread root3342634F....pt_main_thread root3342635F....pt_main_thread root3348049F...m python3 root3348112F...m python3/dev/nvidia1:root3341936F...m pt_main_thread root3342634F....pt_main_thread root3342635F....pt_main_thread root3348049F...m python3 root3348112F...m python3/dev/nvidia2:root3341936F...m pt_main_thread root3342634F...m pt_main_thread root3342635F...m pt_main_thread root3348049F....python3 root3348112F....python3/dev/nvidia3:root3341936F...m pt_main_thread root3342634F...m pt_main_thread root3342635F...m pt_main_thread root3348049F....python3 root3348112F....python3

三、查看进程对应的节点信息

ps-p3348049,3348112-o pid,ppid,stat,cmd
PID PPID STAT CMD33480492589037Sl/opt/bin/python3-u tools/train.py--local-rank=0projects/configs/stage.py--launcher pytorch--deterministic--work-dir./work_dirs/stage33481122589037Sl/opt/bin/python3-u tools/train.py--local-rank=0projects/configs/stage.py--launcher pytorch--deterministic--work-dir./work_dirs/stage

发现这两个进行号对应的是之前所用的程序导致的崩溃。

四、kill掉对应的进程号

sudo kill-933480493348112

再运行第一步,显示显卡资源正常释放

五、停止之前的容器,重新进入

docker stop e847dc3213cf docker start e847dc3213cf docker exec-it e847dc3213cf bash

六、多卡通信延迟报错

export NCCL_TIMEOUT=36000000
http://www.jsqmd.com/news/843907/

相关文章:

  • IDA逆向分析实战:破解函数限制、修复栈平衡与Switch识别
  • 全志H713/H618平台:调焦步进电机驱动原理与DTS配置实战解析
  • 注意力不集中影响的不只是成绩,更是孩子的一生 - 资讯焦点
  • 猫抓插件完全指南:浏览器资源嗅探与下载的终极解决方案
  • 企业如何搭建标准化问卷调研系统?全流程方法论(附平台推荐)
  • 静态查找,冒泡,快排
  • 还在熬夜调格式?Paperxie 论文排版功能:一键搞定全高校规范,让格式问题不再卡你毕业
  • 宁波车主挑靠谱汽车贴膜机构的3步避坑指南 - 速递信息
  • 项目介绍 基于java+vue的校园舆情监测与预警系统设计与实现(含模型描述及部分示例代码)专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持 加油 谢谢
  • `SaveKeyDataAsync` 重构优化版本
  • ARM A64 SIMD向量指令详解与优化实践
  • 如何彻底清理Windows驱动存储:5个专业技巧释放系统空间
  • Nucleus Co-Op终极指南:3分钟让单机游戏变多人分屏神器
  • 用Python+NetworkX复现经典:手把手教你用Frank Wolfe算法搞定交通分配UE模型
  • Equalizer APO终极指南:免费打造Windows专业级音频系统
  • CA-IS3741:四通道高速数字隔离芯片的选型、实测与光耦替代实战
  • 5步彻底解决XXMI-Launcher游戏模组管理难题
  • 金价高位期必看!2026 深圳黄金回收机构真实测评! - 奢侈品回收测评
  • STM32新手必看:Keil MDK编译遇到warning #2803-D和L6218E错误?保姆级解决流程来了
  • Windows Cleaner终极指南:如何快速优化系统性能与清理C盘空间
  • CSS 实现「上双下单」布局
  • 手把手教你写JS逆向通用模板:一键提取加密参数
  • Prism `IContainerRegistry` 详细调查与讲解
  • DS4Windows终极指南:让PS手柄在PC上完美运行
  • 云计算Linux——数据库MySQL MGR高可用(十九)
  • 沧州CPPM注册采购经理授权中心及电话|官方报考通道 - 中供国培
  • 用倍控G30-J4125工控机搭建All in One家庭服务器:PVE、Docker、软路由全搞定
  • 如何快速实现手机号码地理位置定位:开源工具全面指南
  • Hitboxer:3分钟掌握专业级游戏按键冲突终极解决方案
  • 2026 年两联供系统按需定制指南,稳定型与集成技术优势解析 - mypinpai