当前位置: 首页 > news >正文

解决Gitlab Runner在GPU报错:nvidia-container-cli: initialization error: nvml error: driver/library version

解决Gitlab Runner在GPU节点报错

问题描述

在新的主机上配置了Gitlab Runner,但是在执行CI任务时,任务直接在准备环境阶段报错:

ERROR: Job failed (system failure): prepare environment: Error response from daemon: failed to create task for \ container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running prestart hook #0: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy' nvidia-container-cli: initialization error: nvml error: driver/library version mismatch: unknown (exec.go:72:0s). Check https://docs.gitlab.com/runner/shells/#shell-profile-loading for more information

问题分析

很直观的可以看到是 NVIDIA 驱动与 NVML 库版本不匹配 的经典问题。这是一个 NVIDIA 驱动版本不匹配 问题。这是 GPU 节点上最常见的故障之一,通常由驱动更新后内核模块未重新加载导致 source。

  1. 先执行
    # 查看内核驱动版本cat/proc/driver/nvidia/version# 查看用户空间库版本dpkg-l|grepnvidia-driver# 检查 NVML 具体错误nvidia-container-cli-k-d/dev/tty info
  2. 如果内核版本(如 535.104)与库版本(如 535.113)不一致,即确认此问题 source。

问题解决

方法一:直接Reboot

sudoreboot# 重启后内核会重新加载,驱动版本将一致

方法二:不重启修复(生产环境适用)

# 1. 终止使用 GPU 的进程sudofuser-v/dev/nvidia*# 查看占用进程sudokill-9<PID># 终止进程# 2. 按顺序卸载内核模块sudormmod nvidia_uvmsudormmod nvidia_drmsudormmod nvidia_modesetsudormmod nvidia# 3. 重新加载(nvidia-smi 会自动触发加载)sudonvidia-smi
http://www.jsqmd.com/news/510731/

相关文章:

  • redis源码编译安装
  • python基于Javaspring的贵州旅游系统vue
  • HY-MT1.5-7B企业级应用:上下文感知翻译提升跨语言沟通效率
  • Z-Image Atelier 硬件要求详解:从消费级显卡到专业级GPU服务器的配置选择
  • Icon8:面向车规MCU的零开销8×8位图图标渲染库
  • 超声波氧传感器:精准守护每一次呼吸的科技先锋
  • Flink消费Kafka数据时,如何避免重复消费?从offset配置到实战避坑
  • 从CoT到ToT:在ADK中实现认知升级的5个关键技巧
  • 3.5寸飞腾工控主板:驱动商业显示终端智能化演进的核心算力支撑
  • coze-loop使用技巧:如何提供上下文,让AI给出更精准的优化建议
  • MedGemma-X入门必看:MedGemma-X与LLaVA-Med、RadFM等竞品能力对比
  • 考虑阶梯式碳交易机制与电制氢的综合能源系统热电优化(Matlab代码实现)
  • 再见移动梦网,“刷钻”时代彻底终结
  • GTE模型在Java项目中的集成与应用:构建智能问答系统
  • M2FP镜像深度体验:CPU优化版,稳定运行无报错
  • 企业微信机器人访问控制策略详解
  • 【HFSS】Optimetrics 设置
  • 人工智能应用- 预测新冠病毒传染性:04. 中国:强力措施遏制疫情
  • Harmonyos应用实例145:轴对称艺术画板
  • OFA模型Linux部署全攻略:从零开始搭建视觉问答系统
  • YDB-100A传动轴专用平衡机
  • Qwen3-TTS快速入门指南:3步搭建你的私人多语言语音助手
  • Pixel Dimension Fissioner实操手册:裂变结果AB测试与转化率验证方法
  • SEO_10个提升网站排名的实用SEO技巧与策略(480 )
  • CTF选手必备:用pwntools快速生成ORW shellcode的5个技巧
  • 轻量级倾角开关驱动库:TiltSensor原理与嵌入式应用
  • AI短剧王炸——小云雀短剧 Agent
  • Qwen3-ASR-1.7B与Dify平台集成开发语音应用
  • 3种高效Android模糊效果实现方案:从基础到高级应用指南
  • 2026年爆火的GEO行业,到底是怎么运转的?一文讲清全流程