当前位置: 首页 > news >正文

H20服务器多卡运行有错误gpu_partition ,tmux错误

怎么修复

改 vcuda 配置 + 在一个tmux中启动本地 shim 服务:

cp -f /usr/local/lib/inais/.vcuda_config /usr/local/lib/inais/.vcuda_config.bak_$(date +%Y%m%d_%H%M%S) printf '22586\n127.0.0.1\n' > /usr/local/lib/inais/.vcuda_config cat /usr/local/lib/inais/.vcuda_config tmux set-environment -gu LOCAL_HOST_IP tmux set-environment -gu VCUDA_PORT tmux set-environment -gu INAIS_GPU_MEM_CONTAINER tmux set-environment -gu INAIS_GPU_MEM_DEV tmux set-environment -gu INAIS_GPU_MEM_POD unset LOCAL_HOST_IP VCUDA_PORT INAIS_GPU_MEM_CONTAINER INAIS_GPU_MEM_DEV INAIS_GPU_MEM_POD source /opt/conda/etc/profile.d/conda.sh && conda activate janusdna python /chenhaowen/hnu/mps/lora_deepseek_ocr_vision_DNA/script/rice_phenotype_benchmark/vcuda_pidmap_shim.py \ --host 127.0.0.1 \ --port 22586

然后就可以运行自己的命令了

验证是否是对的:

看 shim 进程是否存在

pgrep -af vcuda_pidmap_shim.py

做最小 CUDA 验证:

source /opt/conda/etc/profile.d/conda.sh && conda activate janusdna && python -u - <<'PY'
import torch
print('cuda_available', torch.cuda.is_available())
torch.cuda.set_device(0)
x = torch.zeros(1, device='cuda:0')
print('alloc_ok', x.device)
PY

tmux错误

cat > /root/.tmux.conf <<'EOF'
# Start each new tmux pane/window with a clean runtime state.
# This avoids inheriting stale CONDA_*/CUDA_*/NCCL_*/NVIDIA_* variables
# from an older tmux server or a different container image.
set -g default-shell /bin/bash
set -g default-command "exec env -u CONDA_DEFAULT_ENV -u CONDA_EXE -u CONDA_PREFIX -u CONDA_PREFIX_1 -u CONDA_PROMPT_MODIFIER -u CONDA_PYTHON_EXE -u CONDA_SHLVL -u _CE_CONDA -u _CE_M -u LD_PRELOAD -u LD_LIBRARY_PATH -u CUDA_HOME -u CUDA_PATH -u CUDA_VERSION -u CUDA_DRIVER_VERSION -u CUDA_CACHE_DISABLE -u CUDA_VISIBLE_DEVICES -u CUDA_DEVICE_ORDER -u NCCL_VERSION -u NCCL_IB_DISABLE -u NCCL_SHARP_DISABLE -u NCCL_NET -u NCCL_P2P_DISABLE -u NCCL_CUMEM_ENABLE -u NCCL_DEBUG -u NVIDIA_VISIBLE_DEVICES -u NVIDIA_DISABLE_REQUIRE -u NVIDIA_DRIVER_CAPABILITIES -u NVIDIA_PRODUCT_NAME -u NVIDIA_PYTORCH_VERSION -u NVIDIA_BUILD_ID -u NVIDIA_REQUIRE_CUDA -u OMPI_MCA_coll_hcoll_enable /bin/bash -l"

# Keep locale variables in sync so tmux treats attached clients as UTF-8.
# Sync PATH so a freshly attached client can bring in the expected conda env.
set -g update-environment "DISPLAY KRB5CCNAME SSH_ASKPASS SSH_AUTH_SOCK SSH_AGENT_PID SSH_CONNECTION WINDOWID XAUTHORITY LANG LANGUAGE LC_ALL LC_CTYPE PATH"
set-environment -g LANG C.UTF-8
set-environment -g LC_ALL C.UTF-8
EOF

http://www.jsqmd.com/news/624889/

相关文章:

  • 详解指针1
  • 现在不看就晚了:SITS2026圆桌紧急预警——2025Q3起,未建立AI原生ROI动态仪表盘的企业将丧失融资溢价权
  • 中小开发者AI工具选型:Pixel Fashion Atelier对比传统SD WebUI的像素工作流优势
  • 汉鼎建设:用技术解码高端制造的“洁净密码”
  • 序列建模:循环神经网络(RNN)与长短时记忆网络(LSTM)
  • 超轻量级中文OCR识别:4.7M模型实现高效离线文字提取
  • 手把手教你在树莓派上部署OpenPose手势识别,解决卡顿实现实时检测
  • 深入解析RT-Thread MSH_CMD_EXPORT机制及其在嵌入式开发中的应用
  • 自动化运维工具开发
  • 设计剧本杀门店剧本版权,按月摊销简易账务实操方案。
  • 【观察】OpenClaw开启的智能体浪潮,如何重塑下一代智算网络?
  • CSS如何修改Bootstrap分页条样式_自定义分页项的背景色与边框
  • 大模型概述1
  • 为什么92%的多模态POC无法上线?——2026奇点大会披露4个被忽略的部署断点:跨模态对齐、缓存污染、动态批处理失效、时序一致性崩塌
  • 42 岁求职,年龄从不是短板:中年职场人的底气、价值与坚守
  • React 状态同步的复杂场景
  • SiameseAOE中文-base镜像免配置部署:Docker一键拉起+GPU算力高效适配方案
  • 济南老兵搬家配送电话多少?本地自营团队,官方热线直达,正规靠谱不跑空 - 宁夏壹山网络
  • Postman接口测试全套流程
  • Graphormer开源模型部署手册:Supervisor开机自启+日志监控全配置
  • 基于单片机智能燃气灶控制系统设计
  • nli-distilroberta-base企业应用:知识图谱三元组有效性自动验证
  • 戴尔笔记本风扇终极控制指南:简单三步实现精准散热管理
  • CCS12.2生成DSP28335的.bin文件,解决‘C:’不是命令的报错(保姆级避坑)
  • 【PCL2】PCL2官网下载:PCL2启动器我的世界模组管理工具使用全攻略 - xiema
  • JetBrains IDE试用期重置终极指南:如何免费延长30天开发工具使用期限
  • 【AI原生UX设计反直觉真相】:为什么“更智能”反而导致用户流失率上升47%?——基于127个A/B测试的归因分析
  • 技术领域驱动设计的建模方法
  • 兰亭妙微移动端设计案例库:Web3、心理健康、B端营销等六大场景的交互逻辑与视觉表达 - ui设计公司兰亭妙微
  • Linux驱动SDIO1