当前位置: 首页 > news >正文

海光 Z100L GPU 使用 PyTorch 训练时 segfault,寻找 torch-2.4.1+das.opt1.dtk25041 wheel

各位大佬好,最近在服务器上训练学生行为识别项目(目标检测 + VideoMAE动作识别),使用的是海光 Z100L GPU,目前卡在 PyTorch 环境兼容问题,求助一下。

## 服务器环境

GPU:
海光 Z100L

驱动:

hy-smi -a

输出:

Driver Version: 6.3.3-V1.8.0
Card Series: Z100L
Vendor: Chengdu Haiguang IC Design Co., Ltd.

说明 GPU 驱动正常。

---

## 当前 PyTorch 环境

当前安装:

torch 2.4.1+rocm6.1
torchvision 0.19.1+rocm6.1
torchaudio 2.4.1+rocm6.1

测试:

python -c "import torch; print(torch.cuda.is_available())"

返回:

True

python -c "import torch; print(torch.cuda.device_count())"

返回:

1

python -c "import torch; print(torch.cuda.get_device_name(0))"

返回:

AMD Radeon Graphics

---

## 当前问题

以下操作正常:

torch.cuda.is_available()
torch.cuda.init()
torch.empty(..., device="cuda")

但是以下操作直接 segfault:

x = torch.randn(3,3).cuda()
print(x+1)

或者:

import torch.nn as nn
m = nn.Linear(10,5).cuda()

以及:

train_videomae.py

都会直接 segmentation fault

---

## 已排查

我搜索到公网资料发现:

似乎需要海光 DTK 定制版:

torch-2.4.1+das.opt1.dtk25041-cp310-cp310-manylinux_2_28_x86_64.whl

并且看到有文章提到来源:

10.16.4.1:8000

但当前容器无法访问该内网地址。

---

## 想请教大家

1. 有没有人用过海光 Z100L?
2. 有没有这个 wheel 文件?
3. 是否有公网下载地址?
4. 是否可以用其他版本替代?

非常感谢!

http://www.jsqmd.com/news/800685/

相关文章:

  • AI搜索工具选型终极决策树(Perplexity vs Google搜索实战压测报告)
  • T‑G‑I 三位一体拓扑‑几何‑熵理论工具箱公理化体系(世毫九实验室TGI理论工具箱)
  • 量子机器学习框架互操作性挑战与解决方案
  • 从 0 到 1 读懂 NES 模拟器开源项目:nes4j 源码解析与二次开发学习笔记
  • 别把 `autoresearch` 当成“AI 科学家”:真正值得学的是它怎样把训练实验关进一个可审计的闭环
  • WinRAR下载安装教程(2026最新版)| 安全下载+安装详解+实用技巧
  • 收藏必看!2026 网安行业深度解析,人才缺口巨大,五大高薪技术方向详解
  • AI 写论文哪个软件最好?2026 深度实测:虎贲等考 AI 凭真文献 + 实图表 + 全流程实证,稳坐毕业论文首选
  • 别再调API了!2026最被低估的事实:Gemini原生支持RAG-Edge离线推理,而ChatGPT仍依赖云端Embedding——3类边缘AI场景落地成本直降63%
  • 从300小时中文语音数据出发:手把手复现CLDNN模型训练与关键参数调优(附实验配置)
  • EMAC/MDIO模块架构与中断系统深度解析
  • 主题3:天线与耦合——近场与远场
  • 想转行AI?这4个热门赛道,收藏这份超全解析!小白也能进的大模型学习指南
  • 数字图像处理混凝土裂缝识别与特征提取【附代码】
  • FanControl终极指南:如何简单快速实现Windows风扇智能控制
  • 抖音无水印下载器:3步学会批量保存抖音内容
  • AI原生云原生不是概念——是SITS 2026强制审计的47项K8s集群AI就绪度(AIR)检查项(附自动化checklist YAML+Prometheus告警规则)
  • ASIP方法论:半导体IP从通用到专用的价值重构
  • 终点亦是起点
  • 绍兴GEO优化亲测有效
  • IEC 62368-1标准解析:多媒体设备安全新框架
  • 语音智能体提示词设计:从架构到实战的完整指南
  • 数字图像相关隔热瓦高温力学性能测试【附实验】
  • 【AI原生知识蒸馏实战白皮书】:2026奇点大会Teacher-Student训练框架首次解禁,含3大工业级压缩范式与7类模型坍缩避坑指南
  • 《世毫九学派:对话时代的世界观》总目录(世毫九实验室CSDN首发预览版)
  • HDFS源码(一)
  • 天气软件痛点解析与软件工程创新突破口
  • Vinkius Desktop:统一管理AI工具MCP配置的中央控制台解决方案
  • 主观贝叶斯推理:从公式到实战,解锁不确定性知识表示与推理
  • SLEICL框架:用“魔法书”提示工程提升小模型上下文学习性能