当前位置：首页 > news >正文

海光特有的Python 包下载地址必须有 DCU 专用版（底层含 CUDA/ROCm 二进制）

news 2026/7/23 16:48:26

LLaMA-Factory + 大模型训练/推理最相关的 DCU 特殊包，我按优先级给你筛出来：
https://download.sourcefind.cn:65024/directlink/4/

🔴 第一梯队：必须有 DCU 专用版（底层含 CUDA/ROCm 二进制）

包	作用	不装 DCU 版的后果
`pytorch/`	已装 ✅	torch 核心，已搞定
`triton/`	已装/待装 ✅	GPU 编译器，FlashAttention 和 torch.compile 的根基
`deepspeed/`	多卡分布式训练	装官方版 = NVIDIA CUDA 内核，DCU 直接段错误
`flash_attn/`	Flash Attention 加速	官方版只有 CUDA 核函数，DCU 上 import 就崩
`bitsandbytes/`	QLoRA 4bit/8bit 量化	官方版`libbitsandbytes_cuda*.so`是纯 CUDA 二进制，DCU 无法加载
`xformers/`	内存高效的注意力/优化器	底层 CUDA kernel，DCU 需要重编译版

🟡 第二梯队：强烈建议找 DCU 版（性能相关）

包	作用	说明
`torchvision/`	图像预处理、模型	已随 torch 一起用，需要`dtk2404`对应版本
`torchaudio/`	音频处理	同上，版本要匹配 torch 2.1.0
`apex/`	混合精度、梯度缩放	NVIDIA 的优化库，DCU 有移植版
`transformer_engine/`	FP8 训练（H100/DCU 新一代）	如果做 FP8 量化训练需要

🟢 第三梯队：纯 Python / 通用 C++，PyPI 官方版可用

这些不需要去 sourcefind.cn 下，直接pip install即可：

包	为什么不需要 DCU 版
`transformers`,`datasets`,`accelerate`,`peft`	纯 Python 上层封装
`sentencepiece`,`protobuf`,`tiktoken`	文本 tokenizer，C++ 但无 GPU 代码
`gradio`,`fastapi`,`uvicorn`	Web UI / API，纯 Python
`numpy`,`scipy`,`pandas`,`matplotlib`	科学计算，CPU 版即可
`diffusers/`	HuggingFace 扩散模型，纯 Python（底层调 torch）
`colossalai/`	虽然含底层，但主要逻辑在 Python，可试 PyPI 版
`vllm/`,`sglang/`,`lmdeploy/`	推理框架，注意：这几个底层重度依赖 CUDA/ROCm，如果 PyPI 版不支持 DCU，必须从 sourcefind.cn 下

⚠️ 特别注意：推理框架（vLLM / SGLang / LMDeploy）

vllm/、sglang/、lmdeploy/这三个是大模型推理服务的核心：

PyPI 官方版 vLLM：目前只支持 NVIDIA CUDA，对 ROCm/DCU 支持很弱或没有
海光 sourcefind.cn 的版本：应该是基于 ROCm 移植的 DCU 可用版

如果你后续要部署推理服务（不是训练），这三个必须从sourcefind.cn下载 DCU 版。

📋 LLaMA-Factory 最小依赖清单（DCU 版）

按这个顺序去sourcefind.cn下载manylinux2014后缀的：

# 1. torchvision（匹配 torch 2.1.0）wgethttps://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.1.1/torchvision-0.16.0+xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 2. torchaudio（可选，LLaMA-Factory 主要用不上）# wget .../torchaudio/...# 3. deepspeed（多卡必需）wgethttps://download.sourcefind.cn:65024/directlink/4/deepspeed/deepspeed-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 4. flash_attn（训练加速强烈推荐）wgethttps://download.sourcefind.cn:65024/directlink/4/flash_attn/flash_attn-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 5. bitsandbytes（QLoRA 量化必需）wgethttps://download.sourcefind.cn:65024/directlink/4/bitsandbytes/bitsandbytes-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl

一句话策略

凡是有.so/ CUDA kernel / GPU 二进制的包，必须从 sourcefind.cn 下 DCU 版；纯 Python 的上层库，直接 pip 装官方版。

你现在最需要补的是：torchvision（配套 torch 2.1.0）、deepspeed、flash_attn、bitsandbytes这四个。先去这几个目录里翻manylinux2014的包，找到后按之前的规则重命名（第二个+改.，-改.）再安装。

查看全文

http://www.jsqmd.com/news/927061/