当前位置: 首页 > news >正文

CANN/cann-recipes-train:DeepSeek-V3 MXFP8/HiF8低精度预训练优化实践

DeepSeek-V3 MXFP8/HiF8 低精度预训练优化实践样例

【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train

概述

本样例针对DeepSeek-V3 裁剪模型,基于MindSpeed 框架,在 8 卡 Atlas A5 上完成完成8K序列MXFP8/HiF8 低精度预训练优。MXFP8/HiF8 低精度预训练介绍可参见HiF8精度与性能双优:面向大模型训练的低精度优化实践。

硬件要求

产品型号:Atlas A5 950DT 系列

最少卡数:8 张 A5

构建环境

  1. 手动安装相关依赖。

安装PyTorch

# 下载并安装PyTorch框架 wget https://download.pytorch.org/whl/cpu/torch-2.7.1%2Bcpu-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch-2.7.1+cpu-cp310-cp310-manylinux_2_28_aarch64.whl # 下载并安装torch_npu插件 wget https://gitcode.com/Ascend/pytorch/releases/download/v7.3.0-pytorch2.7.1/torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl pip3 install torch_npu-2.7.1.post2-cp310-cp310-manylinux_2_28_aarch64.whl #
  1. 源码准备。
# 请根据实际路径进行替换,当前支持A5的商发cann包暂时未发布,发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh # 创建代码目录工程 cd /home mkdir train_code cd train_code # 下载 MindSpeed git clone https://gitcode.com/ascend/MindSpeed.git cd MindSpeed git checkout master # checkout commit from MindSpeed master pip3 install -r requirements.txt pip3 install -e . cd .. # 下载 MindSpeed-LLM git clone https://gitcode.com/ascend/MindSpeed-LLM.git # 从github下载 Megatron-LM,请确保网络能访问 git clone https://github.com/NVIDIA/Megatron-LM.git cd Megatron-LM git checkout core_v0.12.1 cp -r megatron ../MindSpeed-LLM/ cd ../MindSpeed-LLM git checkout master mkdir logs pip3 install -r requirements.txt # 安装其余依赖库 # 下载 cann-recipes仓对应的脚本 cd ../ git clone https://gitcode.com/cann/cann-recipes-train.git cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_hif8.sh ./MindSpeed-LLM cp ./cann-recipes-train/llm_pretrain/DeepSeekV3/run_pretrain_dsk3_A5_8P_mxfp8.sh ./MindSpeed-LLM

数据集准备

首先创建数据集路径

mkdir -p ./tests/assets/enwiki

下载enwiki 的parquet数据到./tests/assets/enwiki路径下面

可以使用下面的命令下载数据集

cd ./tests/assets/ git clone https://huggingface.co/datasets/lsb/enwiki20230101/tree/main/data cd ../..

数据集转换示例,可以参考修脚本data_convert_deepseek3_pretrain.sh修改原始数据集路径,模型配置文件路径和目标输出路径

cd ./MindSpeed-LLM bash examples/mcore/deepseek3/data_convert_deepseek3_pretrain.sh

模型权重准备

本样例使用的 DeepSeek-V3 模型权重准备方法如下:

# 从魔塔社区下载模型的基础文件,存放至样例的 ./assets/hf/DeepSeek-V3 目录下(不加载权重实验也需要执行这步操作) mkdir -p /data/models/DeepSeek-V3 pip install modelscope # 下载DeepSeek-V3完整模型文件 (但是不包括权重,当前是裁剪模型可以不下载权重) modelscope download --model deepseek-ai/DeepSeek-V3 --local_dir /data/models/DeepSeek-V3

权重转换拉起示例,可以参考MindSpeed-LLM中转换脚本修改原始权重路径,以及保持的路径以及对应的切分裁剪策略

# 转换为mcore权重 bash examples/mcore/deepseek3/ckpt_convert_deepseek3_hf2mcore.sh

pretrain执行

cd /home/train_code/MindSpeed-LLM export GLOO_SOCKET_IFNAME=eth0 export HCCL_HOST_SOCKET_PORT_RANGE=auto # 请根据实际路径进行替换,当前支持A5的商发cann包暂时未发布,发布后安装即可 source /usr/local/Ascend/cann/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh export HCCL_TOPO_FILE_PATH=/etc/superpod_1d_noroce.json export HCCL_CONNECT_TIMEOUT=200 export HCCL_EXEC_TIMEOUT=200 # 示例执行 MXPF8 量化训练,2层(1moe,1dense)裁剪模型 bash ./run_pretrain_dsk3_A5_8P_mxfp8.sh # 示例执行 HiF8 量化训练,2层(1moe,1dense)裁剪模型 bash ./run_pretrain_dsk3_A5_8P_hif8.sh

【免费下载链接】cann-recipes-train本项目针对LLM与多模态模型训练业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-train

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/787917/

相关文章:

  • Intent-Verified Development:用结构化意图终结AI编程“幻觉”
  • 读AI即未来:普通人用好人工智能的18大工作场景05客户满意度
  • 基于Stable Diffusion与AnimateDiff的文本到动画生成实战指南
  • 缅甸柚木未来趋势:2025年高端定制市场深度解析与品牌推荐 - 品牌策略师
  • 开源家庭医生系统:从健康数据管理到智能提醒的完整实现
  • 2026年4月国内评价高的网架实力厂家推荐,美观大方,网架提升建筑整体美 - 品牌推荐师
  • CANN FFT Library - 接口实现状态文档
  • 皮下脂肪代谢综述:从分子机制到前沿干预策略
  • 2026电动球阀/气动蝶阀厂家哪家好?温控阀生产厂家实力精选推荐 - 栗子测评
  • 078、async/await语法:协程的编写与调度
  • 程序员效率工具箱:除了AI,这5款工具让你准时下班
  • 基于Nix与清单驱动的个人DevOps中心:模块化构建创意工作流
  • 079、Python设计模式:单例模式与工厂模式
  • AI智能体状态持久化:基于talos-identity-anchor的OpenClaw记忆备份方案
  • 2026铜雕塑厂家景观雕塑生产厂家/城市景观工程定制与实力推荐 - 栗子测评
  • AI数字孪生病理学家:前列腺癌精准诊断的技术架构与挑战
  • OpenClaw Dashboard:本地化AI Agent舰队监控与成本治理实战指南
  • 基于MCP协议的GitLab AI助手:重塑DevOps工作流的智能连接器
  • 影刀RPA如何实现店群自动化:详解多浏览器并发与“加密级”安全调度中枢
  • 构建AI编程助手守护者:CodeLooper如何解决Cursor Agent中断问题
  • AMCT ConvTranspose2dQAT API
  • 我用AI重构了一个遗留系统,代码量减少了70%,老板惊呆了
  • 抖音批量下载神器:3分钟掌握无水印视频下载全攻略
  • XHS-Downloader终极指南:小红书内容采集与批量下载技术详解
  • Photon引擎:基于Vite与Rust工具链的极速Web开发体验
  • CANN/Ascend C AsyncGetTensorC函数
  • CANN/Hunyuan3D昇腾适配
  • cann/cann-bench CrossEntropyLoss算子API描述
  • 算法模拟与生命智能:从架构差异看AI的本质与局限
  • CANN/ops-nn硬Sigmoid反向传播算子