当前位置: 首页 > news >正文

CANN/torchtitan-npu测试指南

测试使用指南

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

常用命令

单元测试

# 运行全部单元测试,并生成报告 sh build.sh -u --generate-report # 只运行本仓 `torchtitan-npu` 的单元测试 RUN_TORCHTITAN_UT=false sh build.sh -u --generate-report

冒烟测试

# 运行默认 smoke 套件(core + extended) sh build.sh -s --generate-report # 只运行 core smoke ONLY_CORE_SMOKE=true sh build.sh -s --generate-report # 只运行 extended smoke ONLY_EXTENDED_SMOKE=true sh build.sh -s --generate-report # 只运行 upstream smoke ONLY_UPSTREAM_SMOKE=true sh build.sh -s --generate-report

集成测试 (Integration Test)

tests/smoke_tests/integration_test.py是端到端集成测试入口,用于验证:

  • 新增模型功能支持情况
  • 特性兼容性
  • 并行策略兼容性
运行方式
# 通过 build.sh 运行(默认运行 core + extended smoke) ONLY_CORE_SMOKE=true sh build.sh -s --generate-report # 独立运行 integration_test.py python tests/smoke_tests/integration_test.py output_dir \ --test_name all \ --ngpu 2
命令行参数
参数默认值说明
output_dir无(必填)测试输出目录
--config_path./tests/smoke_tests/base_test.toml基础配置文件路径
--test_nameall指定测试用例名称
--ngpu2最大 GPU 数
OverrideDefinitions 使用说明

OverrideDefinitions是定义集成测试用例的配置类:

OverrideDefinitions( override_args=[[...]], # 必填:命令行参数列表 test_descr="...", # 必填:测试描述 test_name="...", # 必填:测试名称 ngpu=2, # 可选:所需 GPU 数 disabled=False, # 可选:是否禁用 )
新增测试用例步骤
  1. 打开tests/smoke_tests/integration_test.py
  2. generate_smoke_tests()函数的smoke_cases列表中添加新配置:
OverrideDefinitions( [ [ "--model.name your_model", "--model.flavor your_flavor", "--parallelism.tensor_parallel_degree 2", ], ], "Your Model TP Test", "your_model_tp", ngpu=2, )
  1. 运行测试验证:
python tests/smoke_tests/integration_test.py ./outputs --test_name your_model_tp
base_test.toml 配置文件

tests/smoke_tests/base_test.toml是集成测试的基础配置,所有测试都会基于这个配置文件运行,override_args中的参数会覆盖基础配置中的同名参数。

模型并行专项命令

# 基础模型并行冒烟测试 python3 -m pytest -v tests/smoke_tests/model_parallel/ # 多进程模型并行冒烟测试 RUN_MODEL_PARALLEL_MULTI_RANK=true torchrun --nproc_per_node=4 -m pytest -v tests/smoke_tests/model_parallel/

什么时候用哪个命令

命令适用场景
build.sh -u修改的是硬件无关逻辑,比如 converter、config、helper、patch
build.sh -s修改的是真实 NPU 执行链路或 wrapper 行为,并希望跑默认的 core + extended smoke
ONLY_CORE_SMOKE=true修改了最小训练主链路(即 integration_test 中定义的端到端集成测试)
ONLY_EXTENDED_SMOKE=true修改了本仓特性或模型并行行为
ONLY_UPSTREAM_SMOKE=true修改依赖上游 torchtitan 集成链路的逻辑,或需要单独跑更重的 upstream smoke

快速判断

  • 只改了硬件无关逻辑:先跑build.sh -u
  • 改了 NPU 特性链路或 wrapper:跑build.sh -s
  • 改了训练主链路接线:至少跑ONLY_CORE_SMOKE=true build.sh -s
  • 改了模型并行行为:跑ONLY_EXTENDED_SMOKE=true build.sh -s
  • 需要检查上游集成兼容性:单独跑ONLY_UPSTREAM_SMOKE=true build.sh -s

测试报告

  • 输出目录:test_reports/
  • 常见产物:
    • *.xml:JUnit 结果
    • *.html:开启--generate-report后生成的 HTML 报告
    • coverage/:单元测试覆盖率报告
    • README.md:自动生成的报告索引

使用建议

  1. 先跑和改动最匹配的最小命令。
  2. 不依赖 NPU 的改动,优先跑build.sh -u
  3. 能定向跑 smoke 子集时,就不要默认全量跑。
  4. 如果测试布局或执行方式变了,记得同步更新文档。

【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/782775/

相关文章:

  • CANN/hcomm引擎上下文复制
  • 2026年新疆票据印刷与热敏收银纸采购完全指南:源头直供降成本方案 - 优质企业观察收录
  • 3步掌握开源游戏加速:OpenSpeedy高效配置完全指南
  • 魔兽争霸3终极兼容性修复指南:5个简单步骤让经典游戏在Windows 11完美运行
  • 2026年水刀配件采购全攻略:从成都源头厂家到一站式解决方案 - 企业名录优选推荐
  • 江西菜代表品牌有哪些?2026年5大品牌实测推荐 - 速递信息
  • CANN/ops-cv最近邻上采样2D算子
  • ClaudeCode用户如何配置Taotoken解决API密钥被封与Token不足问题
  • 本地AI智能体平台搭建:基于Docker与Ollama的自动化工作流实践
  • QLoRA量化技术在日语技术文档处理中的应用实践
  • 盘活闲置沃尔玛购物卡,让每一笔钱都花在刀刃上 - 团团收购物卡回收
  • 2026耐火电力电缆品牌实测:优质厂家深度测评+工程采购避坑全指南 - 深度智识库
  • 盘活分期乐购物额度,轻松优化你的个人现金流 - 团团收购物卡回收
  • 2026年重庆留学机构哪家口碑最好?预算有限挑选攻略 - 速递信息
  • CANN/tensorflow NPURunConfig基础选项
  • CANN ops-math ConcatD算子
  • Windows驱动管理终极指南:DriverStore Explorer完整教程与实用技巧
  • 2025-2026-2 《Python程序设计》实验三报告
  • 第二天打卡
  • CANN hcomm通信内存激活接口
  • 本地千万级图片搜索终极指南:免费开源工具帮你3步搞定海量图库管理
  • 别让微信里的小优惠,悄悄变成了无声的浪费 - 团团收购物卡回收
  • 2026年南京留学中介,推荐最好、零差评机构如何筛选 - 速递信息
  • CANN/HCCL NPU通信端口配置
  • 别让分期乐购物额度,成为你账户里的闲置底气 - 团团收购物卡回收
  • 创业团队如何利用 Taotoken 统一管理多个 AI 模型的 API 调用
  • 025环形链表
  • 【Python专项】进阶语法-系统资源监控与数据采集(1)
  • 开发者专属:用coding-plan打造高效技术学习与自律管理系统
  • 纳米工艺IC测试挑战与BIST技术创新