当前位置: 首页 > news >正文

CANN/mat-chem-sim-pred SOPDT基准测试报告

PidSopdtBasisGemmFit 测试报告

【免费下载链接】mat-chem-sim-pred面向工业领域,聚焦计算仿真、预测两大核心场景,构建面向流程工业"机理+数据"双轮驱动的领域计算层,推动AI for Science在材料化学领域的深度应用。项目地址: https://gitcode.com/cann/mat-chem-sim-pred

测试环境

  • 设备:Ascend910B3,device 3
  • 机器:node202
  • 构建:cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DSOC_VERSION=Ascend910B3
  • CPU 基线:64 线程完整 fit,包含dot = y_centered @ basis_t和 best reduce

测试命令

source /usr/local/Ascend/ascend-toolkit/set_env.sh cd prediction/ProcessControl/PIDModelFit/pid_sopdt_basis_gemm_fit cmake -S . -B build -DCMAKE_BUILD_TYPE=Release -DSOC_VERSION=Ascend910B3 cmake --build build -j 2 export LD_LIBRARY_PATH="$PWD/build:$PWD/build/lib:${LD_LIBRARY_PATH:-}" ./build/test_aclnn_pid_sopdt_basis_gemm_fit 3 ./build/benchmark_pid_sopdt_basis_gemm_pipeline 3 64 1024 256 5 2 64

正确性

smoke 已通过:

PidSopdtBasisGemmFit smoke best_sse=[1, 12] best_k=[1.5, 2] best_idx=[2, 1] PASSED

pipeline benchmark 与 CPU reference 对比:

max_abs_sse=0.00378418 max_rel_sse=0.00378418 max_abs_k=1.54972e-06 idx_diff_count=0

性能结果

B=64,N=1024,M=256

口径耗时对 CPU 64T 加速比
CPU 64T 完整 fit10.3824 ms1.00x
NPU resident e2e0.166816 ms62.24x
NPU cold e2e0.406088 ms25.57x

口径说明

  • resident e2e:输入已在 Device,只统计aclnnMatmul + custom reduce + best result D2H
  • cold e2e:统计输入 H2D、aclnnMatmul + custom reduce和 best result D2H。
  • dot[B, M]常驻 Device,不回传 Host,直接作为 reduce 算子的输入。

结论

SOPDT 候选空间通常比 FOPDT/IPDT 更大,更适合矩阵化MatMul + reducepipeline。当前实测显示 SOPDT pipeline 在 resident 和 cold e2e 两种口径下均显著快于 CPU 64 线程完整 fit。

【免费下载链接】mat-chem-sim-pred面向工业领域,聚焦计算仿真、预测两大核心场景,构建面向流程工业"机理+数据"双轮驱动的领域计算层,推动AI for Science在材料化学领域的深度应用。项目地址: https://gitcode.com/cann/mat-chem-sim-pred

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1120236/

相关文章:

  • 如何快速上手jqjq:5个简单步骤掌握自解释JSON处理器
  • Leela Chess Zero分布式训练架构:揭秘lczero.org背后的协同计算
  • Open Battery Information:开源硬件逆向工程工具,解锁BMS锁定电池修复新方案
  • Reacord API完全参考:从基础到高级功能的详细文档
  • Gradle Docker插件与微服务架构:多模块项目的最佳实践指南
  • 如何为details-dialog-element编写自定义样式:CSS定制完全教程
  • CANN/ge Shape类API文档
  • Elm-platform安全指南:确保Elm应用安全性的最佳实践
  • Statsig Status Page故障排查:常见问题与解决方案
  • Selenium Web自动化入门到实战:从环境搭建到框架设计
  • Instatic数据获取实战:从TypeBox验证到useAsyncResource的完整指南
  • 终极指南:如何使用Gradle Docker插件实现与Kubernetes的无缝集成
  • jinjava高级技巧:自定义标签、过滤器和函数的终极指南
  • Trae使用详细教程—从入门到精通(附带图文)
  • Spirit Web Player高级技巧:掌握timeline控制的10个实用方法
  • Genome在Linux环境下的部署与使用:跨平台Swift开发的秘诀
  • CANN/mat-chem-sim-pred IPDT批量闭环评分
  • PoseDiffusion实战应用:如何使用自定义数据集进行姿态估计的完整指南
  • CANN/asc-devkit Conv3DBackpropFilter Tiling使用说明
  • Laravel Vonage Notification Channel源码解析:短信发送的实现原理与流程
  • CANN/mat-chem-sim-pred FOPDT批量闭环评分API
  • 如何免费下载E-Hentai漫画档案:E-Hentai-Downloader完整使用指南 [特殊字符]
  • Gradle Docker插件版本管理:如何处理镜像标签和版本冲突的完整指南
  • ANSI转义序列实战:从终端色彩到动态界面
  • 如何用VisProg解决四大视觉任务?GQA/NLVR/图像编辑/目标标记实战教程
  • SENet-Tensorflow数据预处理详解:CIFAR-10数据集加载与增强技巧
  • jqjq REPL使用指南:交互式JSON查询与处理的终极技巧
  • 文本嵌入实战指南:TF-IDF、word2vec与BERT选型避坑手册
  • 昇腾AI处理器GlobalTensor形状获取
  • CANN/GE自定义算子开发指南