当前位置: 首页 > news >正文

CANN/asnumpy 基准测试

Benchmarks

【免费下载链接】asnumpy哈尔滨工业大学计算学部苏统华、王甜甜老师团队联合华为CANN团队开发的华为昇腾NPU原生Numpy仓库项目地址: https://gitcode.com/cann/asnumpy

Back to README | Reproduce:examples/03_multiply.py

This document contains the full performance benchmark comparing AsNumpy (NPU) against NumPy (CPU) on themultiply()operation.

Test Environment

ItemAsNumpy (NPU)NumPy (CPU)
ProcessorAscend 910B NPUServer CPU (AArch64) on the same machine
NPU RuntimeCANN 8.2.RC1.alpha003
PythonPython 3.9+
Library versionAsNumpy 0.2.0NumPy 1.26+
Data typefloat32
Operationmultiply() — element-wise multiplication
Timertime.perf_counter() (high-resolution)

Controlled Variables

  • Both sides useidentical input data: arrays are generated by NumPy and transferred to NPU viafrom_numpy()before timing starts.
  • Data transfer time is excluded: only themultiply()computation is timed.
  • Results are single-run wall-clock times (no warmup, no averaging).

Results

ShapeAsNumpy (NPU)NumPy (CPU)Speedup
(500, 500)1.9355 s0.1708 s0.09×
(1000, 1000)0.0692 s0.7029 s10.16×
(2000, 2000)0.1033 s3.8387 s37.17×
(3000, 3000)0.1115 s14.3567 s128.70×

Key observation:For small tensors (500×500), NPU launch overhead dominates and CPU is faster. As tensor size grows, NPU's massive parallelism takes over — reaching128.70× speedupat 3000×3000.

Reproducing the Results

Run the benchmark script from the project root:

python examples/03_multiply.py

The script tests all four shapes with 50 iterations each, reports average and minimum times, and verifies numerical correctness against NumPy (relative diff < 1e-4).

【免费下载链接】asnumpy哈尔滨工业大学计算学部苏统华、王甜甜老师团队联合华为CANN团队开发的华为昇腾NPU原生Numpy仓库项目地址: https://gitcode.com/cann/asnumpy

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783136/

相关文章:

  • AI+SPU-Net:机器人辅助脊柱手术的自动切面规划技术详解
  • CANN/ops-transformer FFA算子设计
  • 5分钟彻底优化魔兽争霸3:解锁高帧率与宽屏支持的完整指南
  • CANN驱动获取设备PCIe信息v2
  • CANN/PTO-ISA同步算法优化
  • 从停机问题到AI责任:技术不可判定性与法律归责的跨界思考
  • CANN/pyasc向上取整函数
  • SMDA扩散(面向线性复杂度长上下文语言建模的序列流形扩散聚合) 下一代 大模型核心模型,有可能取代Transformer架构的自注意力机制
  • LobeHub 这玩意儿,到底香在哪?
  • AI赋能空间天气预报:深度学习预测太阳耀斑的技术实践
  • 你以为AI先裁基层,其实最危险的是中层管理者
  • 基于可解释AI与核形态分析的淋巴瘤辅助诊断系统实践
  • CANN/ops-math掩码填充张量
  • CANN/hcomm获取通道通知数API
  • claude cli 登录403问题
  • CANN π₀.₅模型训练优化说明
  • Docker Registry Push 超时排查全记录:从网络栈到残留 veth 的真相
  • MoE、多模态与AGI:生成式AI研究范式的变革与工程实践
  • 联邦学习在物联网场景下的性能评估与基准测试实践
  • CANN运行时跨机内存共享
  • AI驱动电弧故障检测:从传统信号处理到深度学习实战
  • 可解释AI如何破解人机协同决策的信任难题?
  • Likeshop一个开源商城到底有哪些功能模块?
  • CANN块稀疏注意力算子
  • cann/ops-math反射填充算子
  • 创业公司如何借助Taotoken低成本快速验证AI产品创意
  • 组态屏工程备份 / 恢复 / 加密 / 密码忘记
  • CANN PyPTO索引添加UB函数
  • 2026年数据驾驶舱模版选型指南:可视化能力、行业适配与智能分析深度对比 - 科技焦点
  • torchtitan-npu测试设计指南