当前位置: 首页 > news >正文

CANN/xla-npu:昇腾NPU的XLA后端实现

简介

【免费下载链接】xla-npuXLA-NPU 是一个面向华为昇腾NPU硬件的 XLA后端实现。本项目通过接入OpenXLA/XLA开源项目,将XLA开源生态与华为 CANN软件栈集成,对接JAX框架。JAX框架运行时可以直接加载XLA-NPU,使得基于JAX框架开发的模型可以运行在昇腾NPU上,提供推理场景图编译加速能力。项目地址: https://gitcode.com/cann/xla-npu

概述

XLA-NPU是一个面向华为昇腾NPU(Neural Processing Unit)硬件的XLA(Accelerated Linear Algebra)后端实现。本项目通过接入OpenXLA/XLA开源项目,将XLA开源生态与华为 CANN(Compute Architecture for Neural Networks)软件栈集成,对接JAX框架。JAX框架运行时可以直接加载XLA-NPU,使得基于JAX框架开发的模型可以运行在昇腾NPU上,提供推理场景图编译加速能力。

xla_npu实现OpenXLA PJRT运行时接口,通过调用CANN软件栈中Runtime接口管理设备、Stream、Event、内存等,从而驱动NPU设备运行模型;同时对接CANN生态中Graph Engine、AFIR等编译后端,实现图编译。JAX框架通过加载XLA-NPU动态库so文件,实现JAX框架对接NPU设备,运行JAX脚本及网络。

图1XLA-NPU架构图

![](https://raw.gitcode.com/cann/xla-npu/raw/9fad86b2d671fc4b8cd08d310addc28361462c21/docs/zh/overview.png "XLA-NPU架构图"?utm_source=gitcode_repo_files)

使用说明

  • 使用场景:当前版本的xla_npu作为beta特性,主要专注于推理场景下的模型优化。

  • 产品支持情况

    • Atlas A3 训练系列产品/Atlas A3 推理系列产品
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品
  • 整体约束

    • 当前只支持使用1张NPU卡,不支持集合通信。
    • 只支持jax.jit()整图编译。

支持的JAX API清单

|JAX API|约束| |--|--| |jax.numpy.add|支持fp32| |jax.numpy.subtract|支持fp32| |jax.numpy.multiply|支持fp32| |jax.numpy.divide|支持fp32| |jax.numpy.dot|支持fp32| |jax.numpy.tanh|支持fp32| |jax.numpy.negative|支持fp32| |jax.numpy.exp|支持fp32| |jax.numpy.maximum|支持fp32| |jax.numpy.concatenate|支持fp32| |jax.numpy.max|支持fp32| |jax.numpy.sum|支持fp32| |jax.nn.gelu|支持fp32|

Demo

模型及单个算子用例样例参考demo。

常见问题

使用afir融合后端执行测试用例报错"ModuleNotFoundError: No module named 'runtime'"

问题原因:ASCEND_MLIR_PYTHON_PATH环境变量指向了一个错误或者无效路径解决方法:执行测试用例前, 重新执行export ASCEND_MLIR_PYTHON_PATH=xla-npu代码仓中dependency下载的Ascend-MLIR中Python可执行文件路径

【免费下载链接】xla-npuXLA-NPU 是一个面向华为昇腾NPU硬件的 XLA后端实现。本项目通过接入OpenXLA/XLA开源项目,将XLA开源生态与华为 CANN软件栈集成,对接JAX框架。JAX框架运行时可以直接加载XLA-NPU,使得基于JAX框架开发的模型可以运行在昇腾NPU上,提供推理场景图编译加速能力。项目地址: https://gitcode.com/cann/xla-npu

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/784533/

相关文章:

  • 太原本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心
  • 2026年5月9日成都市场盛世钢联镀锌方矩管价格行情 - 四川盛世钢联营销中心
  • Display Driver Uninstaller终极使用指南:彻底清理显卡驱动的专业解决方案
  • 2026聚焦:方形不锈钢水箱、消防水箱与保温水箱,看四川新起源硬实力 - 深度智识库
  • 基于MCP协议构建AI助手与Google Drive的安全连接方案
  • 宁波成人高考靠谱函授站筛选指南 附正规合作机构 - 浙江教育测评
  • 2026年湖南数控机床设计与非标机床定制服务商全景评测|江沙设计专业对标指南 - 年度推荐企业名录
  • 湖南数控机床设计与非标机床定制完全指南|江沙设计官方联系方式直达 - 年度推荐企业名录
  • 2026 成都名表变现行业测评|五大机构专业对比与高价变现指南 - 奢侈品回收测评
  • 为Claude Code配置Taotoken解决封号与token不足痛点
  • 金华本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心
  • 从设计文档到专利交底书:用 AI Agent 技能包一键提效
  • 2026年湖南数控机床设计与非标定制全景指南:从光机到整机的一站式解决方案 - 年度推荐企业名录
  • Hyperf 默认使用 Nikic/FastRoute 作为路由器。
  • AI驱动电力电子设计:基于BN-NN与GA的变换器参数自动化寻优
  • 嘉兴本地CPPM官方授权报名中心及联系方式 - 众智商学院课程中心
  • cann-recipes-train Qwen2.5 RL实践
  • 2026年5月9日成都市场盛世钢联无缝管价格行情 - 四川盛世钢联营销中心
  • 台湾丞鑫动力刀塔怎么样?好用吗? - 品牌推荐大师
  • LingBot-Depth部署教程:HTTPS反向代理配置+Nginx负载均衡接入指南
  • 2026年湖南数控机床设计与非标机床定制服务深度指南 - 年度推荐企业名录
  • 为什么选微服务而不是动态扩容单体
  • R语言线性分类实战:从原理到医疗金融应用
  • Weka机器学习实验环境搭建与算法比较实践
  • 低资源语言AI工具开发:社区参与式实践与双语微调策略
  • 数据科学项目必备:公开数据源分类、评估与实战获取指南
  • 保定豆包排名优化与短视频代运营深度测评:5大服务商2026年实战对比指南 - 年度推荐企业名录
  • Driver Store Explorer:Windows驱动存储清理终极指南,释放数GB磁盘空间
  • CANN/shmem SHMEM API 样例
  • 构式语法与AI融合:从语言认知到可解释NLP的实践路径