当前位置: 首页 > news >正文

CANN/Qwen3-Next算子扩展

NpuOpsTransformerExt

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

简介 | Overview

该目录包含用于Qwen3-Next 推理的 NPU 融合算子实现,目前包括:

  • rmsnormgated融合算子
  • Gated Delta Network (GDN)融合算子

这些算子以 PyTorch Extension 的形式实现,并在安装后注册到torch.ops命名空间中供框架调用。

核心组件 | Core Components

本模块主要包含以下关键组件:

  1. gated_delta_net/<op_dir>/算子实现目录,主要包含:

    • <op_name>.cpp:算子调用文件。
    • op_kernel/:算子 Kernel 具体实现代码。
  2. gated_delta_net/<op_dir>/CMakeLists.txt算子编译配置文件。

  3. npu_ops_transformer_ext/npu_ops_transformer_ext/npu_ops_def.cpp算子接口注册文件。

环境要求 | Prerequisites

  • Python ≥ 3.8
  • CANN Ascend Toolkit
  • PyTorch ≥ 2.1.0
  • torch_npu (PyTorchAdapter)

上述依赖的安装与环境配置请参考 Qwen3-Next README。

安装步骤 | Installation

  1. 进入算子目录,安装依赖:
pip install -r requirements.txt
  1. 从源码构建.whl包:
python -m build --wheel -n
  1. 安装构建好的.whl包:
pip install dist/*.whl --force-reinstall --no-deps
  1. (可选)如果需要重新编译,建议先清理编译缓存:
python setup.py clean

算子调用 | Usage

完成编译并安装.whl包后,自定义算子会注册到torch.ops命名空间中,可通过如下方式调用:

import torch import npu_ops_transformer_ext # 调用自定义算子 out = torch.ops.npu_ops_transformer_ext.my_ops(input)

其中:

  • npu_ops_transformer_ext为算子注册的 namespace
  • my_ops为具体算子名称(在npu_ops_def.cpp中定义)

当前模块包含的算子示例:

torch.ops.npu_ops_transformer_ext.recurrent_gated_delta_rule(...) torch.ops.npu_ops_transformer_ext.mambav2_rmsnormgated(...)

具体输入参数格式请参考对应算子的实现代码。

【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1120559/

相关文章:

  • uarch-bench实战案例:揭秘Zen3架构时钟周期性能优化技巧
  • BepInEx游戏插件框架:5分钟快速安装与终极配置指南
  • 服务器高速互连中的信号完整性分析与设计实践
  • Neural Amp Modeler终极指南:从零开始训练专业级吉他音箱模拟模型
  • Redis哈希冲突解决术:链地址法VS开放寻址法,3个关键对比
  • Optimus社区贡献指南:如何参与这个开源数据编排项目
  • NVMeFix调试与诊断:10个实用技巧解决SSD兼容性问题
  • Mistral Transformer分布式训练实践:突破大模型微调的数据壁垒与计算瓶颈
  • Montserrat字体终极指南:如何用这款开源字体解决你的设计难题
  • ZFS-inplace-rebalancing性能优化:5个提升重平衡效率的技巧
  • OpenCV计算机视觉实战:从基础到项目开发
  • 终极隐私保护:如何在本地离线完成专业级语音转文字
  • 逆向工程实战:Python脚本解析与生成IDA Pro授权文件
  • Error Lens用户案例:如何帮助团队提升代码质量
  • GPT-5实测:企业级AI选型的成本、可靠性与工程落地指南
  • CodexBar终极指南:一站式掌控所有AI工具的用量监控
  • LiveViewJS实战教程:构建实时聊天应用的10个关键步骤
  • 深入理解Offix hooks:useQuery、useSave与离线数据操作技巧
  • 终极指南:yuzu Switch模拟器Android版架构深度解析与技术实现
  • CANN材料化学仿真预测:PID步响应特征提取
  • OpenClaw机械爪配置:Agent与Models核心解析
  • AgentScope 2.0终极指南:5分钟构建可观测、可信任的多智能体系统
  • Touch WX与阿里iconfont集成:海量图标免费使用攻略
  • 基于YOLOv11的零售柜商品检测系统设计与实现
  • CLAN域适应框架:从理论到实践的语义一致性创新应用
  • 3步搞定!tchMaterial-parser让您轻松获取智慧教育平台电子课本
  • MNIST对抗性攻击挑战:社区贡献与未来发展方向
  • 如何用CC Switch轻松管理所有AI编程工具:5分钟终极入门指南
  • ReScript genType 源码解析:深入了解类型转换器的实现原理
  • 3步打造你的脑机接口:用Arduino轻松读取脑电波数据的终极指南