当前位置: 首页 > news >正文

CANN / cannbot-skills:自定义算子入图


【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills

name: torch-custom-ops-guide description: "自定义算子入图完整指南。覆盖从零开发、Eager 算子适配 npugraph_ex 图模式(torch.library.custom_op / torch.library.Library)、Meta 推导函数编写等全流程。适用于两种纯 Python 自定义算子注册场景。关键词:custom_op、torch.library.Library、register_fake、meta、mutates_args。"

自定义算子入图

算子状态确认

若用户未说明算子状态,使用交互式提问工具发起问题:您的算子处于什么状态?

路由:

  • 还没开发,从零开始 → 按 npugraph_ex 代码生成场景生成包含算子注册骨架(参考torch-npugraph-ex-templateskill 中的「自定义算子代码块」)+ 图模式编译调用的完整 MRE,算子实现用# <用户实现>占位。In-place 与 Out-of-place 的区别在custom_op路径上体现在mutates_argsregister_fake返回值,在torch.library.Library路径上体现在 schema 的 alias 标注和 Meta 返回值;函数化转换由 TorchAir 自动完成,无需手动实现
  • 已经能在 Eager 模式下运行,需要适配图模式 → 进入已有 Eager 算子适配流程
  • 已经入图但遇到问题 → 转到问题定位(加载torch-npugraph-ex-dfx-triageskill)

已有 Eager 算子适配图模式

确认算子注册方式

若用户未说明注册方式,使用交互式提问工具发起问题:您的算子是通过哪种方式注册的?

路由:

  • torch.library.custom_op(Python 层,在用户脚本中注册)→register_fake写在用户脚本内(与算子定义同文件)。参考docs/zh/custom_op_graph/op_adapt_torchair.md,以及non_in_place_op_cases.md/in_place_op_cases.md(取决于算子类型)
  • 纯 Pythontorch.library.Library(Python 层,在用户脚本中通过Library(..., "FRAGMENT")+define(...)+@impl(...)注册 schema 和 Eager 实现,再通过Library(..., "IMPL", "Meta")注册 Meta)→ schema、Eager 实现和 Meta 注册都写在用户脚本内;Eager 实现通常使用@impl(mylib, "op_name", "PrivateUse1"),Meta 使用meta_lib = Library("mylib", "IMPL", "Meta")+@impl(meta_lib, "op_name")
  • 不确定 → 引导用户检查:如果算子通过@torch.library.custom_op装饰器定义则为torch.library.custom_op;如果脚本中显式创建Library("<namespace>", "FRAGMENT"),并调用define(...)@impl(..., "PrivateUse1")Library(..., "IMPL", "Meta")则为纯 Pythontorch.library.Library

编写 Meta 推导函数(register_fake/ Meta impl)

agent 行为规则

  1. 请求用户提供算子签名和语义描述(输入/输出 tensor 的 shape、dtype 映射关系)。Meta 函数只关心操作的数学语义,不关心具体计算实现
  2. 若是torch.library.custom_op路径 → 在用户脚本内使用@my_op.register_fake编写 Meta 推导函数
  3. 若是纯 Pythontorch.library.Library路径 → 在用户脚本内使用meta_lib = Library("<namespace>", "IMPL", "Meta")+@impl(meta_lib, "op_name")编写 Meta 推导函数
  4. 若用户能提供算子签名和语义 → 帮助编写完整 Meta 骨架,遵循对应 template skill 中的「自定义算子代码块」格式
  5. 若用户无法提供 → 给出骨架代码,用# TODO: 根据算子语义推导输出 shape/dtype标注需用户填充的部分

关键点:Meta 推导函数只做 shape/dtype/device 推导,不执行实际计算。写 Meta 函数只需理解操作的数学语义和 input→output 的映射关系。In-place 算子返回None,Out-of-place 算子返回与输出同 shape/dtype 的空 tensor。

后续步骤

完成 Meta 推导函数后,即可支持 npugraph_ex 入图,无需额外步骤

下一步:加载torch-npugraph-ex-knowledgeskill,继续处理编译调用、调试定位或性能优化。


纯 Pythontorch.library.Library写法对照

用途:为不使用@torch.library.custom_op的用户提供一份对照表,帮助他们在同一脚本内完成 schema、Eager 实现和 Meta 注册。

阶段常见写法说明
Schema 定义mylib = Library("mylib", "FRAGMENT")+mylib.define("my_op(Tensor x) -> Tensor")定义算子 schema,In-place 算子需在 schema 中显式标注 alias,如Tensor(a!)
Eager 实现@impl(mylib, "my_op", "PrivateUse1")为 NPU 后端注册实际执行逻辑
Meta 注册meta_lib = Library("mylib", "IMPL", "Meta")+@impl(meta_lib, "my_op")注册 Meta 推导函数,用于torch.compile入图

agent 使用流程:收到纯 Pythontorch.library.Library算子需求 → 先确认 schema 和算子语义 → 再按define(...)@impl(..., "PrivateUse1")@impl(..., "Meta")三步生成对应骨架。

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/851385/

相关文章:

  • CANNBot MoE并行实施指南
  • 天津大学LaTeX论文模板终极指南:告别格式困扰,专注学术创作
  • PlatformIO国内安装避坑全记录:解决Python环境、pip换源与网络下载慢的问题
  • 作为一名测试工程师,你是否也经历过这些崩溃时刻?
  • 打破Mac与Windows的存储壁垒:Free-NTFS-for-Mac完整读写指南
  • C++私有成员访问的深度探索:从封装原理到模板技巧
  • 国产化工控主板选型实战:龙芯、飞腾、海光平台深度解析与避坑指南
  • LumenPnP开源贴片机:从DIY到小批量生产的完整技术方案
  • Jar Analyzer 字节码调试功能:类似OD/GDB的指令级GUI调试实现原理
  • CANN/asc-devkit TensorTrait样例
  • FreeRTOS队列机制深度解析:嵌入式实时系统任务通信的核心枢纽
  • CANN/ops-nn Swish激活函数
  • Perplexity医疗搜索效能跃迁(FDA黑框警告级误检率下降76%实测报告)
  • Windows 11性能监控终极指南:实时跟踪系统资源使用情况的完整教程
  • CANN/asc-devkit AllGather通信接口
  • AI招聘工具怎么选?直接推荐前程无忧的3个理由
  • elec-ops-simulation实战教程:5步实现电网稳态运行仿真
  • KDiff3文件比较与合并工具:从新手到高手的完整指南
  • 无王无帝定乾坤,来自田间第一人:凰标永存昭后世
  • 别再乱设时钟裕量了!手把手教你用set_clock_uncertainty搞定DC/PT时序收敛
  • 终极指南:如何使用Harepacker复活版轻松打造你的MapleStory游戏世界
  • 3DSident深度技术解析:逆向工程工具与硬件诊断套件的系统级实现
  • NS-USBLoader终极指南:一站式解决Switch玩家的三大痛点
  • Codex 安装与 VS Code 联动:手把手配置指南
  • 【HarmonyOS 6.1 全场景实战】《灵犀厨房》实战(十七):【语音识别】免提声控启动播报——动口不动手
  • CANN/asc-devkit HCCL批量写入接口
  • 终极指南:如何用YOLOv8 AI自瞄系统快速提升游戏瞄准精度
  • 终极知识管理模板:快速搭建你的Obsidian笔记系统
  • CANN/Ascend C GroupBarrier Arrive函数
  • KDiff3技术深度解析:高效文件比较与合并的架构设计与算法实现