当前位置: 首页 > news >正文

CANN/asc-devkit任务间同步API

SetNextTaskStart

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

[!NOTE]说明 本接口为试验接口,在后续版本中可能会调整或改进,不保证后续兼容性。请开发者在使用过程中关注后续版本更新。

产品支持情况

产品

是否支持

备注

Ascend 950PR/Ascend 950DT

该接口生效

Atlas A3 训练系列产品 / Atlas A3 推理系列产品

该接口生效

Atlas A2 训练系列产品 / Atlas A2 推理系列产品

仅保证编译兼容,实际功能不生效。

Atlas 200I/500 A2 推理产品

仅保证编译兼容,实际功能不生效。

Atlas 推理系列产品 AI Core

仅保证编译兼容,实际功能不生效。

Atlas 推理系列产品 Vector Core

仅保证编译兼容,实际功能不生效。

Atlas 训练系列产品

仅保证编译兼容,实际功能不生效。

Kirin X90

仅保证编译兼容,实际功能不生效。

Kirin 9030

仅保证编译兼容,实际功能不生效。

功能说明

在SuperKernel的子Kernel中调用,调用后的指令可以和后续其他的子Kernel实现并行,提升整体性能。如图1所示,SuperKernel按序调用子Kernel,为保证子Kernel之间数据互不干扰,会在子Kernel间插入算子间同步进行保序,子KernelN-1调用该接口后,之后的指令会和后续子KernelN实现并行。

SuperKernel是一种算子的二进制融合技术,与源码融合不同,它聚焦于内核函数 (Kernel) 的二进制的调度方案,展开深度优化,于已编译的二进制代码基础上融合创建一个超级Kernel函数(SuperKernel),以调用子函数的方式调用多个其他内核函数,也就是子Kernel。相对于单算子下发,SuperKernel技术可以减少任务调度等待时间和调度开销,同时利用Task间隙资源进一步优化算子头开销。

开发者需要自行保证调用此接口后的指令不会与后序算子互相干扰而导致精度问题,推荐在整个算子最后一条搬运指令后调用此接口。

图 1通过SetNextTaskStart实现并行示意图
![](https://raw.gitcode.com/cann/asc-devkit/raw/68eb55191616e7a7b08961a5c82a706272353b5f/docs/api/figures/通过SetNextTaskStart实现并行示意图.png "通过SetNextTaskStart实现并行示意图"?utm_source=gitcode_repo_files)

函数原型

  • 该原型在如下产品型号支持:

    Ascend 950PR/Ascend 950DT

    Atlas A3 训练系列产品/Atlas A3 推理系列产品

    Atlas A2 训练系列产品/Atlas A2 推理系列产品

    Atlas 200I/500 A2 推理产品

    template<pipe_t AIV_PIPE = PIPE_MTE3, pipe_t AIC_PIPE = PIPE_FIX> __aicore__ inline void SetNextTaskStart()
  • 该原型在如下产品型号支持:

    Atlas 推理系列产品AI Core

    Atlas 训练系列产品

    template<pipe_t AIV_PIPE = PIPE_MTE3, pipe_t AIC_PIPE = PIPE_MTE3> __aicore__ inline void SetNextTaskStart()

参数说明

表 1模板参数说明

参数名

描述

AIV_PIPE

SetNextTaskStart之后运行的指令,如果位于AIV上的AIV_PIPE流水,可以与后序算子并行。AIV_PIPE的取值范围为PIPE_MTE2、PIPE_MTE3、PIPE_S、PIPE_V,流水类型介绍可参考硬件流水类型。

AIC_PIPE

SetNextTaskStart之后运行的指令,如果位于AIC上的AIC_PIPE流水,可以与后序算子并行。AIC_PIPE的取值范围为PIPE_MTE1、PIPE_MTE2、PIPE_MTE3、PIPE_FIX、PIPE_M,流水类型介绍可参考硬件流水类型。

返回值说明

约束说明

  • 该接口适用于TorchAir图模式开发场景,且需在启用SuperKernel特性后方可生效。相关信息可参考《PyTorch图模式使用指南(TorchAir)》中的“GE图模式 > GE图模式功能 > 图内标定SuperKernel范围”章节。
  • 在算子运行过程中,需要保证此接口在每个核上都被调用,且每个核上仅被调用一次。
  • 若子Kernel某个TilingKey分支调用了此接口,则开发者需要保证当前算子可能会运行的所有TilingKey均调用了此接口,否则会出现因同步指令数量不匹配而卡住的现象。

调用示例

详细示例请参考TaskSync样例。

#include "kernel_operator.h" AscendC::LocalTensor<half> dstLocal = outQueueDst.DeQue<half>(); AscendC::DataCopy(dstGlobal, dstLocal, 512); // 在最后一条搬运指令后调用,使之后的指令可与后续子kernel并行执行 AscendC::SetNextTaskStart(); outQueueDst.FreeTensor(dstLocal);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/853039/

相关文章:

  • Markdown Viewer 自定义主题:打造你的专属文档视觉体验
  • 2026年四川自动售卖机运营市场品牌商业参考:技术与市场双维度评估 - 深度智识库
  • 2026兴化市本地人必选的瓷砖空鼓专业维修公司TOP5推荐!卫生间空鼓翘边,厨房空鼓翘边,客厅空鼓翘边,全天响应,免费上门,5月专业瓷砖空鼓修复公司持证上岗师傅排名最新深度调研方案) - 一休修缮
  • 别再死记硬背了!用NumPy手写im2col,彻底搞懂CNN卷积加速的底层逻辑
  • 你被焦虑套路的真相:“情绪收割公式“:焦虑>愤怒>悲伤>快乐
  • 哪个牌子的 pos 刷卡机靠谱?个人自用机正规机构扫码刷卡避坑指南 - 资讯速览
  • 硬件工程师转型嵌入式软件开发的十大核心技巧
  • Chinchilla Scaling Law 奇努拉缩放定律
  • Hermes Agent 接入 Gemini 3.5 Flash:从本地模型到云端推理的完整迁移指南
  • 2026 深圳中高端全屋定制实测排行,本土工厂实力赶超连锁品牌 - 兔兔不是荼荼
  • IDEA专业版下maven构建和普通构建 JavaWeb 项目全教程(2025年) 附pom.xml配置文件
  • Ubuntu22.04系统安装英伟达显卡驱动
  • Windows 应用自动上架 Microsoft Store 的自动化实践
  • 外贸自建站多少钱 2026年外贸独立站建设费用全解析 - 麦麦唛
  • 医疗器械厂家可以定制中频治疗仪款式吗 - 舒雯文化
  • 使用 MobaXterm 打开第多个窗口(SSH渠道)
  • 三星固件下载终极指南:Bifrost跨平台工具免费获取官方系统
  • 2026年视频号视频怎么下载到手机相册?苹果安卓快速保存方法全盘点 - 科技热点发布
  • 哪个牌子的 pos 刷卡机靠谱?个人刷卡机正规机构大额刷卡,无年费对比测评 - 资讯速览
  • 2026开窗包装盒厂家推荐:大健康定制领域标杆企业测评 - 资讯速览
  • 2026年在线一键去水印工具推荐|好用的去水印工具评测对比 - 科技热点发布
  • 2026 年SATA连接器十大品牌排名及解析 - 十大品牌榜
  • 2026年国内做阴极保护腐蚀检测的厂家哪个好?从六大应用场景看武汉科思特仪器的全场景覆盖能力 - 品牌评测官
  • CubeCL 核心架构揭秘:基于立方体拓扑的跨平台计算模型
  • KFR数学函数深度解析:超越标准库的高性能实现
  • 协作焊接机器人研发 登兰普筑牢焊接自动化技术根基 - 深度智识库
  • 2026年去水印工具推荐:6大免费去水印工具详测,这款处理速度快到离谱 - 科技热点发布
  • 破解企业办公成本困局:打印机出租领域LITE轻办公方法论如何实现降本增效? - 资讯速览
  • 我的思维模型 - 7. 系统学篇
  • 深入理解DocQuery架构:LayoutLM模型与零样本学习原理