当前位置: 首页 > news >正文

CANN/asc-devkit:asc_lt_scalar矢量标量比较函数

asc_lt_scalar

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

执行矢量中每个位置和标量比较,如果值小于标量值则为1,否则为0,结果为每个bit位按小端序排布。

函数原型

  • 高维切分计算

    __aicore__ inline void asc_lt_scalar(__ubuf__ uint8_t* dst, __ubuf__ half* src, half value, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_lt_scalar(__ubuf__ uint8_t* dst, __ubuf__ float* src, float value, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride)
  • 同步计算

    __aicore__ inline void asc_lt_scalar_sync(__ubuf__ uint8_t* dst, __ubuf__ half* src, half value, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride) __aicore__ inline void asc_lt_scalar_sync(__ubuf__ uint8_t* dst, __ubuf__ float* src, float value, uint8_t repeat, uint16_t dst_block_stride, uint16_t src_block_stride, uint16_t dst_repeat_stride, uint16_t src_repeat_stride)

参数说明

参数名输入/输出描述
dst输出目的操作数(矢量)的起始地址。
src输入源操作数(矢量)的起始地址。
value输入源操作数(标量)。
dst_block_stride输入目的操作数单次迭代内不同DataBlock间地址步长。
src_block_stride输入源操作数单次迭代内不同DataBlock间地址步长。
dst_repeat_stride输入目的操作数相邻迭代间相同DataBlock的地址步长。
src_repeat_stride输入源操作数相邻迭代间相同DataBlock的地址步长。
repeat输入迭代次数。

返回值说明

流水类型

PIPE_V

约束说明

  • 操作数地址重叠约束请参考通用地址重叠约束。
  • dst、src的起始地址需要32字节对齐。
  • dst按照小端顺序排序成二进制结果,对应src中相应位置的数据比较结果。
  • 当结果输出到目的地址中时,mask参数不生效。

调用示例

// 结果输出到目标地址中,固定为128个元素 constexpr uint32_t total_length = 128; __ubuf__ uint8_t dst[total_length / 8]; __ubuf__ half src[total_length]; half scalar = 20; uint8_t repeat = 1; uint8_t dst_block_stride = 1; uint8_t src_block_stride = 1; uint8_t dst_repeat_stride = 8; uint8_t src_repeat_stride = 8; …… // 数据搬运及同步操作 asc_lt_scalar(dst, src, scalar, repeat, dst_block_stride, src_block_stride, dst_repeat_stride, src_repeat_stride); …… // 同步操作

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/1045128/

相关文章:

  • GuangxiAICC/swinv2-tiny-patch4-window16-256模型配置详解:从patch_size到window_size的参数调优
  • 3大突破性设计重塑抖音内容生态管理体验
  • 2026年宁波GEO获客优化服务商调研:合规运营成核心 - 起跑123
  • xiaozhi-esp32:基于MCP协议的ESP32 AI聊天机器人技术解析
  • MC68F375 CTM9定时器DASM与PWMSM模块深度解析与实战指南
  • FaceFusion 3.6.0终极实战:5大策略实现影视级人脸融合效果
  • 内容驱动型网站必看:indie-hacker-tools-plus推荐的Next.js、Hono与Astro框架选型指南
  • Claude Code VS Code 插件集成(可视化使用)
  • 如何将手机变身专业卡车仪表盘:ETS2/ATS Telemetry Server完全指南
  • 超市秤盘电子表显示数字电子秤读数检测数据集VOC+YOLO格式104张10类别
  • H1st Trust模块深度解析:构建可信AI系统的3个关键要素
  • MC68HC908AS32A BDLC与CGM模块:硬件状态机与PLL时钟配置详解
  • 2026南京防水补漏维修团队实测盘点TOP4:南京业主房屋渗漏修缮靠谱选择 - 宅安选房屋修缮
  • 深入解析naught:Node.js集群API实现零停机部署的高可用架构原理
  • Aria下载任务管理:如何高效组织你的下载文件
  • CWM模型评估实战:在SWE-bench、LiveCodeBench和MATH基准上复现SOTA结果
  • 如何在iOS应用中快速集成MQTT客户端:CocoaMQTT完整指南
  • Windows AI组件强制清除:RemoveWindowsAI技术架构深度解析
  • 揭秘macOS鼠标滚动的革命性优化:专业级事件处理完全手册
  • SkyDiffusion:用 BEV 视角打开街景→航拍图像合成新范式
  • Material Design Extensions文件对话框:打造专业的文件选择体验
  • 快速射电暴检测中的参数优化与GPU加速实践
  • Google Translate Mac客户端:终极免费翻译工具使用指南
  • 深度解析DeepEval:企业级LLM评估框架的完整实战指南
  • Sioyek技术深度解析:为学术研究优化的PDF阅读器架构设计
  • PotPlayer AI字幕翻译插件社区贡献与开发路线图
  • 终极HTTP请求拦截工具:Tamper Dev完整指南,告别传统代理调试
  • 戴森球计划蓝图仓库:从新手到大师的完整工厂建设指南
  • LD3320语音识别模块:从声波到指令的嵌入式实现解析
  • 终极指南:使用Position Sizer免费EA智能计算外汇交易仓位大小