当前位置: 首页 > news >正文

CANN/ops-blas STPTTR测试文档

stpttr算子实现

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

概述

BLAS stpttr算子实现。

stpttr(Symmetric Triangular matrix, Packed format To Triangular matrix, Regular storage)算子将 LAPACK 压缩格式(packed format)中的对称三角矩阵展开为按列主序存储的常规二维矩阵。仅写入uplo指定的三角区域,矩阵另一三角及未参与运算的元素保持原值不变。

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品×

目录结构介绍

test/stpttr/ ├── CMakeLists.txt // 编译工程文件 ├── README.md // 说明文档 └── arch35/ ├── stpttr_test.cpp // 精度测试 ├── stpttr_golden.h // CPU golden 实现 ├── stpttr_testcases.csv // 精度测试用例表 └── stpttr_config.json // 算子测试配置(指针类型、精度模式等)

算子描述

  • 算子功能:
    将压缩格式三角矩阵AP中的元素按uplo展开到常规矩阵A的对应三角区域:

    • uplo == ACLBLAS_LOWER:复制到A的下三角(含对角),上三角不变
    • uplo == ACLBLAS_UPPER:复制到A的上三角(含对角),下三角不变

    AP为列优先压缩存储,长度为n * (n + 1) / 2Alda × n的列主序矩阵,lda >= max(1, n)n == 0时直接返回成功,不访问缓冲区。

    对应的接口为:

aclblasStatus_t aclblasStpttr( aclblasHandle_t handle, aclblasFillMode_t uplo, int n, const float *AP, float *A, int lda);
参数stpttr 参数说明
参数列表Param.Memoryin/out含义
handleinaclbLAS 库上下文句柄。
uploin三角存储方式:ACLBLAS_UPPER(121)、ACLBLAS_LOWER(122)。
nin方阵维数,须 >= 0;为 0 时立即返回成功。
APdevicein压缩格式输入,<type> 数组,长度 n*(n+1)/2。
Adevicein/out常规输出矩阵,<type> 数组,维度 lda × n;非目标三角保持原值。
ldainA 的主维长度,须满足 lda >= max(1, n)。
  • 算子规格:

    算子类型(OpType)stpttr
    算子输入nameshapedata typeformat
    APn*(n+1)/2floatpacked
    算子输出Alda * nfloatND
    核函数名stpttr_kernel
  • 算子实现:

    Host 侧完成参数校验与 Tiling 计算(按 Vector Core 数切分列块),将 Tiling 数据拷贝至 Device 后,通过stpttr_kernel_do启动 Kernel。Kernel 按列从 GM 上的压缩缓冲区AP分块搬入 UB,再写回 GM 上常规矩阵A的对应三角列段;lda > n时列间存在 stride 间隔。

  • 调用实现
    使用内核调用符<<<>>>stpttr_kernel_do)在aclblas关联的 stream 上异步执行,Host 在返回前同步 stream。

测试用例覆盖

分组用例数覆盖场景
L0 参数校验4未初始化 handle、n<0、lda 过小、非法 uplo
L0 功能13n=0/1/2/4/32/128/512,LOWER/UPPER
L1 规模与 lda18n=8~1024、lda>n(8×12、16×32 等)
L1 特殊数值12全零、大数、负数、inf、nan、极值组合
L1 参数校验8AP/A 空指针、非法 uplo、n=0 与 lda 组合
L1 往返与大规模4strttp→stpttr 往返(32×32)、n=10240

ST 采用 GTest 参数化 +stpttr_testcases.csv/stpttr_config.json,精度模式为EXACT(仅比对有效三角区,其余位置为 sentinel -999)。

编译运行

在本样例根目录下执行如下步骤,编译并执行算子。

  • 配置环境变量
    请根据当前环境上CANN开发套件包的安装方式,选择对应配置环境变量的命令。

    • 默认路径,root用户安装CANN软件包

      source /usr/local/Ascend/cann/set_env.sh
    • 默认路径,非root用户安装CANN软件包

      source $HOME/Ascend/cann/set_env.sh
    • 指定路径install_path,安装CANN软件包

      source ${install_path}/cann/set_env.sh
  • 样例执行

    bash build.sh --ops=stpttr --soc=ascend950 --run

    其中--soc可选参数,用于指定目标硬件平台(与上文「产品支持情况」对应)。按实际硬件选用:

    产品--soc取值
    Ascend 950PR / Ascend 950DTascend950
    Atlas A3 训练系列产品 / Atlas A3 推理系列产品ascend910_93
    Atlas A2 训练系列产品 / Atlas A2 推理系列产品ascend910b

    执行结果如下,说明精度对比成功。

    [PASS] stpttr_test

【免费下载链接】ops-blas本项目是CANN提供的高性能线性代数计算以及轻量化GEMM调用算子库。项目地址: https://gitcode.com/cann/ops-blas

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/918875/

相关文章:

  • LinkSwift:开源网盘直链提取工具的技术架构与实践指南
  • 2×300MW发电厂厂用电系统设计
  • 进口汽车膜2026解析,高性价比之选揭秘 - 资讯纵览
  • 魔兽世界玩家的智能宏革命:GSE Advanced Macro Compiler 如何打破255字符限制
  • DeepSeek-R1-Distill-Qwen-1.5B服务化推理:MindIE Service配置与优化指南
  • BitCPM4-CANN-1B-gguf量化技术详解:从伪量化到真实部署的完整转换指南
  • SAP F110自动付款配置避坑指南:从FBZP到供应商主数据,一次讲清所有关键点
  • 抖音直播间弹幕抓取终极指南:DouyinLiveWebFetcher 2025最新技术解析 [特殊字符]
  • Qwen3.6-27B-AEON-Ultimate-Uncensored-BF16多GPU部署方案:实现高效分布式推理
  • 3步构建企业级LLM评测体系:DeepEval实战指南
  • nanowhale-100m与大型语言模型的对比:小模型的优势与局限性分析 [特殊字符]
  • CANN/catlass列广播乘法API
  • 为什么Poppins是2024年最佳免费多语言字体选择:5个实用理由与完整指南
  • 如何高效使用Iwara视频下载工具:5分钟快速入门指南
  • 对比一圈后!2026 最新降AI率平台测评与推荐 - 降AI小能手
  • VRM4U技术实现:Unreal Engine 5中的VRM模型运行时加载方案
  • distilbert-NER完全指南:如何用轻量级模型实现高效命名实体识别
  • 5个关键功能:如何用Lailloken-UI提升你的《流放之路》游戏体验
  • 向量引擎API中转站深度测评:如何实现低成本、高并发的向量检索
  • GPT2_PMC特殊token设计:@@Q_START@@与@@A_END@@的巧妙应用
  • Equalizer APO:3个步骤让你的Windows电脑音频达到专业级水准
  • UE5地编:材质蓝图
  • 提示工程核心:从沟通思维到实战框架,掌握AI高效协作的关键
  • ACE-Step 1.5 XL Turbo:8步生成高质量音乐的革命性AI模型深度解析
  • ELPV数据集:2624张电致发光图像如何提升太阳能电池缺陷检测准确率300%
  • Granite-3.0-2B-Base-GGUF vs 其他2B级模型:终极性能对比分析
  • 个性化推荐与活动配置方案
  • Stable Diffusion 3 Medium架构深度解析:MMDiT技术原理揭秘
  • 1.接口测试核心概念
  • 不确定信息认知对象的仿反馈认知智能机制与计算模型构建【附仿真】