当前位置：首页 > news >正文

一文搞明白 hipBLAS：ROCm 里的 BLAS 加速核心

news 2026/7/1 4:18:38

一文搞明白 hipBLAS：ROCm 里的 BLAS 加速核心

在 GPU 计算世界里，只要你碰到“矩阵乘法、向量加法、Transformer、CNN”，几乎都绕不开一个关键词：BLAS（Basic Linear Algebra Subprograms）。

在 NVIDIA CUDA 生态里是cuBLAS，而在 AMD ROCm 生态里，对应的就是本文主角：

🚀hipBLAS：AMD GPU 上的高性能 BLAS 实现

1. hipBLAS 是什么？

hipBLAS = AMD GPU 上的 BLAS 加速库（类似 cuBLAS）

它提供：

向量运算（Level 1 BLAS）
矩阵-向量（Level 2 BLAS）
矩阵-矩阵（Level 3 BLAS）

核心目标：

用 GPU 的并行能力，加速线性代数计算

🌰 典型函数

类别	函数	作用
Level 1	`hipblasSaxpy`	y = a*x + y
Level 1	`hipblasSdot`	向量点积
Level 3	`hipblasSgemm`	矩阵乘法（最重要）

2. hipBLAS 在 ROCm 体系中的位置

ROCm 软件栈大致是：

PyTorch / TensorFlow / vLLM ↓ ATen / Inductor ↓ HIP runtime (类似 CUDA runtime) ↓ hipBLAS / hipFFT / rocBLAS / rocPRIM ↓ GPU

关键点：

hipBLAS 本质上是 BLAS API + HIP backend 封装

3. hipBLAS vs cuBLAS

特性	cuBLAS	hipBLAS
厂商	NVIDIA	AMD
API风格	CUDA	HIP
功能	BLAS	BLAS
对应关系	CUDA ecosystem	ROCm ecosystem

👉 可以理解为：

hipBLAS = cuBLAS 的 AMD 对应实现

4. hipBLAS 最重要的函数：GEMM

💡 GEMM 是什么？

C = αAB + βC

这是：

深度学习里最核心的计算：矩阵乘法

🌰 PyTorch 背后的真实调用

例如：

importtorch a=torch.randn(1024,4096,device="cuda")b=torch.randn(4096,4096,device="cuda")c=a @ b

在 ROCm 下执行流程：

torch.matmul ↓ ATen operator ↓ HIP kernel dispatch ↓ hipBLAS::hipblasGemmEx ↓ GPU kernel（wavefront并行）

5. 一个 hipBLAS C++ 示例（最经典）

#include<hipblas.h>intmain(){hipblasHandle_t handle;hipblasCreate(&handle);float*A,*B,*C;// C = A * BhipblasSgemm(handle,HIPBLAS_OP_N,HIPBLAS_OP_N,1024,1024,1024,&alpha,A,1024,B,1024,&beta,C,1024);hipblasDestroy(handle);}

6. hipBLAS 在 AI / LLM 中的作用（非常关键）

你可以把 hipBLAS 理解为：

🔥 LLM 推理/训练的“发动机之一”

在 Transformer 中：

模块	是否依赖 BLAS
QKV projection	✔ GEMM
FFN（MLP）	✔ GEMM
Attention score	✔ GEMM
Softmax	❌（非BLAS）

👉 结论：

Transformer 80% 计算都靠 GEMM（hipBLAS）

7. 为什么你在 profiling 里会看到 hipBLAS？

你之前用 rocprofv2 看到：

KernelExecution hipblas / gemm kernel

原因：

PyTorch 调用 matmul
自动 fallback 到 hipBLAS
rocprofiler hook 到 kernel launch

所以你看到的“kernel trace”本质是：

hipBLAS dispatch 的 GPU kernel

8. hipBLAS vs rocBLAS（容易混淆）

很多人会问：

hipBLAS 和 rocBLAS 是什么关系？

答案：

库	角色
rocBLAS	底层高性能实现
hipBLAS	HIP API wrapper（更兼容 CUDA风格）

👉 可以理解为：

hipBLAS = API 层
rocBLAS = 真正干活的底层实现

9. 性能优化关键点

hipBLAS 性能主要受：

1️⃣ Tile 分块策略

GPU wavefront 并行执行 GEMM

2️⃣ Memory coalescing

连续访问 global memory

3️⃣ Tensor Core / Matrix Core（部分 GPU）

4️⃣ 数据布局

row-major vs column-major
stride

10. 常见问题（工程坑）

❌ 1. 找不到 libhipblas.so

/usr/bin/ld: cannot find -lhipblas

解决：

exportLD_LIBRARY_PATH=/opt/dtk/hipblas/lib:$LD_LIBRARY_PATH

❌ 2. 性能不如预期

可能原因：

未使用 GEMM kernel
dtype 不匹配（fp32 vs fp16）
layout 不对（stride问题）

11. 总结一句话

hipBLAS 是 ROCm 生态中负责高性能线性代数计算的核心库，是 PyTorch / vLLM / Transformer 计算性能的底层关键组件。

查看全文

http://www.jsqmd.com/news/1100170/

计算机毕业设计之基于地图点聚合技术的售楼系统

AMD和英特尔哪个好一篇讲清楚优缺点

模型融合：从单体大模型到组合式智能的工程实践

书桌台灯什么牌子好用又实惠？盘点不花冤枉钱的护眼灯，性价比高

硬件面试八股（1）-存储专题

LDPC编码（低密度奇偶校验码）

【Hadoop-H D F S读写流程】

CTF实战：手把手教你用Python脚本秒解BUUCTF那道RSA共模攻击题（附完整代码）

cubemx生成的Lwip问题解决方法,文件丢失？死活ping不通？(dp83848)

# PE防锈袋材质成分与选型逻辑解析

Ghost Downloader：AI 加持的跨平台多线程下载器

为AI Agent配置专属邮箱：从数字身份到A2A通信的工程实践

Excel 客户跟进表怎么设计：字段、阶段、看板和今日待办

经营管理赋能：被低估的孵化器核心竞争力

python里与spark相关的语法介绍

如何保护您的 Reddit 账户：2026 年全方位安全运行Reddit账户

什么是酒吧大屏互动系统？软硬件、功能模块、营收能力一文详解

通俗易懂！三种解法彻底吃透【轮转数组】(LeetCode189)

2026物理AI元年已至，自动驾驶企业该重概念还是重落地？

Linux基础常用命令实操指南

快上车！掌握多尺度Mamba新方法，快人一步发文章

监控与可观察性开源平台 Grafana 13.0.3 发布，多项特性增强与 Bug 修复！

PC+移动端双端测试：功能、兼容、一致性+排期

智慧校园技术改造实战：智能锁身份核验+通断电联动，解决校园安全与运维痛点

2026国产AI写歌工具横评商用合规与效果实测

加密数据分析实战：从识别到解密的系统性方法

3个ComfyUI中文工作流常见问题及解决方案：从困惑到精通

从亚麻布到汽车音响：为什么喇叭音盆材料会影响声音？

圆满收官｜VeryCloud亮相2026亚马逊云科技中国峰会，AI实践获行业积极反馈

TokUI：面向AI场景的流式UI框架

一文搞明白 hipBLAS：ROCm 里的 BLAS 加速核心

1. hipBLAS 是什么？

🌰 典型函数

2. hipBLAS 在 ROCm 体系中的位置

3. hipBLAS vs cuBLAS

4. hipBLAS 最重要的函数：GEMM

💡 GEMM 是什么？

🌰 PyTorch 背后的真实调用

5. 一个 hipBLAS C++ 示例（最经典）

6. hipBLAS 在 AI / LLM 中的作用（非常关键）

在 Transformer 中：

7. 为什么你在 profiling 里会看到 hipBLAS？

8. hipBLAS vs rocBLAS（容易混淆）

9. 性能优化关键点

1️⃣ Tile 分块策略

2️⃣ Memory coalescing

3️⃣ Tensor Core / Matrix Core（部分 GPU）

4️⃣ 数据布局

10. 常见问题（工程坑）

❌ 1. 找不到 libhipblas.so

❌ 2. 性能不如预期

11. 总结一句话

相关文章：