当前位置：首页 > news >正文

现代gpu编程系统教程(一) ------- 概述

news 2026/6/25 22:31:42

Modern GPU Programming For MLSys - 书籍总结

目标GPU架构: NVIDIA Blackwell
编程语言: TIRx (Python DSL)

📌 核心摘要

本书由卡内基梅隆大学（CMU）的Machine Learning Systems课程衍生而来，系统性地讲解如何为现代 GPU（以 Blackwell 架构为目标）编写高性能机器学习内核。

核心理念：要让 GPU 内核跑得快，不能只靠优化技巧清单。现代 GPU 架构引入了更丰富的内存空间、新的访问模式和高度专业化的执行单元。编写高性能内核需要两样东西：

对硬件的清晰心智模型
对高性能内核构建方法的实践理解

主线案例：快速矩阵乘法（GEMM）和 FlashAttention，围绕三大核心优化要素展开：

数据布局（Data Layout）
异步数据传输（Async Data Movement）
异步协调（Async Coordination）

一、全书结构概览

部分	内容	章节数
Part I	理解 GPU 硬件	9 章
Part II	TIRx 编程模型	2 章
Part III	GEMM：从分块到 SOTA	3 章
Part IV	Flash Attention 4	1 章
Reference	语言参考与编译器内部	多章

二、Part I — 理解 GPU 硬件

2.1 GPU 执行模型

线程层级：Thread → Warp → Warpgroup → CTA → Cluster → Grid

内存层级：

寄存器（Registers）：每线程私有
共享内存（SMEM）：CTA 内共享
全局内存（GMEM）：跨 SM 访问
TMEM：Blackwell 新增的专用内存空间（128 Lane × 512 Col 二维 scratchpad）

计算单元：

CUDA Cores：通用标量/向量计算
Tensor Cores：专用矩阵乘法（MMA）
TMA 引擎：专用异步数据传输

核心思想：内核是一个将数据在这些内存空间之间流动、并在独立计算与数据传输引擎之间交接工作的流水线。反复的目标是让这些引擎同时保持忙碌。

2.2 什么让内核跑得快 — Roofline 模型

性能天花板由内存带宽或计算吞吐量决定
算术强度（Arithmetic Intensity）= 计算量 / 数据访问量
GEMM 属于计算密集型（高算术强度），Elementwise 属于内存密集型（低算术强度）
优化阶梯：重叠（Overlap）是主要杠杆 → 占用率（Occupancy）→ 资源压力管理

2.3 数据布局与记法

同一组数字，写入内存的物理排列方式不同，在同一个 GPU 上性能可以差一个数量级。

使用统一记法：S[(shape) : (strides)]，带命名轴（@laneid, @TLane 等）和复制项R[...]
Swizzle：XOR 地址重映射，消除共享内存 Bank 冲突
数据布局决定了合并访问、Bank 冲突和引擎能否读取一个 Tile

2.4 Tensor Core 操作数布局（跨代对比）

代际	Tensor Core 指令	累加器位置	特点
Ampere	寄存器 Fragment 跨 Warp Lane	寄存器	ldmatrix 从 SMEM 到寄存器 Fragment
Hopper	wgmma，SMEM Descriptor	寄存器	引入 swizzle 格式
Blackwell	tcgen05	TMEM	块量化 MMA，Scale Factor 存于 TMEM

2.5 异步数据传输 — TMA

TMA 是 GMEM ↔ SMEM 之间的异步 Tile 拷贝硬件引擎
一个线程发出命令，硬件引擎搬运整个 Tile
通过 tensor-map descriptor 描述全局 Tensor 形状、步长、Tile 坐标和 SMEM Swizzle 模式
TMA 加载通过 mbarrier 完成（带字节计数追踪）
TMA 存储使用 commit group 和 wait group
TMA 可在写入 SMEM 时自动 Swizzle，使 Tile 直接落入 Tensor Core 期望的布局

2.6 Tensor Core：tcgen05（Blackwell）

Blackwell 的新一代 MMA 指令
累加器存储在 TMEM 中（不再占用寄存器）
支持cta_group::1和cta_group::2两种协作模式
支持块量化 MMA（Block-Scaled MMA），Scale Factor 存储在 TMEM 中
解决了 Hopper 及之前架构中累加器 Fragment 占用大量寄存器的问题

2.7 专用内存 — TMEM

Blackwell 独有的内存空间
128 Lane × 512 Col 的二维 Scratchpad
以 32 列为单位显式分配和释放
普通 SMEM 加载/存储无法访问 TMEM
数据通过专用异步tcgen05指令在 TMEM、寄存器和 SMEM 之间移动

2.8 异步协调 — mbarriers

TMA 和 Tensor Core 操作都是异步的，发出 ≠ 完成
mbarrier是异步交接的显式完成信号：生产者到达（arrive），消费者等待（wait）
携带Phase 位，每轮完成后翻转，使同一 barrier 可在多次循环迭代中复用
追踪到达计数和（对 TMA）字节计数

2.9 高级：Cluster Launch Control（CLC）

Blackwell 的硬件 Work-Stealing 机制
常驻 Cluster 可在运行时向硬件 Grid 调度器请求新 Tile
两个 PTX 指令：一个请求工作，一个读取是否成功
主要好处：改善尾部行为（tail behavior），完成快的 CTA 可以拉更多工作而不是空闲

三、Part II — TIRx 编程模型

TIRx是一个 Python DSL，用于逐步构建真实的 GPU 内核示例
贴近硬件，既能进行底层控制推理，又能通过可运行代码学习
核心概念：Scope / Layout / Dispatch模型
提供 Layout API 用于描述数据布局

四、Part III — GEMM：从分块到 SOTA

这是全书的核心实践部分，通过 9 个步骤逐步将 GEMM 从正确实现优化到 SOTA 性能。

4.1 步骤 1-3：构建正确的分块 GEMM

步骤	内容	关键变化
Step 1	顺序单 Tile GEMM	建立 128×128 输出 Tile 的基线
Step 2	K 循环累加	沿 K 维度分块累加部分和
Step 3	空间分块（多 CTA）	跨多个 CTA 分块处理完整矩阵

设计理念：正确性优先，性能是后续章节的任务。从能产生正确结果的最小内核开始，每次只做一个决策地增长。

4.2 步骤 4-6：TMA 异步流水线

步骤	内容	关键变化
Step 4	TMA 异步加载	从同步 Tx.copy 切换到 TMA 引擎
Step 5	软件流水线（PIPE_DEPTH=2）	双缓冲 SMEM，预取下一个 K Tile
Step 6	常驻内核 + Tile 调度器	重塑启动模式为 Persistent Kernel

4.3 步骤 7-9：Warp 专业化与 Cluster

步骤	内容	关键变化
Step 7	Warp 专业化 + 流水线	将 Warp 分为 TMA Producer、MMA Consumer、Writeback 三个角色
Step 8	2-CTA Cluster	两个 CTA 共享 SMEM，256×256 Tile
Step 9	多 Consumer Warp 专业化	第二个 MMA Consumer，512×256 Tile，B Tile 被两个 Consumer 复用

核心洞察：流水线 GEMM 仍然让一个 Warpgroup 按顺序做所有事（加载 → 计算 → 写回），这就是瓶颈。解决方案是不要让一个团队做所有事——将每个工作交给专用的 Warp，让它们同时运行，通过软件流水线连接。

4.4 GEMM 优化路径总结

正确性 性能优化 SOTA │ │ │ Step1→ Step2→ Step3→ Step4→ Step5→ Step6→ Step7→ Step8→ Step9单Tile K循环 空间分块 TMA异步 软件流水线 常驻内核 Warp专业化2-CTA 多Consumer

五、Part IV — Flash Attention 4

5.1 算法形状

Attention 不是重复一个 MMA（像 GEMM 那样），而是两个 MMA 中间夹着 Softmax：

Q,K →[MMA1:Score]→ S →[Softmax]→ P →[MMA2:Value]→ O

5.2 核心挑战

Attention 的难点在于：每当运行的 Softmax 最大值变化时，已经累积的 O 就突然处于错误的尺度，必须在下一个 Value MMA 安全累加之前重新缩放（rescale）。

两个 MMA 之间有真实工作：online softmax、causal masking、rescaling
Softmax 本身在CUDA Core 上运行（两个 Tensor Core MMA 之间）
指数函数和行归约直接位于关键路径上
所以 Attention优化很大程度上是 Softmax 优化：重构 exp 计算，让 Softmax 与 MMA 重叠而不是被它阻塞

5.3 内核组成

Warp 角色分工（与 GEMM 类似）
Online Softmax 重缩放
Causal Masking
GQA（GroupedQuery Attention）支持
Tile 调度
Barrier 连接各角色

方面	GEMM	Flash Attention 4
MMA 阶段	单一 MMA 重复	两个 MMA + Softmax 中间工作
累加器	只累加	需要重新缩放已有结果
关键路径	Tensor Core	CUDA Core（Softmax）也关键
数据依赖	简单	复杂（rescaling 依赖运行最大值）

六、核心设计哲学与启示

✅ 关键原则

正确性优先，渐进式优化：从最小正确内核开始，每次只改变一个契约（Scope / Layout / Dispatch）
重叠是主要杠杆：让TMA、Tensor Core、CUDA Core 同时工作，而不是轮流等待
Warp 专业化：不同 Warp承担不同角色（Producer / Consumer / Writeback），通过 Barrier 协调
数据布局决定性能：同样的数据，不同的物理排列可以差一个数量级
异步是常态：TMA 和 Tensor Core都是异步的，mbarrier 是显式完成信号
Blackwell 的范式转变：TMEM 解放了寄存器压力，tcgen05支持块量化，CLC 实现硬件 Work-Stealing

🎯 学习路径建议

硬件理解 → TIRx 编程模型 → GEMM 渐进优化 → Flash Attention 综合应用 ↓ ↓ ↓ ↓ Part I Part II Part III Part IV(9章)(2章)(3章,9步)(1章)

七、总结

Modern GPU Programming For MLSys 是一本以实践为导向的 GPU 高性能内核编程指南。与传统的"优化技巧列表"不同，本书采用了一条清晰的学习路径：

先理解硬件（执行模型、内存层次、计算单元、数据布局）
再学编程模型（TIRx DSL，贴近硬件但可运行）
最后逐步构建 SOTA内核（GEMM 9步渐进 + Flash Attention 4）

最大的价值在于：它展示了高性能内核不是"一次性设计出来的"，而是通过一系列小的、可验证的增量改进构建的。每一步只改变一个方面（Scope / Layout / Dispatch），让正确性始终可追踪。

查看全文

http://www.jsqmd.com/news/1077529/

NCMDump是什么？网易云NCM格式转换工具详解及使用教程（附替代方案）

3.7V升压5V2A芯片哪个好？PW6276同步升压低功耗方案

基于 OB2513x开关芯片的PSR DCM模式反激电源的FB波形

欧拉-丸山法在McKean-Vlasov SDE不变测度收敛性中的分析与MATLAB实践

Django毕业设计-基于 Django + 协同过滤算法的电影推荐系统设计与实现基于 Django + 协同过滤算法的个性化电影推荐平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)

SAMTEC/申泰 asp系列 134488 01 中文资料板对板连接器

2019年全球10km分辨率人类发展指数栅格数据集

星载深度学习实战：空间遥感与自主导航的轻量AI部署

LSTM时间序列实战：工业级预测的12个关键工程细节

电影评分为什么是离散分布？认知、平台与技术的三重约束

从 PHP 到 AI + Golang，程序员自救转型手记（六）：泛型基服务、控制器、仓储实现，自动发现和注册业务路由

游泳池表面涂装，从别墅泳池到大型主题乐园，选对材料是关键

线性回归实战：从数据到利润的商业建模指南

【数据库系统原理】第22篇：索引的神经：哈希索引、位图索引与全文索引的原理及应用场景

星露谷物语模组创作革命：从游戏玩家到数字园艺师的蜕变之旅

AI安全实战手记：从启发式扫描到神经符号防火墙

EXE软件加密实战：从原理到应用，保护你的代码与授权

硬件安全引擎描述符机制：嵌入式网络加密加速的核心原理与实践

一个项目对接N个团队，沟通到崩溃？公墓设计急需一站式的“省心方案”

机器学习效率指标实战：Latency、内存与功耗三维评估

Okbiye AI PPT 深度实测：毕业论文答辩演示文稿，告别通宵返工

神经网络在非线性ODE贝叶斯逆问题中的应用与优化

【信息科学与工程学】计算机科学与自动化——第二十四篇编译器10——编译原理与词法分析02

Conversational AI工程落地：分层架构与NLU实战指南

LLM基础原理与应用指南

实战指南：如何用PX4-Autopilot构建智能电力巡检无人机

计算机毕业设计之jsp基于SSM的图书管理系统

【毕业设计】基于 Django + 协同过滤算法的在线影视推荐交互平台设计与实现基于 Django + 协同过滤算法的电影评分推荐分析系统(源码+文档+远程调试，全bao定制等)

VLA机器人如何落地工厂？Agentic Skills工业级架构解析

Scikit-Learn特征选择实战：过滤/包装/嵌入三法精要