当前位置：首页 > news >正文

脉动阵列不只是理论：在AI芯片和Google TPU里，它是怎么跑起来的？

news 2026/8/3 16:16:18

脉动阵列：从理论到AI芯片实战的架构革命

当你在手机上使用人脸识别解锁时，背后可能正有数百万次矩阵乘法在专用芯片上飞速完成。这种高效计算的秘密武器，正是许多AI加速芯片核心的脉动阵列架构。不同于传统CPU的通用计算模式，脉动阵列通过精妙的数据流动设计，将计算效率提升到令人惊叹的水平。

Google的TPU、华为的昇腾等AI芯片都采用了脉动阵列设计，它们能够在极低功耗下完成海量矩阵运算。理解这种架构不仅对芯片设计者重要，对算法工程师和软件开发者同样关键——知道计算如何在实际硬件上执行，才能更好地优化模型和算法。让我们揭开这一架构的神秘面纱，看看它是如何在AI计算中发挥威力的。

1. 脉动阵列的核心原理：数据流动的艺术

脉动阵列（Systolic Array）的概念最早由卡内基梅隆大学的H.T.Kung教授在1978年提出，其灵感来源于人体血液循环系统。就像心脏有节奏地泵送血液一样，脉动阵列中的数据处理单元（PE）也按照固定节奏接收、计算并传递数据。

1.1 基本工作模式

每个PE单元都像流水线上的工人，只专注于一项简单任务：接收输入数据，执行乘加运算，然后将结果传递给相邻单元。这种设计带来了三个关键优势：

数据复用最大化：每个数据元素会被多个PE重复使用，大幅减少内存访问
计算并行化：数百甚至数千个PE可以同时工作
确定性的数据流：简化了芯片设计中的时序控制

// 简化的PE单元Verilog代码示例 module PE_module(CLK, RSTn, W, XIN, PEIN, XOUT, PEOUT); parameter DATAWIDTH = 8; input CLK, RSTn; input [DATAWIDTH-1:0] W, XIN; input [DATAWIDTH*2-1:0] PEIN; output [DATAWIDTH-1:0] XOUT; output [DATAWIDTH*2-1:0] PEOUT; always @(posedge CLK or negedge RSTn) begin if (!RSTn) begin XOUT <= 0; PEOUT <= 0; end else begin XOUT <= XIN; // 将输入数据传递给下一个PE PEOUT <= PEIN + XIN * W; // 乘加运算 end end endmodule

1.2 与传统架构的对比

传统CPU和GPU采用"取指-解码-执行"的冯·诺依曼架构，而脉动阵列更像是一条精心设计的计算流水线。下表展示了关键区别：

特性	传统CPU/GPU	脉动阵列
数据流动	随机访问内存	定向流动
计算单元	通用ALU	专用PE
能效比	相对较低	极高
适用场景	通用计算	特定计算模式
编程模型	灵活	固定模式

提示：脉动阵列特别适合处理具有规则数据依赖关系的计算，如矩阵乘法、卷积运算等。

2. 脉动阵列在AI芯片中的实战应用

Google的TPU是脉动阵列最著名的工业级应用。第一代TPU采用256×256的脉动阵列，能够在单个时钟周期内完成65,536次乘加运算。这种设计使其在推理任务中的能效比达到传统GPU的10倍以上。

2.1 TPU中的脉动阵列实现

TPU的脉动阵列专门针对神经网络中的矩阵乘法优化。权重数据会预先加载到PE单元中，输入数据则从左向右流动，在流动过程中与权重相乘并累加。这种设计完美匹配了神经网络前向传播的计算模式。

实际运行流程可分为三个阶段：

权重加载阶段：将神经网络层的权重矩阵配置到各个PE中
数据流动阶段：输入特征图按节奏流入阵列
结果收集阶段：输出特征图从阵列底部流出

2.2 针对卷积运算的优化

虽然卷积运算看起来不像矩阵乘法那样规则，但可以通过im2col等技术将其转换为矩阵乘法形式。下图展示了3×3卷积如何映射到脉动阵列：

输入数据流 → [PE00] → [PE01] → [PE02] ↓ ↓ ↓ [PE10] → [PE11] → [PE12] ↓ ↓ ↓ [PE20] → [PE21] → [PE22]

每个PE存储一个卷积核权重，输入特征图以滑动窗口方式流过阵列。这种设计消除了传统架构中大量数据搬运的开销，使得TPU在处理卷积层时尤其高效。

3. 脉动阵列的设计挑战与解决方案

尽管脉动阵列效率惊人，但要将其成功应用于商业芯片仍面临诸多挑战。理解这些挑战对评估不同AI加速器的优劣至关重要。

3.1 数据供给瓶颈

脉动阵列的计算能力可能高达每秒万亿次操作，但如何持续为其提供数据成为关键难题。现代解决方案包括：

片上缓存分级：多级缓存减少外部内存访问
数据压缩技术：减少需要传输的数据量
智能预取：预测下一步需要的数据

3.2 灵活性限制

传统脉动阵列一旦设计完成，其数据流模式就固定不变。为适应多样化的AI模型，现代设计引入了可重构特性：

可编程数据流：支持多种数据流动方向
动态PE功能：单个PE可配置为不同计算模式
稀疏计算支持：跳过零值计算提升效率

// 支持稀疏计算的PE改进示例 always @(posedge CLK or negedge RSTn) begin if (!RSTn) begin XOUT <= 0; PEOUT <= 0; end else if (XIN != 0 && W != 0) begin // 跳过零值计算 XOUT <= XIN; PEOUT <= PEIN + XIN * W; end else begin XOUT <= XIN; PEOUT <= PEIN; end end