当前位置：首页 > news >正文

用Verilog手搓一个4x4脉动阵列：从PE模块到完整矩阵乘法的FPGA实现

news 2026/4/21 15:47:06

用Verilog手搓一个4x4脉动阵列：从PE模块到完整矩阵乘法的FPGA实现

在数字信号处理和机器学习加速领域，矩阵乘法是最基础也最耗时的操作之一。想象一下，当你需要处理一个神经网络层的权重矩阵与输入特征向量的乘法时，传统CPU的串行计算方式会成为性能瓶颈。这时候，脉动阵列（Systolic Array）这种高度并行的硬件架构就能大显身手了。

脉动阵列最早由卡内基梅隆大学的H.T.Kung教授提出，它的精妙之处在于：数据像血液在血管中脉动一样，有节奏地在处理单元(PE)之间流动。每个PE只完成简单的乘加操作，但通过精心设计的数据流动路径，整个阵列可以高效完成矩阵乘法。本文将带你用Verilog HDL从零构建一个4x4脉动阵列，并在FPGA上实现矩阵乘法加速。

1. 脉动阵列核心：PE模块设计

PE（Processing Element）是脉动阵列的基本计算单元，它的设计直接影响整个阵列的性能和资源利用率。我们首先需要明确PE的功能需求：

数据输入：权重W、输入数据X、部分和PEIN
数据输出：传递到下一PE的XOUT、更新后的部分和PEOUT
计算逻辑：PEOUT = PEIN + W × X

module PE_module( input CLK, input RSTn, input [7:0] W, // 权重输入 input [7:0] XIN, // 数据输入 input [15:0] PEIN, // 部分和输入 output reg [7:0] XOUT, // 数据输出 output reg [15:0] PEOUT // 部分和输出 ); always @(posedge CLK or negedge RSTn) begin if (!RSTn) begin XOUT <= 0; PEOUT <= 0; end else begin XOUT <= XIN; // 数据直接传递 PEOUT <= PEIN + XIN * W; // 乘累加操作 end end endmodule

这个PE模块有几个关键设计要点：

数据位宽选择：我们使用8位输入数据和16位部分和，这是权衡精度和资源消耗后的常见选择。实际应用中可以根据需求调整DATAWIDTH参数。
同步设计：所有寄存器更新都在时钟上升沿触发，确保时序一致性。异步复位信号RSTn用于初始化寄存器。
流水线设计：PE只包含一级寄存器，在实际高性能设计中，可能需要将乘法和加法分开为两级流水。

注意：PE模块中乘法器的实现方式会影响时序性能。对于高频设计，可能需要使用FPGA内置的DSP块而非LUT实现的乘法器。

2. 阵列互连：构建4x4计算网格

单个PE只能完成一次乘加操作，真正的威力来自于将多个PE互连形成的计算阵列。4x4脉动阵列可以高效计算4x4矩阵乘法，其互连结构需要精心设计：

数据流动方向：权重W静止，X数据向下流动，部分和向右流动
边界处理：首行和首列的PE需要特殊连接
时序对齐：确保数据在正确时钟周期到达目标PE

module Systolic_Array( input CLK, input RSTn, input [7:0] W00,W01,W02,W03, // 第一行权重 W10,W11,W12,W13, // 第二行权重 W20,W21,W22,W23, // 第三行权重 W30,W31,W32,W33, // 第四行权重 input [7:0] XIN0,XIN1,XIN2,XIN3, // 输入数据 output [15:0] PE03_OUT,PE13_OUT,PE23_OUT,PE33_OUT // 结果输出 ); // 内部连接信号声明 wire [7:0] XOUT00_10, XOUT10_20, XOUT20_30, XOUT30_OUT, XOUT01_11, XOUT11_21, XOUT21_31, XOUT31_OUT, XOUT02_12, XOUT12_22, XOUT22_32, XOUT32_OUT, XOUT03_13, XOUT13_23, XOUT23_33, XOUT33_OUT; wire [15:0] PE00_01, PE01_02, PE02_03, PE03_OUT, PE10_11, PE11_12, PE12_13, PE13_OUT, PE20_21, PE21_22, PE22_23, PE23_OUT, PE30_31, PE31_32, PE32_33, PE33_OUT; // 第一列PE实例化 PE_module PE00(.CLK(CLK),.RSTn(RSTn),.W(W00),.XIN(XIN0),.PEIN(0),.XOUT(XOUT00_10),.PEOUT(PE00_01)); PE_module PE10(.CLK(CLK),.RSTn(RSTn),.W(W10),.XIN(XOUT00_10),.PEIN(0),.XOUT(XOUT10_20),.PEOUT(PE10_11)); PE_module PE20(.CLK(CLK),.RSTn(RSTn),.W(W20),.XIN(XOUT10_20),.PEIN(0),.XOUT(XOUT20_30),.PEOUT(PE20_21)); PE_module PE30(.CLK(CLK),.RSTn(RSTn),.W(W30),.XIN(XOUT20_30),.PEIN(0),.XOUT(XOUT30_OUT),.PEOUT(PE30_31)); // 第二列PE实例化 PE_module PE01(.CLK(CLK),.RSTn(RSTn),.W(W01),.XIN(XIN1),.PEIN(PE00_01),.XOUT(XOUT01_11),.PEOUT(PE01_02)); PE_module PE11(.CLK(CLK),.RSTn(RSTn),.W(W11),.XIN(XOUT01_11),.PEIN(PE10_11),.XOUT(XOUT11_21),.PEOUT(PE11_12)); PE_module PE21(.CLK(CLK),.RSTn(RSTn),.W(W21),.XIN(XOUT11_21),.PEIN(PE20_21),.XOUT(XOUT21_31),.PEOUT(PE21_22)); PE_module PE31(.CLK(CLK),.RSTn(RSTn),.W(W31),.XIN(XOUT21_31),.PEIN(PE30_31),.XOUT(XOUT31_OUT),.PEOUT(PE31_32)); // 第三列PE实例化（省略部分代码） // ... endmodule

阵列互连的关键考虑因素：

设计考虑	解决方案	影响
数据对齐	对角线输入	确保每个PE在正确周期收到对应数据
权重加载	预先配置	权重在计算过程中保持不变
结果收集	最右侧PE输出	需要额外时钟周期完成结果汇聚

3. 验证环境搭建与仿真测试

设计完成后，我们需要通过仿真验证其功能正确性。使用ModelSim或Vivado自带的仿真工具可以高效完成这一过程。

首先创建测试平台(Testbench)：

`timescale 1ns/1ps module Systolic_Array_tb(); parameter DATAWIDTH = 8; reg CLK, RSTn; reg [DATAWIDTH-1:0] XIN0,XIN1,XIN2,XIN3; reg [DATAWIDTH-1:0] W00,W01,W02,W03, W10,W11,W12,W13, W20,W21,W22,W23, W30,W31,W32,W33; wire [DATAWIDTH*2-1:0] PE03_OUT,PE13_OUT,PE23_OUT,PE33_OUT; // 实例化被测设计 Systolic_Array uut( .CLK(CLK), .RSTn(RSTn), .W00(W00), .W01(W01), .W02(W02), .W03(W03), // ... 其他端口连接 .PE03_OUT(PE03_OUT), .PE13_OUT(PE13_OUT), .PE23_OUT(PE23_OUT), .PE33_OUT(PE33_OUT) ); // 时钟生成 initial CLK = 0; always #5 CLK = ~CLK; // 测试向量 initial begin // 初始化 RSTn = 0; #20 RSTn = 1; // 配置权重矩阵 W00=1; W01=2; W02=3; W03=4; W10=5; W11=6; W12=7; W13=8; W20=9; W21=10; W22=11; W23=12; W30=13; W31=14; W32=15; W33=16; // 输入数据序列 #10 XIN0=101; XIN1=0; XIN2=0; XIN3=0; #10 XIN0=102; XIN1=113; XIN2=0; XIN3=0; // ... 更多测试向量 end endmodule

仿真验证的关键步骤：

复位测试：验证所有寄存器能否正确初始化
单数据测试：输入单个非零数据，观察传播路径
完整矩阵测试：计算已知结果的矩阵乘法，验证输出
时序检查：确认数据在预期周期到达目标PE

提示：在Vivado中，可以使用ILA（Integrated Logic Analyzer）进行实时调试，观察内部信号的实际波形。

4. FPGA实现与性能优化

完成功能验证后，下一步是将设计部署到实际FPGA平台。以Xilinx Artix-7系列为例，实现流程包括：

综合(Synthesis)：将Verilog转换为底层逻辑元件
实现(Implementation)：完成布局布线
比特流生成(Bitstream Generation)：生成可下载配置文件

性能优化技巧：

流水线设计：在PE内部增加流水线寄存器提高时钟频率
数据重用：优化数据流减少内存带宽需求
资源平衡：合理使用DSP48E1和LUT资源

资源利用率对比（Artix-7 xc7a100t）：

资源类型	基本实现	优化后实现
LUT	1,200	900
FF	800	1,200
DSP48E1	16	16
最大频率	150MHz	250MHz

实际部署时还需要考虑：

数据接口：如何高效地将矩阵数据输入阵列
结果收集：处理输出数据的存储和后续使用
控制逻辑：协调整个计算流程的时序

// 带流水线的PE优化版本 module PE_pipelined( input CLK, input RSTn, input [7:0] W, input [7:0] XIN, input [15:0] PEIN, output reg [7:0] XOUT, output reg [15:0] PEOUT ); reg [7:0] W_reg, XIN_reg; reg [15:0] product; always @(posedge CLK or negedge RSTn) begin if (!RSTn) begin W_reg <= 0; XIN_reg <= 0; product <= 0; PEOUT <= 0; XOUT <= 0; end else begin // 第一级：寄存器输入 W_reg <= W; XIN_reg <= XIN; XOUT <= XIN; // 第二级：乘法 product <= W_reg * XIN_reg; // 第三级：加法 PEOUT <= PEIN + product; end end endmodule

这种三级流水线设计虽然增加了延迟，但可以显著提高系统时钟频率，在需要高吞吐量的应用中非常有用。

查看全文

http://www.jsqmd.com/news/677261/