当前位置：首页 > news >正文

手把手教你用脉动阵列实现FIR滤波器：从理论到VLSI设计的完整流程

news 2026/8/3 14:51:20

手把手教你用脉动阵列实现FIR滤波器：从理论到VLSI设计的完整流程

在数字信号处理领域，FIR滤波器因其线性相位特性和稳定性而广受欢迎。但当面对高性能、低功耗的应用场景时，传统实现方式往往难以满足需求。脉动阵列（Systolic Array）作为一种高度并行化的硬件架构，为解决这一难题提供了优雅的方案。本文将带您从零开始，完整走过FIR滤波器的脉动阵列实现全流程——从依赖图绘制到VLSI设计，每个步骤都配有可立即上手的代码示例和优化技巧。

1. 脉动阵列与FIR滤波器的天然契合

想象一下心脏有节奏的搏动：血液规律地流入、经过处理、再泵出——这正是脉动阵列名称的由来。这种架构特别适合FIR滤波器的并行计算，因为：

数据流规律性：每个时钟周期都有新数据进入处理单元(PE)
局部连接：PE间只与相邻单元通信，布线复杂度低
流水线特性：可实现每个时钟周期输出一个结果的高吞吐

以3抽头FIR滤波器为例，其数学表达式为：

y[n] = h[0]*x[n] + h[1]*x[n-1] + h[2]*x[n-2]

在传统实现中，这需要：

3个乘法器
2个加法器
2个延迟单元

而通过脉动阵列，我们可以将这些计算分布到多个PE中，实现资源复用和时序优化。下表对比了两种实现方式的关键指标：

指标	传统实现	脉动阵列	优势说明
关键路径延迟	T_mult + 2*T_add	T_mult + T_add	减少加法器级联
布线复杂度	全局互联	局部互联	降低布局布线难度
时钟频率	较低	较高	更适合高频设计
资源利用率	静态分配	动态复用	节省芯片面积

提示：选择脉动阵列实现时，需要权衡吞吐量和延迟。虽然脉动阵列能提高吞吐量，但初始填充管道会导致首结果延迟增加。

2. 从算法到硬件：依赖图与映射技术

2.1 构建FIR滤波器的依赖图

依赖图(Dependency Graph, DG)是硬件映射的桥梁。对于3抽头FIR滤波器，其规则迭代算法可以表示为：

for n in range(N): for k in range(3): y[n] += h[k] * x[n-k]

对应的二维依赖图具有以下特征：

节点：(n,k)代表计算h[k]*x[n-k]
边类型：
- 输入数据流：垂直方向 (Δn=1, Δk=0)
- 系数流：水平方向 (Δn=0, Δk=1)
- 结果累加：对角线方向 (Δn=1, Δk=-1)

用Python生成依赖图的示例代码：

import matplotlib.pyplot as plt import numpy as np def plot_dependency_graph(): fig, ax = plt.subplots() for n in range(5): for k in range(3): ax.plot(n, k, 'bo') if n > 0: ax.arrow(n-1, k, 0.9, 0, head_width=0.1) # 数据流 if k > 0: ax.arrow(n, k-1, 0, 0.9, head_width=0.1) # 系数流 if n > 0 and k < 2: ax.arrow(n-1, k+1, 0.9, -0.9, head_width=0.1) # 结果流 ax.set_xlabel('Time Index (n)') ax.set_ylabel('Coefficient Index (k)') plt.grid() plt.show()

2.2 线性映射技术详解

将N维依赖图映射到(N-1)维硬件阵列，需要三个关键向量：

投影向量(d)：决定哪些节点映射到同一PE
处理器空间向量(p)：确定节点到PE的映射关系
调度向量(s)：确定计算发生的时间步

对于FIR滤波器，常见的设计方案有：

设计类型	投影向量d	处理器向量p	调度向量s	数据流动特点
输入固定	(1,0)	(0,1)	(1,0)	输入广播，系数流动
系数固定	(0,1)	(1,0)	(0,1)	系数广播，输入流动
输出固定	(1,-1)	(1,1)	(1,0)	结果保留，输入系数流动

以"输入广播、系数流动"方案为例，Verilog实现的关键部分：

module PE #(parameter WIDTH=16) ( input clk, rst, input [WIDTH-1:0] x_in, h_in, input [WIDTH-1:0] partial_in, output reg [WIDTH-1:0] x_out, h_out, output reg [WIDTH-1:0] partial_out ); reg [WIDTH-1:0] h_reg; always @(posedge clk) begin if (rst) begin x_out <= 0; h_out <= 0; partial_out <= 0; h_reg <= 0; end else begin h_reg <= h_in; x_out <= x_in; h_out <= h_reg; partial_out <= partial_in + x_in * h_reg; end end endmodule

注意：选择映射方案时，硬件利用率η=1/|s·d|必须尽可能高。理想情况下η=1，表示每个时钟周期PE都在有效工作。

3. VLSI实现中的工程优化技巧

3.1 资源复用与时序优化

在实际芯片设计中，我们需要在速度和面积间取得平衡。脉动阵列的优化空间包括：

乘法器共享：使用时间复用技术减少乘法器数量
加法器树优化：Wallace树结构减少加法器级数
位宽压缩：采用CSD编码减少非零位数量

一个优化的PE单元可能包含：

module OptimizedPE #(parameter WIDTH=16) ( input clk, rst, input [WIDTH-1:0] x_in, h_in, input [2*WIDTH-1:0] partial_in, output reg [WIDTH-1:0] x_out, output reg [2*WIDTH-1:0] partial_out ); // CSD编码乘法 wire [2*WIDTH-1:0] product; CSD_multiplier mult(.x(x_in), .h(h_in), .out(product)); // 三级流水加法器 reg [2*WIDTH-1:0] partial_stage[1:0]; always @(posedge clk) begin partial_stage[0] <= partial_in + product; partial_stage[1] <= partial_stage[0]; partial_out <= partial_stage[1]; x_out <= x_in; end endmodule

3.2 解决边界条件问题

脉动阵列在边界处需要特殊处理，常见解决方案：

虚拟PE技术：通过多路复用器模拟边界PE行为
控制信号生成：用有限状态机管理不同工作阶段
数据对齐缓冲：FIFO调节数据到达时间

边界处理的Verilog示例：

genvar i; generate for (i=0; i<TAPS; i=i+1) begin: PE_ARRAY if (i == 0) begin // 第一个PE特殊处理 PE pe(.clk(clk), .rst(rst), .x_in(x_in), .h_in(h_reg[i]), .partial_in(0), .x_out(x_bus[i]), .h_out(h_bus[i]), .partial_out(partial_bus[i])); end else if (i == TAPS-1) begin // 最后一个PE特殊处理 PE pe(.clk(clk), .rst(rst), .x_in(x_bus[i-1]), .h_in(h_bus[i-1]), .partial_in(partial_bus[i-1]), .x_out(), // 不连接 .h_out(), // 不连接 .partial_out(y_out)); end else begin // 中间PE标准连接 PE pe(.clk(clk), .rst(rst), .x_in(x_bus[i-1]), .h_in(h_bus[i-1]), .partial_in(partial_bus[i-1]), .x_out(x_bus[i]), .h_out(h_bus[i]), .partial_out(partial_bus[i])); end end endgenerate

4. 验证与性能分析

4.1 功能验证方法学

完整的验证流程应当包含：

单元测试：每个PE的独立功能验证
数据流测试：验证边界条件和数据时序
性能测试：测量吞吐量和延迟

使用SystemVerilog的测试平台示例：

module tb_FIR_systolic; reg clk, rst; reg [15:0] x_in, h_in; wire [31:0] y_out; FIR_systolic #(.TAPS(3)) dut (.*); initial begin clk = 0; forever #5 clk = ~clk; end initial begin // 初始化 rst = 1; x_in = 0; h_in = 0; #20 rst = 0; // 加载系数 h_in = 16'h2000; #10; // 0.25 h_in = 16'h4000; #10; // 0.5 h_in = 16'h2000; #10; // 0.25 // 输入测试序列 x_in = 16'h7FFF; #10; // 1.0 x_in = 16'h0000; #10; // 0.0 x_in = 16'h0000; #10; // 0.0 ... // 验证输出 #15 assert (y_out == 32'h20000000) else $error("Test 1 failed"); #10 assert (y_out == 32'h30000000) else $error("Test 2 failed"); end endmodule