当前位置：首页 > news >正文

用AXI-Lite给ZYNQ PL模块‘发指令’：一个轻量级PS控制PL的通信框架搭建实录

news 2026/4/14 15:34:30

用AXI-Lite构建ZYNQ PS与PL的高效通信框架：从寄存器映射到神经网络加速器调度

在异构计算架构设计中，ZYNQ系列芯片的独特价值在于其紧密集成的ARM处理器（PS）与可编程逻辑（PL）单元。当我们需要实现诸如AI推理加速、实时电机控制或高速数据预处理等场景时，如何建立PS与PL之间高效可靠的通信机制成为关键挑战。本文将深入探讨基于AXI-Lite协议的轻量级指令下发框架设计，这种方案相比传统的GPIO扩展或DMA传输，在控制灵活性和资源消耗之间取得了完美平衡。

1. AXI-Lite通信架构设计原理

AXI-Lite作为AXI协议的简化版本，特别适合PS与PL之间的寄存器级通信。其典型应用场景包括：配置参数下发、状态寄存器轮询、控制信号触发等。与完整的AXI4协议相比，AXI-Lite去除了突发传输、缓存支持等复杂特性，保留了最基本的读写操作，这使得它在资源占用和时序收敛方面具有明显优势。

在Vivado Block Design中构建基础连接时，需要注意几个关键点：

时钟域一致性：确保PS输出的FCLK_CLK0时钟信号正确连接到AXI互联矩阵和PL逻辑
地址空间分配：在ZYNQ IP的Address Editor中合理规划AXI-Lite从设备的地址范围
复位信号处理：建议使用处理器系统复位模块（proc_sys_reset）统一管理复位信号

一个典型的AXI-Lite寄存器文件接口信号包括：

信号名称	方向	描述
S_AXI_AWADDR	输入	写地址通道，32位地址总线
S_AXI_AWVALID	输入	写地址有效信号
S_AXI_AWREADY	输出	写地址准备信号
S_AXI_WDATA	输入	写数据通道，32位数据总线
S_AXI_WVALID	输入	写数据有效信号
S_AXI_WREADY	输出	写数据准备信号
S_AXI_BRESP	输出	写响应通道，2位响应码
S_AXI_ARADDR	输入	读地址通道，32位地址总线
S_AXI_ARVALID	输入	读地址有效信号
S_AXI_ARREADY	输出	读地址准备信号
S_AXI_RDATA	输出	读数据通道，32位数据总线
S_AXI_RRESP	输出	读响应通道，2位响应码

2. PL端寄存器文件设计与实现

在PL端设计寄存器文件时，我们需要考虑地址解码、读写时序同步以及寄存器功能划分。以下是一个Verilog实现的寄存器文件模板：

module axi_lite_regs #( parameter C_S_AXI_DATA_WIDTH = 32, parameter C_S_AXI_ADDR_WIDTH = 4 )( input S_AXI_ACLK, input S_AXI_ARESETN, // AXI4-Lite接口信号 input [C_S_AXI_ADDR_WIDTH-1:0] S_AXI_AWADDR, input S_AXI_AWVALID, output S_AXI_AWREADY, input [C_S_AXI_DATA_WIDTH-1:0] S_AXI_WDATA, input S_AXI_WVALID, output S_AXI_WREADY, output [1:0] S_AXI_BRESP, output S_AXI_BVALID, input S_AXI_BREADY, // 用户自定义寄存器接口 output reg [31:0] control_reg, input [31:0] status_reg, output reg [31:0] param_reg1, output reg [31:0] param_reg2 ); // 地址解码逻辑 localparam ADDR_LSB = (C_S_AXI_DATA_WIDTH/32) + 1; localparam OPT_MEM_ADDR_BITS = 2; // 寄存器实现 always @(posedge S_AXI_ACLK) begin if (~S_AXI_ARESETN) begin control_reg <= 0; param_reg1 <= 0; param_reg2 <= 0; end else if (slv_reg_wren) begin case (axi_awaddr[ADDR_LSB+OPT_MEM_ADDR_BITS:ADDR_LSB]) 2'h0: control_reg <= S_AXI_WDATA; 2'h1: param_reg1 <= S_AXI_WDATA; 2'h2: param_reg2 <= S_AXI_WDATA; endcase end end // 其余AXI接口逻辑... endmodule

寄存器功能规划建议采用分层设计：

控制寄存器（0x00）：用于启动/停止PL模块、复位状态机等全局控制
参数寄存器组（0x04-0x0C）：存储算法参数、阈值设置等配置信息
状态寄存器（0x10-0x1C）：反馈PL模块当前状态、错误码等信息
数据寄存器（0x20-0x3C）：用于小批量数据交换（超过64字节建议使用DMA）

注意：寄存器地址分配时应保留4字节对齐空间，即使某些寄存器位宽较小。这符合AXI协议规范且能避免地址解码冲突。

3. PS端驱动封装与API设计

在PS端，Xilinx提供了基础的Xil_In32/Xil_Out32函数进行寄存器访问，但在实际项目中，我们需要构建更安全的访问抽象层。以下是一个经过封装的驱动示例：

// axi_lite_driver.h #ifndef AXI_LITE_DRIVER_H #define AXI_LITE_DRIVER_H #include "xil_types.h" typedef struct { u32 base_addr; u32 reg_num; } AxiLiteDev; // 初始化设备 int axi_lite_init(AxiLiteDev *dev, u32 base_addr, u32 reg_num); // 寄存器写入 int axi_lite_write(AxiLiteDev *dev, u32 reg_offset, u32 value); // 寄存器读取 int axi_lite_read(AxiLiteDev *dev, u32 reg_offset, u32 *value); // 位操作（置位/清零） int axi_lite_set_bit(AxiLiteDev *dev, u32 reg_offset, u8 bit_pos); int axi_lite_clear_bit(AxiLiteDev *dev, u32 reg_offset, u8 bit_pos); #endif

对应的实现应包含错误检查和同步机制：

// axi_lite_driver.c #include "axi_lite_driver.h" #include "xil_io.h" #include "xstatus.h" int axi_lite_write(AxiLiteDev *dev, u32 reg_offset, u32 value) { if (!dev || (reg_offset > (dev->reg_num * 4))) return XST_INVALID_PARAM; Xil_Out32(dev->base_addr + reg_offset, value); return XST_SUCCESS; } int axi_lite_read(AxiLiteDev *dev, u32 reg_offset, u32 *value) { if (!dev || !value || (reg_offset > (dev->reg_num * 4))) return XST_INVALID_PARAM; *value = Xil_In32(dev->base_addr + reg_offset); return XST_SUCCESS; }

在实际调用时，建议采用面向对象的方式组织代码：

// 神经网络加速器控制器示例 typedef struct { AxiLiteDev regs; u32 input_addr; u32 output_addr; } NNController; void nn_controller_start(NNController *ctrl, u32 input_size) { axi_lite_write(&ctrl->regs, REG_CTRL, 0x1); // 启动位 axi_lite_write(&ctrl->regs, REG_INPUT_SIZE, input_size); axi_lite_write(&ctrl->regs, REG_INPUT_ADDR, ctrl->input_addr); }

4. 在神经网络加速器中的应用实践

当我们将AXI-Lite框架应用于神经网络加速器调度时，可以设计如下寄存器映射：

地址偏移	寄存器名称	功能描述
0x00	CTRL_REG	控制寄存器（启动/停止/复位）
0x04	STATUS_REG	状态寄存器（忙/就绪/错误码）
0x08	IN_ADDR_LOW	输入数据地址低32位
0x0C	IN_ADDR_HIGH	输入数据地址高32位
0x10	OUT_ADDR_LOW	输出数据地址低32位
0x14	OUT_ADDR_HIGH	输出数据地址高32位
0x18	LAYER_CFG	当前处理层配置参数
0x1C	KERNEL_SIZE	卷积核尺寸参数

对应的PS端调度流程通常包括：

初始化阶段：
- 配置DMA引擎的数据搬运参数
- 设置神经网络各层权重地址
- 预加载第一层输入数据到PL端内存
执行阶段：
- 写入控制寄存器启动当前层计算
- 轮询状态寄存器等待计算完成
- 触发DMA传输下一层所需数据
后处理阶段：
- 读取输出数据并执行softmax等操作
- 解析状态寄存器中的错误信息（如果有）

// 神经网络加速器调度示例 void nn_accelerator_run(NNController *ctrl, NNTask *task) { // 配置DMA传输输入数据 dma_transfer(task->input_data, ctrl->input_addr, task->input_size); // 设置加速器参数 axi_lite_write(&ctrl->regs, REG_LAYER_CFG, task->layer_config); axi_lite_write(&ctrl->regs, REG_KERNEL_SIZE, task->kernel_size); // 启动计算 axi_lite_write(&ctrl->regs, REG_CTRL, CTRL_START); // 等待计算完成 u32 status; do { axi_lite_read(&ctrl->regs, REG_STATUS, &status); } while (status & STATUS_BUSY); // 处理输出 if (!(status & STATUS_ERROR)) { dma_transfer(ctrl->output_addr, task->output_buf, task->output_size); } }

在调试过程中，以下几个技巧可能帮您快速定位问题：