当前位置：首页 > news >正文

AXI DMA实战：从ZYNQ PS到PL的高效数据通路构建【Vivado设计】

news 2026/6/29 23:13:01

1. AXI DMA基础：为什么需要它？

在ZYNQ SoC开发中，数据传输效率往往是瓶颈所在。想象一下这样的场景：你的PL端连接了一个高速ADC，每秒产生10MB的采样数据，而PS端需要实时处理这些数据。如果让CPU亲自搬运每个字节，就像让CEO去前台收发快递——不仅浪费核心资源，还会导致系统卡顿。这就是AXI DMA存在的意义。

AXI DMA全称AXI Direct Memory Access，它就像个智能快递分拣系统。我曾在图像处理项目中实测，使用DMA后CPU负载从85%直降到12%，而吞吐量提升了8倍。其核心能力体现在三个方面：

零CPU干预：数据在DDR3和PL外设间自动搬运
双通道设计：MM2S（内存到流）和S2MM（流到内存）独立工作
两种工作模式：简单寄存器模式适合小数据块，Scatter-Gather模式适合复杂场景

举个例子，当PL端AD采集的数据需要存入PS端DDR3时，传统方式需要CPU不断介入拷贝。而用AXI DMA，只需配置好源地址（ADC缓冲区）、目标地址（DDR3）和传输长度，剩下的工作就全交给DMA控制器了。这就像给数据修了条高速公路，让CPU可以专心处理业务逻辑。

2. Vivado环境搭建：从零构建DMA工程

2.1 创建基础硬件平台

打开Vivado的第一件事，是建立正确的硬件框架。我推荐从ZYNQ7 Processing System IP核开始，这是整个系统的"大脑"。具体操作：

创建新工程时选择对应芯片型号（如xc7z020clg400-1）
添加ZYNQ7 IP后双击配置，在PS-PL Configuration中开启HP0接口
在Clock Configuration里设置PL时钟（建议100MHz起步）

这里有个坑我踩过：如果忘记开启DDR控制器，后续DMA传输会直接失败。记得在PS配置中确认DDR型号与实际开发板匹配，比如镁光MT41J256M16RE-125。

2.2 添加并配置AXI DMA IP

现在来到关键步骤——配置DMA引擎。在IP Catalog搜索AXI DMA，将其拖到画布上。重点参数这样设置：

Width of Buffer Length Register：设为23（对应8MB最大传输）
Enable Scatter Gather：初次尝试建议关闭
Enable Micro DMA：低速设备可开启以节省资源

时钟连接要特别注意：m_axi_mm2s_aclk和m_axi_s2mm_aclk必须接同源时钟，而s_axi_lite_aclk可以用更低频时钟（如50MHz）。这就像让快递车的发动机和变速箱同步运转，避免数据"脱节"。

3. 总线连接的艺术：AXI互联详解

3.1 标准连接拓扑

AXI互联就像城市道路网，需要合理规划才不会堵车。推荐以下连接方式：

ZYNQ PS (HP0) —— AXI Interconnect —— AXI DMA (M_AXI_MM2S/S2MM) | AXI DMA (M_AXI_SG) | AXI SmartConnect —— DDR3

实测发现，使用SmartConnect比普通Interconnect吞吐量能提升30%。但要注意，当传输数据小于4KB时，反而会增加延迟。这时可以：

在DMA IP中开启Data Realignment Engine
将AXI Burst Size设为INCR（而非FIXED）
调整Interconnect的仲裁策略为RR（Round Robin）

3.2 时钟域处理方案

混合时钟域是导致数据丢失的常见原因。我的经验法则是：

同步模式：所有时钟同源时，设置input clock tolerance为5%
异步模式：不同时钟域间必须插入FIFO
特殊场景：对ADC数据流，建议添加ILA核实时监测

曾经有个项目因为忽略时钟偏移，导致每1024个样本就丢1个。后来通过添加MMCM生成相位偏移时钟，完美解决了这个问题。

4. PS端软件设计：让硬件跑起来

4.1 裸机环境下DMA驱动开发

在SDK中新建BSP工程后，需要重点关注xaxidma.h这个头文件。它提供了关键API：

// 初始化DMA引擎 XAxiDma_Config *CfgPtr = XAxiDma_LookupConfig(DEVICE_ID); XAxiDma_CfgInitialize(&AxiDma, CfgPtr); // 发起MM2S传输 XAxiDma_SimpleTransfer(&AxiDma, (u32)src_addr, length, XAXIDMA_DMA_TO_DEVICE); // 检查传输状态 while (XAxiDma_Busy(&AxiDma, XAXIDMA_DMA_TO_DEVICE));

调试时建议加入超时判断：

#define TIMEOUT 1000000 u32 timeout = 0; while (XAxiDma_Busy(&AxiDma, XAXIDMA_DMA_TO_DEVICE) && (timeout < TIMEOUT)){ timeout++; } if(timeout >= TIMEOUT) xil_printf("DMA Timeout Error!");

4.2 Linux下的DMA框架

对于复杂系统，推荐使用DMA Engine框架。关键步骤包括：

在设备树中添加dma节点：

dma: dma@0 { compatible = "xlnx,axi-dma"; reg = <0x0 0x10000>; #dma-cells = <1>; clocks = <&clk 0>; };

编写内核驱动时调用dmaengine API：

struct dma_async_tx_descriptor *tx; tx = dmaengine_prep_slave_single(chan, buf_addr, len, dir, flags); dmaengine_submit(tx); dma_async_issue_pending(chan);

在最近的项目中，我通过调整dma-buf的scatterlist条目数，将4K视频流的传输效率提升了40%。

5. 实战优化技巧：踩坑经验分享

5.1 性能调优三板斧

经过多个项目验证，这些参数对性能影响最大：

AXI Burst Size：设置为256比默认值128吞吐量提升22%
Data Width：64位总线比32位理论带宽翻倍，但实际测试中因DDR颗粒限制，提升约60%
Cache配置：对DMA缓冲区关闭Cache可避免一致性问题

具体到Vivado设置：

在DMA IP中开启"Allow Unaligned Transfers"
将Interconnect的仲裁优先级设为Weighted-RR
为HP端口设置QoS值为15（最高优先级）

5.2 调试技巧大全

当DMA传输异常时，我通常会按这个顺序排查：

用ILA抓取AXI总线信号，重点看TREADY/TVALID握手
检查DMA寄存器状态：DMASR[0]表示MM2S状态，DMASR[16]是S2MM状态
在SDK中单步调试，观察XAxiDma_RegRead返回值

有个典型案例：某次传输总是少最后4个字节。最终发现是PS端DDR控制器配置成了非缓冲模式，改为Write-Back后问题消失。这类问题最好通过AXI Protocol Checker IP提前发现。

6. 进阶应用：Scatter-Gather模式实战

当处理不连续内存区域时，简单DMA模式就力不从心了。SG模式通过描述符链表（Descriptor List）解决这个问题。描述符结构如下：

typedef struct { u32 next_desc; // 下一个描述符地址 u32 buffer_addr;// 数据缓冲区地址 u32 control; // 控制字段 u32 status; // 状态字段 } XAxiDma_Bd;

初始化描述符链的关键代码：

XAxiDma_BdRingCreate(&Ring, RegBase, Addr, XAXIDMA_BD_MINIMUM_ALIGNMENT); XAxiDma_BdRingAlloc(&Ring, NumBd, &BdPtr); for(i=0; i<NumBd; i++){ XAxiDma_BdSetBufAddr(BdPtr, Buffers[i]); XAxiDma_BdSetLength(BdPtr, Lengths[i], XAXIDMA_BD_MAX_TRANS_LEN); if(i < (NumBd-1)) XAxiDma_BdSetNext(BdPtr, BdPtr + sizeof(XAxiDma_Bd)); BdPtr++; } XAxiDma_BdRingToHw(&Ring, NumBd, BdPtr);

在视频处理项目中，使用SG模式处理YUV420平面数据，相比简单DMA模式减少了35%的CPU配置开销。但要注意：每个描述符需要32字节对齐，且控制字段的EOF位必须正确设置。

查看全文

http://www.jsqmd.com/news/1092325/