当前位置：首页 > news >正文

DMA技术如何优化嵌入式系统性能：ADC到USART数据传输实战

news 2026/6/24 8:53:28

1. 项目概述：当ADC遇到USART，DMA如何成为CPU的“隐形助手”

在嵌入式开发，尤其是数据采集与传输系统的设计中，一个经典且高频出现的场景就是：微控制器（MCU）的模数转换器（ADC）持续采样外部模拟信号，并将转换得到的数字量通过串口（USART）实时发送出去。新手工程师的第一反应往往是：在ADC转换完成中断里读取数据，然后在主循环或另一个中断里调用USART发送函数。这种做法简单直接，但当采样率提高、数据量增大时，你会立刻发现MCU的CPU利用率直线飙升，甚至无法处理其他任务，系统响应变得迟缓。

这时，DMA（Direct Memory Access，直接存储器访问）技术就该登场了。它就像一个高效的“数据搬运工”，能在不打扰CPU“核心工作”（执行主程序逻辑）的情况下，自动完成外设（如ADC）到内存，或者内存到外设（如USART）的数据转移。我们这个项目，就是要深入剖析这个“ADC采样→DMA搬运→USART发送”的完整数据链，并通过实测对比，量化分析DMA技术究竟能为CPU“减负”多少。这不仅是理解DMA原理的绝佳案例，更是优化嵌入式系统性能、设计高实时性应用的必修课。无论你是正在学习STM32等常见MCU的开发者，还是面临实际产品中数据吞吐瓶颈的工程师，这次对DMA从原理到实测的拆解，都将提供直接的参考价值。

2. 核心原理与架构设计拆解

2.1 DMA技术内核：为何它是“直接”存储器访问？

要理解DMA的价值，首先要跳出“CPU中心论”的思维。在传统的数据搬运中，流程是：外设产生数据→触发中断→CPU暂停当前工作→响应中断→从外设数据寄存器读取一个字节/字→再将该数据写入目标内存或另一个外设的寄存器→最后恢复之前的工作。这个过程中，CPU的参与度是100%，且频繁的中断上下文切换本身就有不小的开销。

DMA控制器则是一个独立于CPU核心的硬件模块。它的工作模式可以概括为“窃取总线周期”。当需要进行大数据量传输时，CPU首先对DMA控制器进行初始化配置：告诉它数据从哪里来（源地址）、到哪里去（目标地址）、要传多少（数据量）、以什么方式传（传输宽度、是否递增地址等）。配置完成后，CPU就可以去执行其他代码，完全“忘记”这次传输。

当源外设（如ADC）准备好数据并发出请求时，DMA控制器会向系统总线仲裁器申请总线使用权。一旦获得批准，它会在一个或几个总线周期内，直接在源地址和目标地址之间完成数据搬运，整个过程完全绕过CPU。传输完成后，DMA控制器可以产生一个中断通知CPU“活儿干完了”，CPU此时再去处理这批已经安静躺在目标位置的数据即可。这种“CPU配置，DMA执行”的分工，使得CPU从繁重的重复性IO操作中解放出来。

2.2 案例场景：ADC to USART的DMA数据流剖析

在我们的具体场景中，数据流涉及三个硬件角色：ADC、DMA和USART。它们的协作流程如下：

触发启动：通常由一个定时器（TIM）以固定频率（即采样率）触发ADC开始一次转换。这是整个数据流的节拍器。
数据产生：ADC完成一次模拟量到数字量的转换，将结果存入其专属的数据寄存器（如ADCx->DR）。
DMA请求：ADC数据寄存器就绪后，会向与之绑定的DMA通道发出一个传输请求（DMA Request）。
DMA搬运：DMA控制器响应请求，将ADCx->DR这个源地址处的数据，一次性搬运到我们指定的内存数组（例如adc_buffer[1024]）中。DMA的源地址固定为ADC数据寄存器地址，目标地址是内存数组首地址，每搬运一次，目标地址自动递增，为下一个数据腾出位置。
循环与完成：上述2-4步以采样频率不断重复。当DMA搬运的数据量达到我们预设的总数（如1024个）时，DMA传输完成，可以产生一个半传输或传输完成中断。
数据转发：此时，内存数组adc_buffer中已经存放了1024个新鲜的ADC采样值。我们启动第二次DMA传输：源地址是adc_buffer，目标地址是USARTx->TDR（发送数据寄存器），数据量同样是1024。DMA会自动、连续地将内存中的数据“灌入”串口发送器。
USART发送：USART模块一旦从DMA收到数据，就自动启动串行化发送过程，通过TX引脚将数据一位一位地发送出去，直到所有数据发送完毕。

至此，从模拟信号采样到串口数据输出的完整链条，CPU仅在初始配置DMA、以及在DMA传输完成中断中可能切换一下缓冲区指针（用于双缓冲模式）时有所参与，其余时间都在处理其他任务，CPU利用率自然大幅下降。

2.3 关键设计考量：单次、循环与双缓冲模式

在设计DMA传输时，有几个关键模式的选择直接影响系统的可靠性和效率：

单次模式 vs 循环模式：
- 单次模式：DMA在传输完预设数量的数据后，自动停止，需要软件重新使能才能进行下一次传输。适用于非连续、突发性的数据传输。
- 循环模式：DMA在传输完预设数量的数据后，自动将传输计数器重置为初始值，并从头开始新一轮传输，永不停止。这恰恰是ADC连续采样的完美搭档。配置为循环模式后，ADC-DMA链路就成为一个自主运行的实时数据采集系统，只要开启就永不间断，CPU完全不用操心数据搬运。
内存到外设的DMA注意事项：从内存（adc_buffer）发送到USART时，必须确保在DMA启动前，USART的发送器已经使能，并且其DMA发送请求也已使能。同时，要小心处理“发送完成”的判断。在循环模式下，USART会一直发送，没有“完成”的概念。我们通常关心的是ADC那边一批数据是否准备好，而不是USART是否发完。
双缓冲（乒乓缓冲）模式：这是提升系统性能和数据安全性的高级技巧。我们分配两个大小相同的缓冲区BufferA和BufferB。DMA配置为循环模式，但目标地址在两个缓冲区之间切换。例如，DMA先将1024个采样点存入BufferA，存满后产生一个“半传输完成”中断，在中断服务程序里，CPU可以安全地处理BufferA中的数据（比如进行滤波、计算），同时DMA自动开始将后续的采样点存入BufferB。当BufferB存满，产生“传输完成”中断，CPU转而处理BufferB，DMA又切回BufferA。如此“乒乓”交替，实现了数据采集与处理的并行流水线，避免了CPU处理数据时覆盖正在采集的新数据，也使得数据处理时机更可控。

3. 基于STM32 HAL库的详细实现步骤

我们以STM32系列MCU和其HAL库为例，展示如何一步步实现“ADC定时触发+DMA循环采集+USART DMA发送”的完整代码框架。这里以STM32F4系列为例，但原理通用于其他系列。

3.1 硬件与软件环境准备

硬件：任意一款STM32开发板（如STM32F407 Discovery），需保证有一个ADC通道（例如连接到一个电位器）和一个USART端口（连接USB转串口到PC）。
开发环境：STM32CubeIDE。
关键配置工具：STM32CubeMX，用于图形化初始化配置。

3.2 使用CubeMX进行外设与DMA配置

时钟配置：根据目标采样率，配置系统时钟以及定时器、ADC、USART所需的外设时钟。高采样率需要更高的APB2时钟（ADC挂载在此总线下）。
ADC配置：
- 选择ADC工作模式为“独立模式”。
- 选择一个ADC通道（如ADC1_IN0对应PA0引脚）。
- 设置“扫描转换模式”为Disable（单通道），“连续转换模式”为Disable（由外部触发）。
- 在“触发源”中选择一个定时器的触发输出，例如TIM2_TRGO。
- 设置采样时间，根据信号源阻抗调整，时间越长精度一般越高，但会影响最高采样率。
定时器配置：
- 配置一个定时器（如TIM2）为内部时钟源。
- 计算PSC（预分频器）和ARR（自动重装载值）以产生所需频率的更新事件。例如，若系统时钟为84MHz，要产生10kHz的ADC触发频率，可设置PSC=84-1，ARR=100-1，则触发频率 = 84MHz / (84 * 100) = 10kHz。
- 开启定时器的“主模式输出”，将“触发事件选择”设置为“更新事件”。
DMA配置（为ADC）：
- 在DMA Settings标签页，点击Add，选择对应的ADC（如ADC1）。
- 方向：外设到内存。
- 模式：循环模式。
- 数据宽度：外设和内存都设置为“字”（Word，32位），因为STM32的ADC数据寄存器是32位的（对于12位ADC，数据存放在低16位）。
- 内存地址自增：使能。
- 外设地址不自增：因为始终从ADC1->DR这一个寄存器读。
USART配置：
- 选择一个USART（如USART1），模式为“异步”。
- 设置合适的波特率（如115200）。
- 在DMA Settings标签页，为USART的TX添加一个DMA流/通道。
- 方向：内存到外设。
- 模式：正常模式（单次）或循环模式（如果需要持续发送）。这里我们先用正常模式。
- 数据宽度：字节（Byte，8位），因为串口通常以字节为单位发送。
- 内存地址自增：使能。
- 外设地址不自增。
生成代码：配置好GPIO、中断等后，生成CubeIDE或Keil工程代码。

3.3 核心代码编写与解析

CubeMX生成的代码完成了底层初始化，我们还需要添加应用逻辑。

// 定义缓冲区 #define ADC_BUFFER_SIZE 1024 uint32_t adc_dma_buffer[ADC_BUFFER_SIZE]; // ADC DMA目标缓冲区 uint8_t uart_tx_buffer[ADC_BUFFER_SIZE * 2]; // USART发送缓冲区（假设每个采样值用2字节ASCII表示） // 在main函数初始化部分后启动 HAL_ADC_Start_DMA(&hadc1, (uint32_t*)adc_dma_buffer, ADC_BUFFER_SIZE); HAL_TIM_Base_Start(&htim2); // 启动定时器，开始触发ADC采样 // ADC DMA传输完成回调函数（半传输和传输完成） void HAL_ADC_ConvCpltCallback(ADC_HandleTypeDef* hadc) { // 当DMA传输完整个缓冲区（ADC_BUFFER_SIZE个点）时调用 // 此时，adc_dma_buffer中充满了新数据 process_and_send_data(); // 处理并发送数据 } void process_and_send_data(void) { // 1. 数据处理（例如：将12位的ADC值转换为电压值，或直接使用） // 2. 格式化数据到uart_tx_buffer（例如，转换为ASCII字符串，加上换行符） for(int i = 0; i < ADC_BUFFER_SIZE; i++) { uint16_t adc_value = adc_dma_buffer[i] & 0xFFF; // 提取12位数据 sprintf(&uart_tx_buffer[i*5], "%04d\n", adc_value); // 每个值格式化为4字符+换行符 } // 3. 通过DMA发送数据 HAL_UART_Transmit_DMA(&huart1, uart_tx_buffer, sizeof(uart_tx_buffer)); // 注意：此函数是非阻塞的，调用后立即返回，DMA在后台发送。 }

关键点解析：
HAL_ADC_Start_DMA函数启动了ADC的DMA循环采集。一旦调用，只要定时器在触发，ADC就会持续采样，DMA持续将数据搬运到adc_dma_buffer，存满后从头开始覆盖，并调用回调函数。
在ConvCpltCallback中处理数据是安全的，因为此时DMA已经停止向这个完整的缓冲区写入（在循环模式下，它实际上已经开始写下一轮，但因为我们用了整个缓冲区作为目标，所以可以认为当前缓冲区是“静默”的）。对于更精确的控制，应使用双缓冲模式，并在“半传输”和“传输完成”回调中分别处理两个缓冲区。
HAL_UART_Transmit_DMA是非阻塞的。调用后，CPU可以继续执行其他任务，直到USART发送完成产生中断。如果需要等待发送完成，可以调用HAL_UART_Transmit（阻塞式）或在DMA发送完成回调函数中进行下一步操作。

3.4 双缓冲模式实现进阶

为了实现更流畅的采集与发送，我们可以采用双缓冲。这通常需要手动配置DMA，或者巧妙利用HAL库的回调。

#define BUFFER_SIZE 512 uint32_t adc_buffer_a[BUFFER_SIZE]; uint32_t adc_buffer_b[BUFFER_SIZE]; // 启动双缓冲DMA采集（HAL库高级方式） if(HAL_ADC_Start_DMA(&hadc1, (uint32_t*)adc_buffer_a, BUFFER_SIZE*2) != HAL_OK) { Error_Handler(); } // 实际上，我们告诉DMA要传输的总长度是2*BUFFER_SIZE，但通过中断来管理两个缓冲区。 // 在ADC DMA半传输完成回调中 void HAL_ADC_ConvHalfCpltCallback(ADC_HandleTypeDef* hadc) { // DMA已经传输了前半部分（BUFFER_SIZE个点）到adc_buffer_a // 此时可以安全处理adc_buffer_a process_buffer(adc_buffer_a, BUFFER_SIZE); } // 在ADC DMA传输完成回调中 void HAL_ADC_ConvCpltCallback(ADC_HandleTypeDef* hadc) { // DMA已经传输了后半部分（BUFFER_SIZE个点）到adc_buffer_b // 此时可以安全处理adc_buffer_b process_buffer(adc_buffer_b, BUFFER_SIZE); } // 处理函数中启动USART DMA发送 void process_buffer(uint32_t* buffer, uint32_t size) { // ... 格式化为uart_tx_buffer ... HAL_UART_Transmit_DMA(&huart1, uart_tx_buffer, formatted_size); }

4. CPU利用率实测与对比分析

理论说DMA能降低CPU负载，但到底能降低多少？我们需要用数据说话。这里介绍两种实用的测量方法。

4.1 测量方法一：系统滴答计时器法

这是一种简单直观的软件测量方法。原理是：在一个统计周期内（比如1秒），CPU执行空闲任务（或者我们特意创建的一个低优先级计数任务）的时间占比，就是空闲率，CPU利用率 ≈ 100% - 空闲率。

volatile uint32_t idle_counter = 0; // 在SysTick中断（1ms一次）中 void SysTick_Handler(void) { static uint32_t last_calc_tick = 0; if(dummy_idle_task_running) { // 假设这是一个标志，当CPU在空闲循环时置位 idle_counter++; } // 每秒计算一次利用率 if(HAL_GetTick() - last_calc_tick >= 1000) { last_calc_tick = HAL_GetTick(); float idle_rate = (float)idle_counter / 1000.0f; // 1000个tick/秒 float cpu_usage = (1.0f - idle_rate) * 100.0f; printf("CPU Usage: %.2f%%\n", cpu_usage); idle_counter = 0; } } // 在主循环中，当没有其他任务时，设置dummy_idle_task_running = 1;

实测对比：

方案A（无DMA）：在ADC中断中读取数据并立即调用HAL_UART_Transmit（轮询等待发送完成）。在10kHz采样率、每秒发送约100KB数据的情况下，测得CPU利用率可能高达70%-90%，主循环几乎无法执行其他逻辑。
方案B（使用DMA）：采用上述ADC-DMA循环采集，在DMA完成中断中批量格式化数据，并用USART-DMA发送。在同样数据量下，CPU利用率可能骤降至5%-15%。绝大部分时间CPU都在执行空闲循环或处理其他低优先级任务。

4.2 测量方法二：逻辑分析仪/示波器IO口翻转法

这是更精确的硬件测量方法。思路是：在关键代码段的开始和结束位置，翻转一个GPIO引脚的电平。用示波器或逻辑分析仪测量该引脚高电平的宽度，即可知道CPU执行这段代码的精确时间。

初始化一个GPIO引脚（如PA5）为推挽输出。
在要测量的任务函数开头，将PA5置高。
在任务函数结尾，将PA5置低。
用示波器测量PA5引脚波形。高电平脉冲的宽度就是CPU执行该任务的时间。
统计一段时间内（如10ms），所有高电平脉冲的总宽度，除以总时间，即可得到该任务占用的CPU时间比例。

对比结果：你会清晰地看到，在无DMA方案中，ADC中断服务程序（ISR）和UART发送阻塞调用产生的IO翻转密集且宽大，几乎连成一片。而在DMA方案中，只有在DMA传输完成中断（处理一批数据）和主循环中才有短暂的IO翻转脉冲，脉冲之间的间隔很长，直观反映了CPU的低占用率。

4.3 数据分析与优化启示

通过对比，我们可以得出几个核心结论：

中断开销是主要瓶颈：无DMA方案中，高频的ADC中断（10kHz即每秒1万次）及其上下文切换，消耗了大量CPU周期。DMA将“每采样一次中断一次”变成了“每采集一批（如1024个点）中断一次”，将中断频率降低了1024倍。
阻塞式IO不可取：HAL_UART_Transmit这类轮询等待函数会“卡住”CPU，直到最后一个字节发送完毕。DMA的异步传输彻底消除了这种等待。
批量处理优势：DMA促进了数据的批量处理。一次性处理1024个数据点，可能比处理1024次单个数据点在算法效率上更高（减少了函数调用、循环判断等开销）。
系统响应性提升：低CPU利用率意味着系统有充足的带宽来响应其他实时事件（如按键、通信命令），整个系统的实时性和多任务处理能力得到质的改善。

5. 常见问题、调试技巧与深度优化

在实际操作中，你可能会遇到各种问题。这里记录一些典型的“坑”和解决思路。

5.1 DMA传输数据错位或丢失

现象：通过串口收到的ADC数据，偶尔会出现字节错乱，或者每隔几个数据就丢失一个。
排查与解决：
1. 数据对齐问题：这是最常见的原因。STM32的ADC数据寄存器（DR）是32位的，但12位转换结果可能右对齐或左对齐。而你的DMA配置可能设置为按“字节”或“半字”传输。必须确保DMA传输的数据宽度与你在代码中访问数据的类型一致。如果ADC是12位右对齐，DMA配置为“字”传输，那么内存中的uint32_t变量高20位是无效的。在process_and_send_data中读取时，需要用& 0xFFF来屏蔽高位。如果配置不一致，就会发生错位。
2. 缓冲区溢出：ADC采样率过高，而DMA搬运或后续处理（格式化、串口发送）速度跟不上。DMA在循环模式下会覆盖未处理的数据。解决方案：使用双缓冲模式；降低采样率；提高处理代码效率；增大缓冲区大小以提供更长的处理时间窗口。
3. 内存访问冲突：确保DMA操作的内存缓冲区没有其他中断或任务同时访问。特别是在双缓冲模式下，要严格区分“DMA写入缓冲区”和“CPU读取缓冲区”。

5.2 USART DMA发送卡住或不启动

现象：调用HAL_UART_Transmit_DMA后，数据没有发送出去，或者只发送了一部分。
排查与解决：
1. DMA流/通道未使能或配置错误：用CubeMX检查USART TX对应的DMA流/通道是否已正确配置并生成代码。手动检查huart1.Init.DMATxState状态。
2. 上一次传输未完成：在非循环模式下，如果上一次DMA传输还未完成（HAL_UART_STATE_BUSY_TX），再次调用HAL_UART_Transmit_DMA会返回HAL_BUSY。必须等待前一次传输完成，或者在发送完成回调函数中启动下一次发送。
3. 发送缓冲区生命周期：HAL_UART_Transmit_DMA函数是非阻塞的，它只记录下要发送的缓冲区地址和长度，然后启动DMA。你必须确保在DMA发送完成之前，这个缓冲区的内容不能被修改或释放。如果将局部数组的地址传给DMA，函数返回后数组可能被销毁，导致DMA读取到错误数据。必须使用全局数组或动态分配（并确保不提前释放）。

5.3 如何实现ADC采样与USART发送的速率匹配？

这是一个系统设计问题。ADC以固定速率Fs产生数据，而USART以波特率B发送数据。假设每个采样值编码为N个字节。

数据产生速率：Fs * N字节/秒。
USART发送速率：B / 10字节/秒（按8-N-1格式，每字节10位计算）。
匹配条件：Fs * N <= B / 10。例如，Fs=10kHz,N=2(ASCII编码)，则产生速率=20KB/s。串口波特率至少需要20K*10=200kbps。选择115200波特率（11.52KB/s）就不够用，会导致数据积压。必须要么降低Fs，要么减少N（例如发送二进制数据，N=2，但速率仍需20KB/s，115200依然不够），要么提高波特率到460800或921600。

5.4 高级优化：使用DMA双缓冲与内存到内存传输进行数据预处理

在process_and_send_data函数中，我们将ADC原始值格式化为ASCII字符串，这个操作本身是CPU密集型的。我们可以进一步优化：

开辟第二个USART发送DMA的缓冲区：当DMA正在发送uart_tx_buffer_A时，CPU可以并行地格式化下一批数据到uart_tx_buffer_B。实现发送端的“乒乓”操作。
使用内存到内存的DMA进行数据格式转换（如果硬件支持）：一些高级的MCU（如STM32H7系列）的DMA支持更复杂的操作。虽然不能直接做sprintf，但可以通过DMA将原始ADC数据从采集缓冲区搬运到另一个处理缓冲区，并结合DMA的“外设流控制器”或“存储器到存储器的传输模式”进行一些简单的预处理（如乘以一个系数进行校准）。这能将CPU从简单的数据搬移任务中进一步解放。

调试DMA问题时，善用调试器观察相关寄存器和内存内容至关重要。重点关注：