当前位置：首页 > news >正文

深入 DMA：让外设绕过 CPU 与内存“私聊”的黑科技

news 2026/6/26 16:18:06

当你从硬盘拷贝大文件时，CPU 是否全程忙碌？当网卡收到数据包时，是谁负责搬进内存？答案就是 DMA（Direct Memory Access，直接存储器访问）。今天，我们就来拆解这项让外设“零 CPU 干预”直接访问内存的底层技术。

在计算机体系结构中，CPU 并非万能。如果每次数据搬运都需要 CPU 亲自出马，那么系统性能将大打折扣——尤其是在高速外设（如 SSD、万兆网卡、GPU）场景下。DMA 技术正是为了解决这个瓶颈而生。本文将从原理、工作模式、控制器结构到现代演进，带你彻底搞懂 DMA。

一、为什么需要 DMA？

在没有 DMA 的老式系统中，外设与内存之间的数据传输流程如下（以读磁盘为例）：

CPU 发出读取指令。
磁盘控制器将数据读入内部缓冲区。
磁盘控制器向 CPU 发起中断，告知数据已准备好。
CPU 将数据从磁盘缓冲区逐字节搬移到内存。
重复步骤 3-4 直到所有数据传输完成。

问题：整个过程 CPU 充当“搬运工”，无法执行其他任务，尤其对于大数据量传输，CPU 占用率极高，系统吞吐量大幅下降。

DMA 解决方案：引入DMA 控制器（DMAC），由它接管数据搬运工作。CPU 只需告诉 DMAC“从哪里来、到哪里去、搬多少”，然后继续执行其他任务。传输完成后，DMAC 再通知 CPU。

二、DMA 的工作原理

2.1 DMA 控制器结构

一个典型的 DMAC 包含以下寄存器：

寄存器	作用
源地址寄存器（SAR）	存放数据来源地址（内存或外设 I/O 接口）
目标地址寄存器（DAR）	存放数据去向地址
字节计数寄存器（BCR）	需要传输的字节数
控制/状态寄存器（CSR）	控制传输方向、传输模式、中断使能，以及状态标志

此外，DMAC 内部有地址递增逻辑、总线请求/应答逻辑，以及用于临时缓存的数据缓冲器。

2.2 单字节传输与块传输

DMAC 支持两种基本传输模式：

单字节传输（Cycle Steal）：每次传输一个字节/字后，释放总线，让 CPU 或其他 DMA 设备使用。适用于速度较慢的外设。
块传输（Burst Mode）：DMAC 获得总线控制权后，连续传输整个数据块，期间不释放总线。适用于高速外设（如 SSD、网卡）。

2.3 典型工作流程（以块传输为例）

┌──────┐ 1.配置DMAC ┌────────┐ │ CPU │──────────────>│ DMAC │ └──────┘ └────┬───┘ ^ │ 2.请求总线 │ v │ ┌──────┐ │ 3.总线授予 │ 总线 │ │<──────────────────│ 仲裁 │ │ └──────┘ │ │ │ │ 4.传输数据 │ v │ ┌─────────┐ │ │ 内存/IO │ │ └────┬────┘ │ │ └─────────5.中断─────────┘

流程图解（ASCII）：

CPU 设置 DMAC 的源地址、目标地址、字节计数，以及传输模式，然后启动 DMAC。
DMAC 向总线仲裁器发送HOLD信号（总线请求）。
CPU 在适当时候回复HLDA（总线应答），并释放地址总线、数据总线、控制总线的控制权。
DMAC 接管总线，将数据从源地址逐字搬到目标地址。每次传输后 SAR/DAR 自动递增，BCR 递减。
当 BCR 降为 0，DMAC 发送中断信号给 CPU，报告传输完成。CPU 重新获得总线控制权。

2.4 非内存到内存传输

通常 DMA 用于外设与内存之间（如磁盘→内存），但也可用于内存到内存（例如大块内存拷贝）。不过现代 CPU 的内存拷贝速度更快，所以内存到内存 DMA 不常用。

三、DMA 的工作模式

除了单字节和块传输，还有以下几种常见模式：

模式	描述	适用场景
轮询/单次	一次传输一个数据字，然后重新仲裁	低速外设
请求模式	外设每次断言 DRQ（数据请求）就传输一个单位	需要流控制的外设（如声卡）
级联模式	多个 DMA 控制器串联，扩展通道数	多个高速外设
自动初始化模式	传输完成后自动重装载寄存器的初始值，重复相同传输	周期性数据采集
多通道 DMA	一个 DMAC 支持多个独立通道，可并行处理多个传输	多设备系统（如 PC 芯片组）

四、DMA 与 CPU 的交互细节

4.1 总线仲裁

DMA 设备需要获得总线控制权才能访问内存。仲裁方式通常与总线架构相关：

集中仲裁：一个中心仲裁器（如北桥或芯片组中的 DMA 控制器）决定谁获得总线。
分布式仲裁：每个设备都有总线优先级，通过菊花链或独立请求线竞争。

4.2 缓存一致性

现代 CPU 有多级缓存。当 DMA 将数据写入内存时，缓存中可能存有旧数据（缓存不一致）。解决方案：

非缓存内存：为 DMA 缓冲区设置内存区域为不可缓存（如 Linux 中的dma_alloc_coherent）。
缓存刷新/无效：DMA 传输前，CPU 刷新缓存；传输后，CPU 使无效缓存行。
硬件一致性管理：较新架构(如 x86 的 Intel VT-d、ARM 的 SMMU)支持 I/O 一致性，硬件自动维护缓存一致性。

五、实战案例：磁盘读数据到内存

CPU 初始化 DMA 控制器：
- 源地址 = 磁盘控制器的数据寄存器端口（I/O 地址）
- 目标地址 = 内存缓冲区首地址
- 字节计数 = 4096 字节
- 控制字：读操作，块传输，传输完成后中断
CPU 启动 DMA，然后执行其他任务。
磁盘控制器将数据准备好到内部 FIFO，向 DMAC 发送 DMA 请求（DRQ）。
DMAC 获得总线控制权，读取磁盘 FIFO，写入内存，每次传输后地址+1，计数-1。
传输完 4096 字节后，DMAC 向 CPU 发送中断。
CPU 响应中断，知道数据已可用，继续处理。