当前位置：首页 > news >正文

ARM架构核心解析：从处理器、总线到调试系统的实战指南

news 2026/6/24 1:48:33

1. 项目概述：深入ARM技术腹地

如果你是一名嵌入式软件工程师、硬件驱动开发者，或者正在评估基于ARM的芯片方案，那么对ARM处理器架构、总线接口和调试系统的理解深度，直接决定了你能否高效地开发、调试和优化你的系统。这不仅仅是知道几个名词，而是关乎到如何让芯片按照你的预期精准运行，如何在系统崩溃时快速定位到那一行出错的代码，以及如何榨干硬件每一分性能的关键。

很多人对ARM的认识停留在“它是一种低功耗的CPU架构”上，这就像说汽车是“四个轮子的交通工具”一样片面。ARM的世界是一个精密的生态系统，从最底层的晶体管逻辑，到连接各个功能模块的高速公路（总线），再到工程师与芯片对话的“黑匣子”（调试系统），每一层都充满了设计哲学与工程智慧。理解这些，你才能从“写代码让灯闪烁”的层面，跃升到“设计一个稳定、高效且可维护的嵌入式产品”的高度。

本次分享，我将结合多年的实际项目经验，为你系统性地拆解ARM处理器架构的核心思想、主流总线接口的工作机制，以及最让开发者又爱又恨的调试系统。我们会避开教科书式的罗列，聚焦于那些在真实开发场景中频繁遇到的关键技术点和实战技巧。无论你是刚刚接触ARM的新手，还是希望深化理解的资深工程师，相信都能从中获得直接的启发和可复用的方法。

2. ARM处理器架构核心思想与演进剖析

2.1 精简指令集（RISC）哲学与ARM的实现

ARM架构的基石是精简指令集计算（RISC）理念。与复杂指令集（CISC）追求单条指令完成复杂功能不同，RISC的核心思想是“让硬件做简单的事，让编译器做复杂的事”。ARM将这一哲学发挥到了极致。

为什么是RISC？在嵌入式领域，功耗、面积和确定性是关键。复杂的指令需要复杂的解码器和执行单元，这直接导致芯片面积增大、功耗上升，且指令执行周期不定。ARM的RISC设计采用了固定长度的指令格式（在ARM模式下是32位，Thumb模式下是16/32位混合），这使得指令解码变得极其简单和快速。处理器流水线可以非常高效地工作，因为它在取指阶段就能确切知道下一条指令的起始位置，无需复杂的边界判断。

ARM对RISC的典型增强：纯粹的RISC理念有时会牺牲代码密度和性能。ARM巧妙地引入了一些“不那么RISC”的特性来取得平衡，最典型的就是加载/存储多寄存器指令（LDM/STM）。一条指令可以完成多个寄存器的压栈或出栈操作，这大大提升了中断响应、函数调用的效率。从架构上看，这似乎增加了硬件复杂性，但从系统整体性能（特别是响应时间）和代码密度来看，收益巨大。这是ARM“实用主义”设计的一个完美体现。

流水线的演进：从经典的ARM7的3级流水线，到Cortex-A系列的13级甚至更多级流水线，变化的是深度，不变的是对效率的追求。更深的流水线可以提高主频，但带来了“流水线冒险”的挑战，如数据冒险（当前指令需要上一条指令的结果）和控制冒险（遇到分支跳转）。ARM架构通过转发（Forwarding）技术和分支预测来缓解这些问题。理解这些机制，对于编写高性能代码（比如避免在紧循环中产生数据依赖）和进行精准的时序分析至关重要。

2.2 处理器工作模式与寄存器组详解

ARM处理器并非始终运行在一种状态下。它设计了多种工作模式，这主要是为了在硬件层面实现操作系统的特权级保护和快速的中断响应。

七种工作模式：

用户模式（User）：应用程序运行的模式，权限最低，无法直接访问某些关键硬件资源。
快速中断模式（FIQ）：用于处理高速、低延迟的中断。它拥有一组独立的寄存器（R8_fiq到R14_fiq），使得进入FIQ中断时无需保存通用寄存器，极大地减少了中断响应时间。
外部中断模式（IRQ）：用于处理普通的外部中断。
管理模式（Supervisor）：操作系统内核通常运行的模式，也是复位后或执行SWI（软件中断）指令后进入的模式。具有最高权限。
中止模式（Abort）：当发生数据或指令预取访问失败（如访问了非法地址）时进入。
未定义指令模式（Undefined）：当处理器遇到无法识别的指令时进入。
系统模式（System）：与用户模式共用寄存器组，但具有特权级，供需要特权级访问的用户进程使用（如某些操作系统服务）。

寄存器组：ARM有37个32位寄存器，其中31个是通用寄存器（R0-R15），6个是状态寄存器。但并非所有寄存器在所有模式下都可见，这就是Banked Register的概念。例如，R13（栈指针SP）和R14（链接寄存器LR）在除系统模式和用户模式外的其他特权模式下都有自己独立的副本。这意味着当从用户模式切换到IRQ模式处理中断时，处理器会自动使用IRQ模式下的SP_irq和LR_irq，从而天然地保护了用户模式的栈和返回地址。这是硬件为操作系统提供的基础设施，不理解这一点，就难以理解中断上下文切换的本质。

CPSR与SPSR：当前程序状态寄存器（CPSR）存储着条件码标志（N, Z, C, V）、中断禁止位、处理器模式位等重要信息。而程序保存状态寄存器（SPSR）则存在于除用户和系统模式外的其他模式中。当发生异常（如中断）时，硬件会自动将当前的CPSR保存到对应模式的SPSR中，以便异常返回时能恢复之前的状态。这是实现可靠异常处理的硬件保障。

注意：在编写启动代码或操作系统内核时，手动切换处理器模式后，必须立即初始化该模式下的栈指针（SP）。这是一个常见的疏忽点，会导致后续函数调用或中断发生时，栈操作破坏其他内存区域，引发难以排查的随机崩溃。

2.3 从Cortex-M到Cortex-A：应用场景与架构分水岭

ARM Cortex系列是现代ARM处理器的主力，主要分为三大线：Cortex-M、Cortex-R和Cortex-A。它们的架构设计深刻反映了其目标市场。

Cortex-M系列：微控制器之王

架构特点：采用ARMv6-M（如Cortex-M0）或ARMv7-M（如Cortex-M3/M4/M7）架构。显著特点是高度集成、低功耗、低成本。它采用了Thumb-2指令集，完美融合了16位和32位指令，在代码密度和性能间取得绝佳平衡。Cortex-M3/M4/M7引入了硬件嵌套向量中断控制器（NVIC），支持中断优先级和尾链中断，极大提升了实时性。
内存模型：通常采用冯·诺依曼结构（指令和数据共享总线），简化了总线设计。内存映射是固定的，例如中断向量表固定在0x00000000起始地址。
调试系统：通过CoreSight或SWD接口，提供强大的调试功能，如硬件断点、数据监视点、串行线输出（ITM）等，即使是在资源受限的芯片上。
典型应用：智能家居传感器、电机控制、物联网节点、可穿戴设备。你手机里的触控芯片、蓝牙芯片很可能就是Cortex-M内核。

Cortex-A系列：应用处理器引擎

架构特点：采用ARMv7-A或ARMv8-A（64位）架构。面向高性能计算和复杂操作系统（Linux, Android）。支持内存管理单元（MMU），可实现虚拟内存，这是运行Linux等通用操作系统的必要条件。拥有多级缓存（L1, L2, L3）、更深的流水线、以及可能的多核集群。
内存模型：采用哈佛结构（指令和数据缓存分离）以提升性能，但在物理总线层面可能仍是共享的。
调试系统：基于强大的CoreSight架构，支持多核调试、非侵入式跟踪（ETM/ETB），可以记录处理器的执行路径，用于分析复杂软件问题。
典型应用：智能手机、平板电脑、智能电视、服务器。你正在阅读这篇文章的设备，其核心很可能就是Cortex-A系列处理器。

Cortex-R系列：实时性专家

架构特点：介于M和A之间，专注于高实时性和可靠性。采用ARMv7-R架构。具有双核锁步（Lock-Step）功能（两个核执行相同指令，比较输出以确保安全），以及强大的ECC内存保护。它也有MMU或MPU（内存保护单元）。
典型应用：汽车电子（ESP，发动机控制）、工业控制、硬盘控制器。要求绝对的功能安全和确定性响应。

选择启示：选择哪类处理器，不是看主频高低，而是看应用场景的本质需求。需要跑Linux并支持丰富应用？选Cortex-A。需要极致的实时控制和低功耗？Cortex-M是首选。涉及人身安全的功能安全系统？Cortex-R是答案。

3. ARM总线接口：芯片内部的交通网络

3.1 AMBA总线协议族：AXI, AHB, APB解析

ARM公司不仅定义了处理器核心，还定义了一套片上总线标准——AMBA，它相当于芯片内部各个IP模块（CPU, DMA, 内存控制器，外设等）之间通信的“交通规则”。AMBA协议族主要包括：

AXI（Advanced eXtensible Interface）：这是目前高性能系统的绝对主流。它是一种多通道、单向、握手机制的总线。其核心优势在于：
- 通道分离：读地址、读数据、写地址、写数据、写响应五个通道独立，允许读写操作并行和乱序完成，极大提升了总线利用率和系统吞吐量。想象成一条双向高速公路上，每个方向都有独立的超车道和行车道，互不干扰。
- 突发传输：基于地址和长度信息，可以连续传输一整块数据，只需一次地址握手，效率远高于单次传输。
- 乱序完成：支持交易ID，不同ID的交易可以乱序返回，这对于连接多主设备（如多核CPU、DMA）和具有不同延迟的从设备（如DRAM与Flash）的系统至关重要。
- 广泛支持：ARM Cortex-A系列处理器核心与缓存之间、核心与外部内存控制器之间，几乎都通过AXI总线连接。
AHB（Advanced High-performance Bus）：在AXI普及之前，它是高性能系统总线的代表。它是一种单通道、多主从、同步的总线。与AXI相比，它结构相对简单，不支持通道分离和乱序完成。在传输时，地址相位和数据相位是分时复用的。AHB通常用于连接需要较高带宽但设计相对简单的模块，或者在旧款芯片或对面积功耗极其敏感的场合作为系统总线。如今，在复杂SoC中，AHB常作为AXI的下一级总线，或者用于连接某些特定的高性能外设。
APB（Advanced Peripheral Bus）：这是低带宽外设的专属总线，如UART, I2C, GPIO等。它的设计目标是低功耗和简单。APB协议非常简单，不支持突发传输，每次传输至少需要两个时钟周期（Setup和Access阶段）。它通常通过一个桥接器连接到AHB或AXI总线上。APB总线上的访问通常是同步的，且延迟较高，但这对于低速外设来说完全可接受，且简化了外设IP的设计。

层级结构：一个典型的SoC总线架构是树状或矩阵状的。例如：多个Cortex-A核心通过AXI总线连接到一致性总线互联（如CCI）或内存控制器；DMA控制器也作为AXI主设备接入；这个高性能的AXI互联矩阵再通过一个AXI-to-AHB桥，连接到一条AHB总线上，这条AHB总线上可能挂载了以太网MAC等模块；最后，通过AHB-to-APB桥，连接到多条APB总线，每条APB总线上挂载着UART、SPI等低速外设。

3.2 总线矩阵与互联技术

当系统中有多个主设备（如双核CPU、GPU、DMA）和多个从设备（如DRAM控制器、Flash控制器、外设）时，简单的共享总线会成为性能瓶颈。这时就需要总线矩阵或网络互联。

共享总线：所有主设备争用同一条总线。优点是简单，缺点是带宽共享，仲裁开销大，无法实现并行访问。
总线矩阵：这是一个交叉开关式的互联结构。它允许多个主设备同时访问不同的从设备，只要它们的路径不冲突。例如，CPU0在读取DDR内存的同时，DMA可以写入片内SRAM，两者互不影响，实现了真正的并行，极大提升了系统整体带宽。
网络互联：在更复杂的多核集群（如big.LITTLE）或超多核服务器芯片中，会采用更先进的片上网络技术，类似于计算机网络，提供更高的可扩展性和带宽。

仲裁机制：当多个主设备请求访问同一个从设备时，需要仲裁器来决定访问顺序。常见的仲裁策略有固定优先级、轮询、基于延迟等。理解你所使用芯片的仲裁策略，对于优化关键任务的实时性有一定帮助。

实操心得：在调试涉及DMA传输或外设数据异常的问题时，如果怀疑是总线访问冲突，可以查阅芯片手册，看相关主从设备是否共享同一总线或端口。有时，通过调整DMA的源/目标地址到不同的内存区域（如从共享的AXI SRAM切换到专属于某个主设备的TCM），可以规避冲突，解决问题。

3.3 内存映射与地址空间管理

ARM处理器采用统一的内存映射I/O。这意味着外设寄存器（如GPIO数据寄存器、UART发送寄存器）被映射到特定的物理地址上，CPU通过普通的加载/存储指令（LDR/STR）来访问它们，与访问内存无异。

地址空间布局：芯片设计者会定义整个4GB（32位系统）物理地址空间的布局。例如：

0x0000_0000 - 0x1FFF_FFFF: 可能是片内Flash或Boot ROM。
0x2000_0000 - 0x3FFF_FFFF: 可能是片内SRAM。
0x4000_0000 - 0x5FFF_FFFF: 可能是APB1外设区域。
0x6000_0000 - 0x7FFF_FFFF: 可能是APB2外设区域。
0x8000_0000 - 0xDFFF_FFFF: 可能是连接外部SDRAM的地址空间。
0xE000_0000 - 0xE00F_FFFF: 这是ARM公司为私有外设保留的区域，CoreSight调试组件就映射在这里。

访问属性：总线不仅传递地址和数据，还传递访问属性，如：

读写类型：是取指令、读数据还是写数据？这对于缓存和内存保护单元很重要。
安全状态：是安全访问还是非安全访问（在支持TrustZone的芯片中）。
缓存与缓冲策略：该访问是否可缓存、可缓冲？

常见问题：一个典型的错误是，在配置外设时钟之前就访问其寄存器。由于外设的时钟可能默认是关闭的，此时访问其映射的地址空间，总线会返回一个“错误”响应（可能是全0或全F）。如果CPU配置为在访问错误时触发数据中止异常，程序就会跑飞。因此，驱动初始化必须遵循“时钟 -> 复位 -> 配置 -> 使用”的基本顺序。

4. ARM调试系统：洞察芯片运行的窗口

4.1 CoreSight架构总览

ARM的调试系统已经从早期简单的JTAG接口，演进为一套庞大而精密的CoreSight架构。它不再仅仅是“停止CPU看寄存器”，而是一套完整的系统跟踪、调试和性能分析解决方案。

CoreSight架构的核心思想是模块化和非侵入式。它将调试功能分解为多个独立的IP组件，通过一个专用的调试总线（如APB或ATB）连接。主要组件包括：

调试访问端口（DAP）：这是外部调试器（如J-Link， ULINK）与芯片内部调试系统的桥梁。最常见的DAP是SWD和JTAG。SWD只需两根线（时钟和数据），在引脚资源紧张的Cortex-M芯片上占绝对主流。JTAG则更多用于复杂的Cortex-A芯片或边界扫描测试。
嵌入式跟踪宏单元（ETM）：这是性能分析的利器。它可以实时记录处理器执行的指令流，并将压缩后的跟踪信息通过跟踪端口（如SWO）发送出去。结合源代码，你可以完整地重建程序的历史执行路径，对于分析死锁、异常跳转、性能热点等问题无可替代。
仪器化跟踪宏单元（ITM）：这是一个由软件驱动的跟踪源。应用程序可以通过写特定的寄存器（如ITM_SendChar），将调试信息（如printf日志、变量值）发送到ITM，再由调试器接收显示。这是一种比串口打印更高效、不影响实时性的调试信息输出方式。
数据观察点与跟踪单元（DWT）：它提供硬件断点、数据监视点（当某个地址被读写时触发）、以及系统事件（如时钟周期、指令计数）的计数功能。硬件断点数量有限（通常4-8个），但可以在任何内存位置设置（包括只读的Flash），而软件断点是通过修改指令为断点指令实现的，数量不限但只能用在可写的RAM中。
跟踪端口接口单元（TPIU）：负责将内部跟踪总线（ATB）上的数据格式化，并通过芯片引脚输出到外部跟踪捕获设备（如ULINKpro, DS-5 Streamline）。
嵌入式交叉触发器（ECT）：允许不同调试组件之间相互触发。例如，可以让一个数据监视点触发ETM开始记录，从而捕获在特定变量被修改前后一段时间内的代码执行流。

4.2 调试接口实战：JTAG vs SWD vs SWO

JTAG：历史悠久，接口标准（TCK, TMS, TDI, TDO, nTRST）。除了调试，它还常用于芯片的边界扫描测试（BST）。在Cortex-A多核调试中，JTAG仍然是主流，因为它能提供更强大的链式管理能力（管理多个核的调试状态）。缺点是引脚多（至少4线）。

SWD：ARM推出的串行线调试协议。它只需要SWCLK和SWDIO两根线。在物理层上与JTAG兼容（通常共用引脚），但协议完全不同。SWD协议更简单高效，特别适合引脚少的Cortex-M芯片。现代调试器（如J-Link， ST-Link）都完美支持SWD。在绝大多数Cortex-M项目开发中，SWD是首选接口。

SWO：串行线输出。这是一条单向的、从芯片到调试器的数据线，通常与SWD复用。它用于输出ITM的软件跟踪信息和DWT的某些事件信息（如PC采样）。要使用SWO，除了连接SWO线，还需要在调试器端正确配置其波特率（与芯片端ITM的时钟分频设置匹配），否则接收到的会是乱码。

连接与配置要点：

上拉电阻：SWDIO和SWCLK线通常需要在目标板端接上拉电阻（如10kΩ）到VCC，以确保信号稳定，特别是在热插拔调试器时。
复位电路：调试器能否控制目标芯片的复位线（nRST）非常关键。这允许调试器在连接时对芯片进行硬件复位，确保从一个已知的稳定状态开始调试。如果设计时没有连接，可能只能进行“附着”调试，无法执行复位操作。
电源与电平：确保调试器与目标板的电源和信号电平兼容。有些调试器可以给目标板供电，有些则需要目标板自己供电。电平不匹配会导致通信失败甚至损坏设备。

4.3 高级调试技巧：断点、监视点与跟踪

软件断点与硬件断点：

软件断点：调试器将目标地址的指令临时替换为一条特殊的断点指令（如ARM的BKPT）。当CPU执行到这里时，会进入调试状态。优点是不受数量限制（只要RAM够用），缺点是只能设置在可写的内存区域（如RAM），无法在Flash中直接设置。在Flash中设置软件断点，实际上需要借助Flash的编程算法，过程复杂且可能影响实时性。
硬件断点：由DWT提供，是芯片内部的专用比较器。当程序计数器（PC）匹配到设定的地址时触发。它可以在任何内存位置（Flash， ROM）工作，且是零开销的。但数量极其有限（通常4个）。策略：将宝贵的硬件断点留给最关键的、位于Flash中的代码位置（如中断入口、任务切换函数），而将大量的调试断点设置为软件断点放在RAM中。

数据监视点：这是定位内存踩踏、变量被意外修改等“幽灵问题”的神器。DWT可以监视某个特定地址（甚至是一个地址范围）的读、写或读写访问。一旦发生，就触发调试事件（停止CPU或触发跟踪）。例如，一个全局指针突然变成了0xFFFFFFFF，你可以在这个指针变量所在的地址上设置一个写监视点，当它被修改时，CPU会立刻停止，你就能看到是哪个函数、哪行代码修改了它。

ETM指令跟踪：对于分析复杂并发问题（如多任务竞争、中断嵌套导致的状态异常），单步调试和断点往往力不从心。ETM可以无干扰地记录CPU执行的每一条指令的地址。通过调试器（如DS-5， Ozone）离线分析这些跟踪数据，你可以像看录像回放一样，精确地看到崩溃前几千甚至几百万条指令的执行序列，结合源代码，能迅速定位到异常的分支点。它的缺点是需要额外的跟踪引脚和高速的捕获设备，成本较高。

ITM printf调试：这是一种被严重低估的调试手段。在时间敏感的中断服务程序或实时任务中，使用串口打印会引入巨大且不定的延迟，可能改变系统行为甚至掩盖问题。ITM通过专用的硬件通道发送数据，开销极小且确定。在IDE（如Keil MDK， IAR）中配置好ITM端口，就可以像使用printf一样输出日志，而不会破坏系统的实时性。我个人的习惯是在项目初期就搭建好ITM日志框架，这对后续的长期开发和问题排查有巨大帮助。

5. 常见问题排查与实战心得

5.1 启动失败与HardFault调试

系统无法启动或运行时触发HardFault（硬件错误）是最令人头疼的问题之一。HardFault属于ARM的异常之一，当发生非法内存访问、执行未定义指令、从非法状态返回等严重错误时触发。

排查步骤：

定位故障地址：发生HardFault时，关键信息保存在一系列寄存器中。首先是链接寄存器LR的值，它指示了异常返回地址。但更准确的是程序状态寄存器PSP/MSP（取决于发生异常时使用的栈）所指向的栈帧。在栈帧中，你可以找到发生异常时的PC、LR和xPSR。
分析故障原因：查看配置与控制寄存器（CCR）、故障状态寄存器（CFSR）、内存管理故障地址寄存器（MMFAR）和总线故障地址寄存器（BFAR）。这些寄存器会告诉你具体原因：
- IMPRECISERR/PRECISERR：不精确/精确的数据访问错误。如果PRECISERR置位且BFAR有效，那么BFAR里就是引发故障的访问地址。去检查这个地址是否合法（是否已初始化，是否越界）。
- IBUSERR：指令预取错误。检查PC附近的代码区域是否可执行。
- UNDEFINSTR：未定义指令。可能是数据被错误地当作指令执行（常见于函数指针跑飞）。
- INVSTATE：非法状态尝试执行Thumb指令等。常见于LR被意外修改后，使用错误的指令集进行返回。
检查栈溢出：这是导致各种诡异HardFault的元凶之一。栈指针（SP）跑到了非法的内存区域（如覆盖了全局变量区或堆区）。确保为每个任务或模式分配了足够大的栈空间，并在调试时留意栈的使用情况（很多IDE有栈使用量分析工具）。
使用调试器反汇编：在HardFault处理函数中设置断点，当触发后，查看反汇编窗口，观察故障指令前后的代码，结合内存窗口查看相关地址的内容，往往能发现端倪。

实操心得：建立一个健壮的HardFault处理函数是专业嵌入式开发的标配。不要只是死循环，而应该在这个函数里自动捕获上述所有关键寄存器（栈指针、故障地址、状态寄存器等），并通过ITM或后备串口将信息打印出来，甚至可以保存到非易失性存储器中。这样即使在现场没有调试器的情况下，也能通过日志分析崩溃原因。

5.2 外设初始化与时钟配置陷阱

“外设不工作”十有八九是初始化问题，而初始化的核心是时钟。

时钟树理解：拿到一款新的ARM芯片，第一件事不是写驱动，而是研读其时钟树图。你需要搞清楚：

主时钟源（HSI， HSE， LSI， LSE）是什么？
PLL的输入和输出是多少？
系统时钟（SYSCLK）、AHB总线时钟（HCLK）、APB总线时钟（PCLK）分别由谁分频而来？
你使用的外设挂在哪个总线下？它的时钟是否已经使能？

配置顺序黄金法则：

使能外设时钟：在复位后，所有外设时钟默认是关闭的以省电。访问一个时钟未使能的外设寄存器会导致总线错误。因此，RCC->APB2ENR |= RCC_APB2ENR_USART1EN;这样的操作必须是第一步。
配置外设引脚复用：大多数引脚是复用的。你需要通过GPIO的AFR寄存器将引脚设置为正确的复用功能模式，并配置上拉/下拉、速度等。
解除外设复位：有些外设有独立的复位控制位，需要在时钟使能后解除复位。
配置外设本身：最后才是配置外设的工作模式、波特率、中断等参数。

常见坑点：

时序依赖：例如，在修改某些时钟源（如切换PLL）时，需要等待时钟就绪标志位（RCC->CR中的HSERDY,PLLRDY）置位后才能进行下一步操作。
Flash延迟：当提高系统主频后，需要根据频率调整Flash访问的等待周期（Latency），否则CPU从Flash取指会出错，导致程序跑飞。这通常在FLASH->ACR寄存器中设置。

5.3 中断与DMA配置中的并发问题

中断和DMA是提升系统效率的利器，但也是并发问题的温床。

中断嵌套与优先级：在Cortex-M中，NVIC管理中断。你需要理解：

抢占优先级：高抢占优先级的中断可以打断低抢占优先级的中断。
子优先级：当两个中断同时发生且抢占优先级相同时，子优先级高的先执行，但不能互相打断。
注意事项：在中断服务函数中，如果访问了非原子操作的全局变量，并且该变量也可能在主程序或其他中断中被修改，就必须使用临界区保护（如关闭全局中断__disable_irq()）或使用原子操作。

DMA与缓存一致性：这是Cortex-A和带Cache的Cortex-M7等高级芯片上的经典问题。CPU和DMA共享内存，但CPU访问数据经过Cache，而DMA直接访问物理内存。这会导致：

CPU写，DMA读：CPU修改的数据还在Cache里，没有写回内存，DMA读走的是旧数据。
DMA写，CPU读：DMA已经把新数据写入内存，但CPU从Cache里读到了旧数据。

解决方案：

使用非缓存内存区域。在链接脚本中定义一段特殊的内存段（如NonCacheable），将需要与DMA共享的缓冲区放在这个区域。在Cortex-M7上，可以通过MPU配置某块内存区域为Non-cacheable。
使用缓存维护操作。在启动DMA传输前，如果CPU写了数据，需要执行SCB_CleanDCache_by_Addr将Cache数据刷回内存。在DMA传输完成后，如果CPU要读数据，需要执行SCB_InvalidateDCache_by_Addr将Cache数据无效化，迫使CPU从内存重新加载。

调试技巧：当怀疑是DMA-Cache一致性问题时，可以临时将相关内存区域设置为非缓存进行测试。如果问题消失，那就证实了猜想。

查看全文

http://www.jsqmd.com/news/1069881/