当前位置：首页 > news >正文

从ARM汇编ldrex/strex入手，彻底搞懂Linux原子操作的硬件实现原理

news 2026/7/1 19:34:16

从ARM汇编ldrex/strex入手，彻底搞懂Linux原子操作的硬件实现原理

在多核处理器成为主流的今天，如何确保多个CPU核心对共享数据的访问不会引发竞态条件，是操作系统内核设计中的核心挑战之一。原子操作作为解决这一问题的基石，其硬件实现机制往往被封装在高层次的API之下，成为大多数开发者眼中的"黑盒"。本文将深入ARM架构的ldrex/strex指令对，揭示Linux原子操作如何在硬件层面实现真正的"不可分割性"。

1. 原子操作的硬件本质

原子操作的核心特征是不可中断性——要么完整执行，要么完全不执行。这种特性无法仅靠软件实现，必须依赖处理器提供的特殊指令。不同架构对此有不同的实现方式：

x86：通过lock前缀锁定总线
MIPS：使用ll(load linked)/sc(store conditional)指令对
ARM：采用ldrex(load exclusive)/strex(store exclusive)机制

以ARMv7架构为例，当CPU执行ldrex指令时，会同时完成两件事：

从内存加载数据到寄存器
标记该内存区域为"独占访问"状态

对应的strex指令在执行存储操作前，会检查这个独占标记是否仍然有效。只有当没有其他处理器核心修改过该内存区域时，存储才会成功，并返回0；否则存储被放弃，返回1。

// ARMv7原子加操作的典型实现 1: ldrex r0, [r1] @ 独占加载 add r0, r0, r2 @ 修改值 strex r3, r0, [r1] @ 尝试独占存储 cmp r3, #0 @ 检查是否成功 bne 1b @ 失败则重试

这种"加载-修改-条件存储"的循环模式构成了LL/SC(Load-Link/Store-Conditional)的通用范式，相比x86的总线锁定，具有更精细的并发控制粒度。

2. Linux内核中的原子变量实现

Linux通过atomic_t类型封装原子操作，其定义体现了与硬件的紧密耦合：

typedef struct { volatile int counter; } atomic_t;

volatile关键字在这里起到双重作用：

阻止编译器对内存访问进行优化
确保每次操作都直接作用于内存而非寄存器

内核提供了一系列原子操作API，其实现最终都会落实到架构特定的汇编指令：

API函数	作用描述	典型使用场景
atomic_read	原子读取	获取引用计数值
atomic_set	原子写入	初始化原子变量
atomic_add	原子加法	增加资源计数
atomic_sub	原子减法	减少资源计数
atomic_inc	原子自增1	引用计数增加
atomic_dec	原子自减1	引用计数减少
atomic_cmpxchg	比较并交换	实现锁、等待队列等

这些API在ARM平台下的实现都遵循相似的模板：

static inline void atomic_add(int i, atomic_t *v) { unsigned long tmp; int result; __asm__ __volatile__("@ atomic_add\n" "1: ldrex %0, [%3]\n" " add %0, %0, %4\n" " strex %1, %0, [%3]\n" " teq %1, #0\n" " bne 1b" : "=&r" (result), "=&r" (tmp), "+Qo" (v->counter) : "r" (&v->counter), "Ir" (i) : "cc"); }

注意："+Qo"约束表示操作数既是输入也是输出，且要求内存位置可寻址

3. 多核环境下的内存屏障问题

在SMP系统中，原子操作还需要考虑内存可见性问题。ARM等弱内存模型架构中，处理器可能对内存访问进行重排序，导致意外的执行结果。这就是为什么返回结果的原子操作需要包含内存屏障：

static inline int atomic_add_return(int i, atomic_t *v) { unsigned long tmp; int result; smp_mb(); // 内存屏障 __asm__ __volatile__("@ atomic_add_return\n" "1: ldrex %0, [%3]\n" " add %0, %0, %4\n" " strex %1, %0, [%3]\n" " teq %1, #0\n" " bne 1b" : "=&r" (result), "=&r" (tmp), "+Qo" (v->counter) : "r" (&v->counter), "Ir" (i) : "cc"); smp_mb(); // 内存屏障 return result; }

内存屏障确保了：

屏障前的所有内存操作在屏障后的操作之前完成
操作结果对其他处理器核心立即可见

下表对比了不同架构的原子操作实现特点：

架构	指令/机制	特点	内存模型强度
x86	lock前缀	总线锁定，开销大	强一致性
ARM	ldrex/strex	细粒度独占标记	弱一致性
MIPS	ll/sc	类似ARM，但延迟槽设计不同	弱一致性
RISC-V	lr/sc	可配置的保留集大小	弱一致性

4. 原子操作在内核中的典型应用

4.1 引用计数

内核中广泛使用原子操作管理资源生命周期，如网络协议栈中的IP分片重组：

struct ipq { atomic_t refcnt; /* 其他字段 */ }; // 创建时初始化计数 atomic_set(&ipq->refcnt, 1); // 引用时增加计数 atomic_inc(&ipq->refcnt); // 释放时减少计数 if (atomic_dec_and_test(&ipq->refcnt)) { kfree(ipq); }

4.2 自旋锁实现

原子操作也是构建更高级同步原语的基础，如自旋锁的核心操作：

void spin_lock(spinlock_t *lock) { while (atomic_cmpxchg(&lock->val, 0, 1) != 0) { while (atomic_read(&lock->val) != 0) cpu_relax(); // 降低CPU占用 } }

4.3 调试子系统

内核调试工具如KGDB使用原子变量确保同一时间只有一个CPU进入调试状态：

static atomic_t kgdb_active = ATOMIC_INIT(-1); // 尝试获取调试权限 int old_cpu = atomic_cmpxchg(&kgdb_active, -1, current_cpu); if (old_cpu != -1) { // 已有其他CPU在调试状态 while (atomic_read(&kgdb_active) != -1) cpu_relax(); }

5. 性能优化与陷阱规避

虽然原子操作必不可少，但滥用会导致严重的性能问题：

缓存颠簸：多个核心频繁访问同一缓存行
- 解决方案：使用__cacheline_aligned_in_smp对齐关键数据
过度争用：高并发下的重试开销
- 替代方案：考虑percpu变量或无锁数据结构

编译器优化干扰：

// 错误示例：可能被优化为寄存器操作 atomic_t counter = ATOMIC_INIT(0); for (int i = 0; i < 100; i++) atomic_inc(&counter); // 正确做法：保持volatile语义 volatile atomic_t counter = ATOMIC_INIT(0);

在ARMv8架构中，原子操作有了进一步优化，新增的LSE(Large System Extension)指令集提供了单条指令实现的原子操作，如ldadd(原子加)、stset(原子置位)等，显著降低了多核争用场景下的开销。

查看全文

http://www.jsqmd.com/news/661081/