当前位置：首页 > news >正文

从Dekker算法看并发编程基础：互斥、内存屏障与现代实现

news 2026/6/24 23:03:08

1. 从“Zeroin”项目看并发编程的基石

最近在整理一些老项目的代码，翻到了一个名为“Zeroin”的早期实验性项目。这个项目名字听起来有点抽象，其实它的核心目标很简单：探索如何在多线程环境下，不使用任何现代高级同步原语（比如操作系统提供的锁、信号量），仅凭最基本的读写操作，来实现两个线程之间的互斥访问。听起来像是计算机科学史前时代的事情？没错，这正是并发编程的“石器时代”考古。而“Zeroin, Part 1”要啃的第一块硬骨头，就是Dekker‘s Algorithm（戴克算法）。

如果你对并发编程稍有了解，可能会觉得现在有pthread_mutex_t、std::mutex、synchronized关键字等等，为什么还要去研究一个半个多世纪前（1965年由荷兰数学家T. J. Dekker提出）的算法？这正是这个项目的价值所在。理解Dekker算法，不是让你在工作中去写它，而是为了彻底搞懂“互斥”这个概念究竟是如何从无到有被构建出来的。它像是一把钥匙，能帮你打开理解现代锁、内存屏障、甚至CPU缓存一致性协议的大门。当你被“死锁”、“活锁”、“内存可见性”这些问题折磨时，回头看看这个最原始的解决方案，往往会有豁然开朗的感觉。

简单来说，Dekker算法解决了两个线程（假设叫P0和P1）如何安全地进入一个“临界区”（比如修改一个共享变量）的问题，而且它保证了“有限等待”（不会有一个线程永远等不到）。它只使用了两个布尔型标志位（flag[0]和flag[1]）和一个整型轮转变量（turn），通过巧妙的标志设置与检查顺序，实现了互斥。接下来，我们就钻进这个算法的内部，看看它到底是怎么运转的，以及为什么在今天它依然是一个绝佳的教学案例和思维训练工具。

2. Dekker算法的核心机制：一场精心设计的“谦让舞”

Dekker算法的精妙之处在于，它通过一套规则，让两个线程在都想去临界区时，能够有序地“协商”谁先进入，而不是一拥而上导致数据混乱。我们先看它的经典伪代码结构，然后一步步拆解其逻辑。

线程P0的算法逻辑：

// 初始化 flag[0] = false; flag[1] = false; turn = 0; // 或 1， 表示初始让谁先尝试 // 线程P0的循环 while (true) { flag[0] = true; // P0举手示意：“我想进临界区” while (flag[1] == true) { // 检查P1是否也举手了？ if (turn != 0) { // 如果现在不该我（轮转值不是0） flag[0] = false; // P0暂时放下手，礼让 while (turn != 0) { // 忙等待，直到轮到我（turn变为0） } flag[0] = true; // 再次举手 } } // 临界区（Critical Section） // ... 执行需要互斥的操作 ... turn = 1; // 退出时，把机会让给P1 flag[0] = false; // P0放下手，表示我出来了 // 剩余区（Remainder Section） }

线程P1的逻辑完全对称，只是将所有的0和1互换。

2.1 算法状态机的三重保障

这个算法之所以能工作，依赖于三个核心变量交织出的状态机：

flag[i]：意图标志。flag[i] = true直白地宣告：“线程i有意进入临界区”。这是一个“先举手后进门”的协议，避免了直接冲进去的冲突。
turn：轮转变量。这是一个仲裁者。当两个线程都举手（flag[0]和flag[1]都为真）时，turn决定谁该让路。它保证了在竞争情况下，不会两个线程互相谦让导致谁也无法前进（即避免活锁）。
检查与设置的顺序：这是算法的灵魂。注意P0的操作顺序：先设置自己的flag[0]为真，然后才去检查flag[1]。这个顺序至关重要。如果反过来，先检查再设置，会出现一种情况：两个线程同时检查对方的flag，发现都是false，然后都设置自己的flag为true，接着都认为对方没举手而进入临界区，互斥就被破坏了。

2.2 一次完整的“握手”流程解析

让我们模拟一次典型的竞争场景，假设初始turn = 0：

步骤1：P0和P1几乎同时执行，都设置了flag[0]=true和flag[1]=true。
步骤2：双方都进入内层while循环检查对方的flag。因为对方的flag都是true，所以条件成立，进入if判断。
步骤3：检查turn。当前turn=0。
- 对P0：if (turn != 0)为假，因此它不执行if块内的礼让操作，而是持续在while (flag[1] == true)这个空循环里等待（忙等待）。这被称为“自旋”。
- 对P1：if (turn != 1)为真（因为turn=0不等于1），因此P1进入if块。
步骤4：P1执行礼让操作：flag[1] = false（放下手），然后进入while (turn != 1)循环自旋等待。
步骤5：P1在等待时，P0仍在自旋检查flag[1]。一旦P1将flag[1]设为false，P0立即跳出while (flag[1] == true)循环，成功进入临界区。
步骤6：P0退出临界区时，执行turn = 1，将机会让给P1，然后flag[0] = false。
步骤7：turn变为1后，在步骤4中等待的P1立即跳出while (turn != 1)循环，重新设置flag[1]=true，然后检查flag[0]。此时P0的flag[0]已为false，所以P1也能顺利进入临界区。

这个过程就像两个绅士在门口相遇，都举手示意要进门。他们约定看一个令牌（turn），令牌在谁手，另一方就主动退后一步、放下手等待。等拿令牌的那位进去再出来后，会把令牌交给等待的那位。通过“举手-看令牌-礼让”这套固定舞步，确保了任何时候只有一人能进门。

注意：这里的“忙等待”（Busy Waiting）是早期算法的一个特点，线程会在循环中空转消耗CPU。这在现代多核编程中通常是需要避免的低效行为，但在理解原理时，它是最清晰的模型。

3. 为什么Dekker算法是正确且公平的？

一个互斥算法必须满足三个基本条件：互斥（Mutual Exclusion）、空闲让进（Progress）、有限等待（Bounded Waiting）。我们来逐一验证Dekker算法。

3.1 互斥性的证明

互斥意味着不可能有两个线程同时处于临界区。假设反证法成立，即P0和P1同时进入了临界区。那么它们进入之前，各自的while (flag[1/0] == true)循环条件都必须为假。也就是说，在P0进入的瞬间，它看到flag[1] == false；在P1进入的瞬间，它看到flag[0] == false。

但是，根据算法的顺序，一个线程在进入临界区前，一定已经将自己的flag设为了true。所以，如果两者都进入了，意味着在某个时间点，flag[0]和flag[1]都曾为true。那么，后设置flag的线程，在设置之前，一定会先看到对方已经为true的flag，从而被阻塞在内层while循环或礼让流程中，根本无法进入临界区。这与假设矛盾。因此，互斥性得证。

3.2 空闲让进与有限等待

空闲让进指当没有线程在临界区时，如果有线程想进入，不应该被无限期阻挡。Dekker算法满足这一点：如果没有竞争（另一个线程的flag为false），那么想进入的线程会直接通过检查，进入临界区。

有限等待指一个线程从提出申请到进入临界区，等待时间是有上限的。这是由turn变量保证的。考虑最坏情况：P0和P1都想进入，且turn=1。P0可能会被P1阻挡一次（因为turn != 0，P0需要礼让）。但当P1进入并退出临界区时，它必定会将turn设置为0。这样，下一轮竞争中，turn就有利于P0，P0至多再等待P1进入一次后，就能保证获得进入权。因此，任何一个线程最多在连续两次竞争中失败后，第三次一定能成功进入。这就实现了有限等待，避免了“饿死”。

4. 从理论到实践：在现代系统上模拟Dekker算法的陷阱

在“Zeroin”项目中用C语言实现Dekker算法时，你很快会发现一个严峻的问题：代码按照逻辑写出来了，但运行结果时对时错，数据竞争依然发生。这不是算法逻辑错了，而是我们遇到了现代计算机体系结构带来的挑战。

4.1 内存可见性与编译器优化

我们来看一个看似正确的C语言实现片段：

// 共享变量 int flag[2] = {0, 0}; int turn = 0; // 线程0的入口函数 void *thread0(void *arg) { for (int i = 0; i < 1000000; ++i) { flag[0] = 1; // 举手 while (flag[1] == 1) { if (turn != 0) { flag[0] = 0; while (turn != 0) {} // 忙等待 flag[0] = 1; } } // 临界区：递增共享计数器 counter++; turn = 1; flag[0] = 0; } return NULL; }

问题出在哪里？

编译器优化：为了提高速度，编译器可能会对指令进行重排序，或者将频繁读取的变量缓存到寄存器中。例如，它可能认为while (flag[1] == 1)循环内的flag[1]值不会改变（因为另一个线程修改的是内存，而本线程的寄存器副本没变），从而将其优化成只读一次，导致线程无法看到另一个线程对flag[1]的更新，永远跳不出循环。
CPU乱序执行与内存模型：即使编译器不做激进优化，现代CPU为了性能也会乱序执行指令，并且每个核心可能有自己的缓存。线程P0对flag[0]=1的写入，可能不会立即被线程P1的CPU核心看到，因为写入还停留在P0的核心缓存里，没有刷新到共享的主内存。这就是所谓的“内存可见性”问题。

4.2 让Dekker算法在现代硬件上“活过来”

为了让这个古老的算法能在今天的多核CPU上正确运行，我们必须使用内存屏障（Memory Barrier）或原子操作（Atomic Operations）来对抗编译器和CPU的优化。

使用volatile（作用有限）：在C/C++中，volatile关键字告诉编译器不要把这个变量优化到寄存器里，每次读写都必须从内存中进行。这解决了编译器缓存的问题，但并不能解决CPU缓存一致性和指令重排序的所有问题。因此，仅用volatile是不够的，在高并发下依然可能出错。
使用编译器屏障：GCC/Clang提供了__asm__ __volatile__("" ::: "memory")这样的内联汇编语句，作为一个通用的编译器屏障，阻止屏障前后的读写操作被编译器重排序。这比volatile更强，但依然属于软件层面。
使用CPU内存屏障：在x86架构上，mfence指令是一个全内存屏障，能确保屏障前的所有内存操作（store/load）都完成后，才执行屏障后的操作。在实现Dekker时，我们可能需要在关键的位置插入屏障。
使用原子操作与顺序一致性模型：这是最现代、最推荐的做法。使用C11标准的<stdatomic.h>或C++11的<atomic>。我们可以将flag和turn声明为原子变量（atomic_int或atomic_bool），并使用memory_order_seq_cst（顺序一致性）内存顺序进行所有操作。顺序一致性是最强的内存模型，它保证了所有线程看到的原子操作顺序都是一致的，相当于在所有原子操作周围都加上了全内存屏障。这虽然会损失一些性能，但能完美地让Dekker算法逻辑正确执行。

一个使用C11原子操作的修正版关键部分示例如下：

#include <stdatomic.h> atomic_int flag[2] = {ATOMIC_VAR_INIT(0), ATOMIC_VAR_INIT(0)}; atomic_int turn = ATOMIC_VAR_INIT(0); void *thread0(void *arg) { for (int i = 0; i < 1000000; ++i) { atomic_store_explicit(&flag[0], 1, memory_order_seq_cst); // 举手 while (atomic_load_explicit(&flag[1], memory_order_seq_cst) == 1) { if (atomic_load_explicit(&turn, memory_order_seq_cst) != 0) { atomic_store_explicit(&flag[0], 0, memory_order_seq_cst); while (atomic_load_explicit(&turn, memory_order_seq_cst) != 0) { // 忙等待，但此时对turn的读取是原子的、顺序一致的 } atomic_store_explicit(&flag[0], 1, memory_order_seq_cst); } } // 临界区 counter++; // 注意，counter本身也需要是原子的或受保护！ atomic_store_explicit(&turn, 1, memory_order_seq_cst); atomic_store_explicit(&flag[0], 0, memory_order_seq_cst); } return NULL; }

通过这个实践，你会深刻体会到，一个逻辑上正确的并发算法，在真实的计算机系统上运行，还需要考虑内存模型这一层。这恰恰是学习Dekker算法的另一大收获：它逼着你去理解硬件和编译器对并发程序的影响。

5. Dekker算法的局限性与历史地位

尽管Dekker算法在理论上优雅地解决了两个线程的互斥问题，但它有明显的局限性，这也解释了为什么它没有在工业界被直接采用。

5.1 无法扩展到N个线程

这是最致命的缺点。Dekker算法的核心协商机制依赖于一对一的“谦让”和唯一的turn变量。当线程数量增加到3个或更多时，这种二元协商机制就崩溃了。你无法用一个简单的turn变量在多个线程间做出公平的仲裁。后来出现的Peterson算法（同样是两个线程）更简洁，但扩展性问题依旧。直到更复杂的面包店算法（Lamport‘s Bakery Algorithm）出现，才在理论上解决了N线程的互斥问题，但其复杂度和性能开销也大大增加。

5.2 忙等待消耗CPU资源

算法中包含了while循环空转，这在等待时会持续占用CPU核心。对于可能等待较长时间的场景（例如等待I/O），这是极大的资源浪费。现代操作系统的锁实现（如futex）会结合忙等待和线程休眠，在短期等待时自旋，长期等待时让出CPU，以达到效率最优。

5.3 对现代硬件不友好

如前所述，它严重依赖顺序内存模型。在现代的弱内存模型处理器（如ARM、PowerPC）上，不施加严格内存屏障的正确实现将异常困难且低效。

5.4 历史地位与教学意义

虽然不实用，但Dekker算法的历史地位无可替代。它是第一个被证明正确的、解决了两线程互斥且满足有限等待条件的软件算法。它清晰地展示了互斥协议所需的几个基本要素：表达意图（flag）、解决竞争（turn）、正确的操作顺序。后来的所有无锁算法、同步原语，其思想内核都能追溯到这些简单的概念。

在“Zeroin”项目中实现它，就像程序员的一次“朝圣”。你亲手用最原始的工具（共享变量）搭建了一个同步设施，这个过程中对竞争条件的每一分担忧，对内存操作的每一次斟酌，都会深化你对“并发”本质的理解。当你再使用std::mutex.lock()时，你看到的将不再是一个黑盒魔法，而是一套复杂但有序的协商规则在底层默默工作。

6. 超越Dekker：它在现代并发中的思想回声

Dekker算法的思想并未过时，它以各种形式存在于现代并发编程中。

自旋锁（Spinlock）：Dekker算法中的忙等待，正是自旋锁的核心行为。现代自旋锁（如Linux内核的spinlock_t）使用原子操作（如Test-and-Set, Compare-and-Swap）来实现更高效、可扩展的flag检查与设置，其“自旋等待”的逻辑与Dekker一脉相承。
互斥锁（Mutex）的实现基础：用户态的互斥锁库，在竞争不激烈时，往往会先尝试一段类似自旋锁的乐观获取。其底层状态管理（锁定、未锁定、可能有等待者）的思想复杂度远超Dekker，但解决“谁该进入”这个核心问题的思路是相通的。
无锁编程中的标志位：在一些无锁数据结构中，我们经常能看到使用标志位（类似flag）来指示某个节点是否被占用、是否正在修改。管理这些标志位的原子操作和内存顺序，是Dekker算法精神在更精细层面的体现。
硬件内存屏障的理解：为了正确实现Dekker而学习内存屏障，这直接帮助你理解Java中的volatile、C++中的std::atomic、以及各种内存顺序（memory_order_relaxed,acquire,release,seq_cst）的深层含义。你知道它们为什么存在，是为了解决什么样的问题。