当前位置: 首页 > news >正文

ARM 架构中的数据内存屏障指令 DMB

ARM 架构中的数据内存屏障指令 DMB

本文来自于我关于 ARM架构中内存屏障和同步指令的系列文章。欢迎阅读、点评与交流~

1、ARM 架构中的数据内存屏障指令 DMB
2、ARM 架构中的数据同步屏障指令 DSB
3、ARM 架构中的指令同步屏障 ISB

核心定义

数据内存屏障指令 DMB是一种同步指令,用于保证在它之前的所有内存访问(读/写)操作,在它之后的所有内存访问操作开始之前,已经完成

简单来说,它是一个“栅栏”或“路障”,告诉处理器:“把我前面所有关于内存的操作都搞定,再处理后面的。”


为什么需要 DMB?

主要原因在于现代处理器(包括ARM)的乱序执行多级缓存架构。

  1. 乱序执行:为了提高性能,CPU和编译器可能会对没有依赖关系的指令进行重新排序。在单核程序中,这通常没问题,因为最终结果保持一致。但在多核/多线程环境下,这种重排序可能导致其他处理器看到不一致的内存状态。
  2. 缓存:每个CPU核心有自己私有的缓存。一个核心对内存的修改,不会立即被其他核心看到。DMB可以与其他同步机制配合,确保内存操作的全局可见性顺序。

没有DMB会导致的问题示例(典型的生产者-消费者场景):

假设有两个核心,共享两个变量:

  • flag(表示数据是否就绪)
  • data(实际数据)

生产者核心(Core A)执行:

STR R1, [data] // 1. 写入数据 STR #1, [flag] // 2. 设置标志位为1,表示数据就绪

由于乱序执行,Core A的这两条写入指令在全局内存顺序上可能被其他核心看到是颠倒的(即Core B先看到flag=1,后看到新的data)。

消费者核心(Core B)执行:

loop: LDR R2, [flag] // 检查标志位 CMP R2, #0 BEQ loop // 如果为0,循环等待 LDR R3, [data] // 读取数据

如果Core B先看到了flag=1(但此时data的更新还未可见),它就会去读取旧的、未更新的data,导致程序逻辑错误。

解决方法:在生产者核心的两条写入指令之间插入DMB。

STR R1, [data] // 1. 写入数据 DMB // 屏障:保证步骤1的写入在任何后续写入之前完成 STR #1, [flag] // 2. 设置标志位

现在,Core B绝对不会在见到新的flag之前,见不到新的data


DMB 的语法和参数

在ARM汇编中,DMB指令可以带一个选项,用来指定屏障的作用域,以在性能和正确性之间取得平衡。

语法:DMB <option>

常见的选项(基于ARMv7/v8架构):

选项含义作用域
SY全系统屏障影响系统中的所有观察者(所有其他CPU核心、GPU、DMA控制器等)。这是最严格、最常用的选项。
ISH内部可共享域屏障只影响当前CPU集群内(通常指共享L2/L3缓存)的所有核心。
NSH非可共享屏障只影响当前核心的流水线,不保证对其他核心的可见性。用于保证本核心指令的顺序。
OSH外部可共享域屏障影响当前核心所在域之外的可共享观察者(例如,对其他集群或系统组件)。

在Linux内核驱动或底层代码中,最常用的是DMB SY


DMB 与其他屏障指令的关系

ARM架构有一组内存屏障指令:

  1. DMB(数据内存屏障)

    • 关注点:内存访问指令之间的顺序
    • 保证屏障前后的Load(读)和Store(写)指令的相对顺序。
    • 它不保证这些访问何时对他人可见,只保证本核心发出的访问请求的顺序。
  2. DSB(数据同步屏障)

    • 比DMB更严格
    • 它不仅像DMB一样排序访问,还会等待屏障之前的所有内存访问彻底完成(例如,缓存写入、总线事务结束),然后再执行屏障后的任何指令(不仅仅是内存访问)。
    • 常用在更改内存映射(如修改页表)、切换上下文等需要确保之前操作完全生效的场景。
  3. ISB(指令同步屏障)

    • 刷新处理器流水线,确保所有先前指令都执行完毕,然后从缓存或内存中重新预取指令
    • 常用在写入系统控制寄存器(如MMU、缓存配置)之后,确保后续指令使用新的配置执行。

一个简单比喻

  • DMB:像工地上的工头,对工人们喊:“先把所有运砖的活干完,才能开始运沙子的活!”(只排序任务类型)。
  • DSB:工头喊:“所有运砖的活必须全部完工、砖块到位验收,任何人才能开始下一项工作!”(等待完成并排序)。
  • ISB:工头喊:“全体休息5分钟,忘记刚才所有工作安排,然后听我发布新指令!”(清空流水线,重新开始)。

在高级语言中的使用

你通常不会直接写DMB指令。高级语言通过以下方式使用它:

  • C/C++:使用编译器内置函数(如GCC的__asm__ volatile("dmb sy" ::: "memory"))或调用操作系统提供的屏障API。
  • Linux内核:使用mb(),rmb(),wmb()等宏,它们会根据架构展开为相应的DMB/DSB指令。
  • C++11/Java:使用原子操作(std::atomic)或特定的内存序(如std::memory_order_seq_cst,std::memory_order_acquire/release),编译器会在生成的机器码中自动插入必要的内存屏障。

总结

DMB的核心价值在于:它是在一个弱内存序模型的架构(如ARM)上,实现多核并发程序正确性基础硬件原语。它通过在关键位置强制内存操作的顺序,使得程序员和编译器能够推理并控制多线程间的内存可见性,从而构建出可靠的锁、无锁数据结构、同步机制等。

简言之:DMB是让混乱的、为性能而优化过的内存访问世界,恢复到一个程序员可以理解和控制的、有序状态的关键工具。

http://www.jsqmd.com/news/84339/

相关文章:

  • 【视频导图大师】3秒批量导出视频所有画面为高清图片/序列帧/视频截图/视频转图片
  • test tagstest tags - itnews
  • 终极指南:解锁Quansheng对讲机隐藏功能的完整方案
  • 终极指南:CinoLib——免费开源的通用网格处理神器
  • test tags2 - itnews
  • 光隔离探头
  • 窗口相关操作的总结
  • TileLang终极指南:45分钟内打造你的首个高性能GPU算子
  • 5分钟掌握Transition.css:让你的网页动起来
  • AI大模型之Agent,RAG,LangChain(二)
  • 技术周报 | 特朗普签令统一AI监管;长三角启动应用征集;多场开发者大会本周密集召开
  • 恢复条码至compvalue里
  • 北京陪诊服务权威推荐榜单 - 品牌排行榜单
  • HNOI2019《序列》
  • 峰值检测电路
  • 基于Java的安全生产投诉智慧管理系统的设计与实现全方位解析:附毕设论文+源代码
  • 【Godot】【入门】Godot 是什么?适合做哪些类型的游戏(附路线图+避坑清单)
  • 北京上门收画服务权威推荐榜单​ - 品牌排行榜单
  • 从零到一:构建一个实时语音翻译应用(Vue3 + Web Speech API)
  • 前端性能与监控指标采集系统设计方案
  • PWA资产生成器终极教程:5分钟快速创建专业级图标和启动画面
  • 基于PyTorch的深度学习基础课程之十:损失函数
  • 学习Linux要注意的地方
  • 43、Python 并发与网络编程全解析
  • Spark:革命性的命令行数据可视化工具,让DevOps监控更高效
  • [技术讨论] 三极管高低温特性测试
  • 12306反反爬虫策略:Python网络请求优化实战
  • 清华virtuoso简明教程PDF资源完整指南
  • # NCHUD-数字电路模拟程序和课堂测验
  • Android Studio + Gemini 移动创建领域的一次范式转移