当前位置: 首页 > news >正文

share memery 就是 sram 吗

这个问题问得很好,而且确实容易混淆。我给你一个精确但不绕的答案


一、先给结论

shared memory 本质上就是片上 SRAM(on-chip SRAM)
❗ 但它是被编程模型暴露出来的一块“可控 SRAM”


二、为什么可以说它是 SRAM

在 GPU(比如NVIDIA的架构)里:

shared memory = SM 内部的一块高速存储

它的物理实现就是:

SRAM(静态随机存储)

和 HBM 对比一下你就清楚了

类型位置速度特点
shared memorySM 内非常快SRAM
L2 cache芯片内较快SRAM
HBM芯片外慢很多DRAM

👉 所以:

shared memory 属于“片上 SRAM 层级”


三、但为什么不能简单等同?

因为:

shared memory ≠ 普通缓存(cache)


区别 1:你要“手动管理”

cache(比如 L1 / L2)

自动管理(你不用管)

shared memory

C++
__shared__ floattile[16][16];

👉 你必须:

  • 自己加载

  • 自己同步

  • 自己设计布局


区别 2:访问模式完全由你控制

cache:

命中 or miss(不可控)

shared memory:

100% 可控(你决定数据放哪里)

四、shared memory 在整个 memory hierarchy 里的位置

你可以这样记:

register(线程私有,最快)

shared memory(block 共享,SRAM)

L2 cache(全局共享)

HBM(显存,最慢)

五、为什么 shared memory这么重要

一句话:

它是唯一一个你能“手动控制”的高速 SRAM


六、举一个你已经见过的例子(矩阵乘法)


❌ 不用 shared memory

每次都从 HBM 读

👉 慢


✅ 用 shared memory

HBM → shared memory(一次)
shared → 反复用(多次)

👉 性能提升:

常见 5x ~ 20x

七、再用一个直觉比喻(非常好记)

HBM = 远处仓库(慢)
shared memory = 本地仓库(快)
register = 手里拿的工具(最快)

👉 工作方式:

先从远仓库搬一批到本地仓库
再反复用

八、再补一个关键点(很多人不知道)

shared memory 和 L1 cache 有关系

在很多架构(比如 Ampere):

shared memory 和 L1 cache 是同一块物理 SRAM

👉 可以配置比例:

shared memory ↑ → cache ↓
cache ↑ → shared ↓

九、总结一句话

shared memory 本质是 SRAM,
但它是“程序员可控的 SRAM”,而不是自动缓存。


十、你现在已经理解到这一步

你已经串起来:

  • ✔ warp(执行)

  • ✔ memory(层级)

  • ✔ coalescing(访问)

  • ✔ shared memory(复用)

👉 这就是:

FlashAttention / Triton / AI 编译器 的核心基础


如果你再往下一步(关键)

下一步最重要的是:

👉shared memory 的 bank conflict(为什么有时候它也会慢)

这个点一旦搞懂,你就能:

  • 真正写高性能 kernel

  • 理解 FlashAttention 内部优化

  • 做 AI 编译器调度

我可以用“图 + 代码”给你讲到完全不模糊。

http://www.jsqmd.com/news/636918/

相关文章:

  • 论文降AI率别交智商税!10大去痕软件砸钱实测:3款封神,7款快跑
  • 2026年4月美容仪推荐排行与评测:基于动态分析的五大品牌深度对比与选择指南 - 品牌推荐
  • 2026年4月美容仪推荐与评测排行:基于动态分析的五大品牌深度对比与选择指南 - 品牌推荐
  • 2025-2026年全球PLC厂家评测:十款口碑产品推荐评价知名. - 品牌推荐
  • 该AI系统可智能识别论文重复段落,借助语义转换和结构重组有效增强文章的独特性
  • 2025-2026年国际空运物流公司推荐:五大口碑服务评测对比顶尖 - 品牌推荐
  • 新加坡国立大学开发AutoMIA:让AI自动发现隐私攻击策略智能系统
  • 路北区卖房中介哪家好在选择房产中介时,我们往往希望能够找到一家既专业又可靠的机构来帮助自己完成房屋交易。对于位于唐山市的路北区居民来说,如何挑选合适的卖房中介成为了一个值得探讨的话题。本文将从几个
  • 别再只看GitHub上的明星项目了——Agent开发中你一定也会遇到的10类真实问题
  • 2025-2026年全球PLC厂家推荐:十大口碑产品评测对比顶尖领先 - 品牌推荐
  • 2025-2026年全球充电站加盟品牌推荐:五大口碑产品评测对比领先. - 品牌推荐
  • AI驱动学术写作:8款实用工具简化毕业设计流程
  • FFmpeg基础知识速览
  • 程序员生存指南:除了会写代码,你还得学会“甩锅”和“自救”
  • OpenHarmony Camera驱动开发避坑指南:从HCS配置到Dump调试的完整实战
  • 基于多算法的车辆横向轨迹跟踪 Carsim、Simulink 联合仿真研究(Matlab代码、Simulink仿真实现)
  • 动手学深度学习——序列模型
  • 《Python大数据分析与挖掘实战》完整案例演示系统——基于Streamlit的全交互式教学平台
  • 2026龙泉月子会所排行:阳光房月子会所/高端月子中心/高端月子会所/龙泉月子中心/产后护理/坐月子/好评月子中心/选择指南 - 优质品牌商家
  • 2025-2026年国际空运物流公司推荐:五家顶尖服务评测对比口碑 - 品牌推荐
  • Java基于SSM/Vue/SpringBoot的酒店管理系统
  • 2025-2026年全球PLC厂家评测:十款口碑产品推荐评价知名 - 品牌推荐
  • 一次 Doris FE CPU 飙高的排障实录:从怀疑 fe.conf 到定位 MyBatis 超长批量 UPSERT
  • 2025-2026年全球充电站加盟品牌评测:五大口碑产品推荐评价领先 - 品牌推荐
  • 那些刷榜第一的 AI Agent,为什么到了真实场景就不行了?
  • 2026年室内墙面设计厂家电话查询推荐:联系方法与注意事项 - 品牌推荐
  • 日本加大投入约270亿元助力Rapidus实现2nm芯片量产
  • Toonflow AI短剧工厂:一站式小说转视频生成神器
  • 大模型风口来袭?转行还是深耕?985硕士大厂人的抉择与建议!
  • 2026年成都出发整车物流品牌选型:成都发省外物流/成都托运物流/成都物流公司/成都行李托运/托运电话/整车托运物流/选择指南 - 优质品牌商家