当前位置：首页 > news >正文

share memery 就是 sram 吗

news 2026/6/7 1:03:47

这个问题问得很好，而且确实容易混淆。我给你一个精确但不绕的答案。

一、先给结论

✅shared memory 本质上就是片上 SRAM（on-chip SRAM）
❗ 但它是被编程模型暴露出来的一块“可控 SRAM”

二、为什么可以说它是 SRAM

在 GPU（比如NVIDIA的架构）里：


shared memory = SM 内部的一块高速存储

它的物理实现就是：


SRAM（静态随机存储）

和 HBM 对比一下你就清楚了

类型	位置	速度	特点
shared memory	SM 内	非常快	SRAM
L2 cache	芯片内	较快	SRAM
HBM	芯片外	慢很多	DRAM

👉 所以：

shared memory 属于“片上 SRAM 层级”

三、但为什么不能简单等同？

因为：

shared memory ≠ 普通缓存（cache）

区别 1：你要“手动管理”

cache（比如 L1 / L2）


自动管理（你不用管）

shared memory

C++
__shared__ floattile[16][16];

👉 你必须：

自己加载
自己同步
自己设计布局

区别 2：访问模式完全由你控制

cache：


命中 or miss（不可控）

shared memory：


100% 可控（你决定数据放哪里）

四、shared memory 在整个 memory hierarchy 里的位置

你可以这样记：


register（线程私有，最快）
↓
shared memory（block 共享，SRAM）
↓
L2 cache（全局共享）
↓
HBM（显存，最慢）

五、为什么 shared memory这么重要

一句话：

它是唯一一个你能“手动控制”的高速 SRAM

六、举一个你已经见过的例子（矩阵乘法）

❌ 不用 shared memory


每次都从 HBM 读

👉 慢

✅ 用 shared memory


HBM → shared memory（一次）
shared → 反复用（多次）

👉 性能提升：


常见 5x ~ 20x

七、再用一个直觉比喻（非常好记）


HBM = 远处仓库（慢）
shared memory = 本地仓库（快）
register = 手里拿的工具（最快）

👉 工作方式：


先从远仓库搬一批到本地仓库
再反复用

八、再补一个关键点（很多人不知道）

shared memory 和 L1 cache 有关系

在很多架构（比如 Ampere）：


shared memory 和 L1 cache 是同一块物理 SRAM

👉 可以配置比例：


shared memory ↑ → cache ↓
cache ↑ → shared ↓

九、总结一句话

shared memory 本质是 SRAM，
但它是“程序员可控的 SRAM”，而不是自动缓存。

十、你现在已经理解到这一步

你已经串起来：

✔ warp（执行）
✔ memory（层级）
✔ coalescing（访问）
✔ shared memory（复用）

👉 这就是：

FlashAttention / Triton / AI 编译器的核心基础

如果你再往下一步（关键）

下一步最重要的是：

👉shared memory 的 bank conflict（为什么有时候它也会慢）

这个点一旦搞懂，你就能：

真正写高性能 kernel
理解 FlashAttention 内部优化
做 AI 编译器调度

我可以用“图 + 代码”给你讲到完全不模糊。

查看全文

http://www.jsqmd.com/news/636918/

论文降AI率别交智商税！10大去痕软件砸钱实测：3款封神，7款快跑

2025-2026年全球PLC厂家评测：十款口碑产品推荐评价知名. - 品牌推荐

该AI系统可智能识别论文重复段落，借助语义转换和结构重组有效增强文章的独特性

新加坡国立大学开发AutoMIA：让AI自动发现隐私攻击策略智能系统

路北区卖房中介哪家好在选择房产中介时，我们往往希望能够找到一家既专业又可靠的机构来帮助自己完成房屋交易。对于位于唐山市的路北区居民来说，如何挑选合适的卖房中介成为了一个值得探讨的话题。本文将从几个

别再只看GitHub上的明星项目了——Agent开发中你一定也会遇到的10类真实问题

2025-2026年全球充电站加盟品牌推荐：五大口碑产品评测对比领先. - 品牌推荐

AI驱动学术写作：8款实用工具简化毕业设计流程

FFmpeg基础知识速览

程序员生存指南：除了会写代码，你还得学会“甩锅”和“自救”

OpenHarmony Camera驱动开发避坑指南：从HCS配置到Dump调试的完整实战

基于多算法的车辆横向轨迹跟踪 Carsim、Simulink 联合仿真研究（Matlab代码、Simulink仿真实现）

动手学深度学习——序列模型

《Python大数据分析与挖掘实战》完整案例演示系统——基于Streamlit的全交互式教学平台

Java基于SSM/Vue/SpringBoot的酒店管理系统

2025-2026年全球PLC厂家评测：十款口碑产品推荐评价知名 - 品牌推荐

一次 Doris FE CPU 飙高的排障实录：从怀疑 fe.conf 到定位 MyBatis 超长批量 UPSERT

2025-2026年全球充电站加盟品牌评测：五大口碑产品推荐评价领先 - 品牌推荐

那些刷榜第一的 AI Agent，为什么到了真实场景就不行了？

2026年室内墙面设计厂家电话查询推荐：联系方法与注意事项 - 品牌推荐

日本加大投入约270亿元助力Rapidus实现2nm芯片量产

Toonflow AI短剧工厂：一站式小说转视频生成神器

大模型风口来袭？转行还是深耕？985硕士大厂人的抉择与建议！

2026年成都出发整车物流品牌选型：成都发省外物流/成都托运物流/成都物流公司/成都行李托运/托运电话/整车托运物流/选择指南 - 优质品牌商家