当前位置：首页 > news >正文

从SRAM到MRAM：手把手拆解主流存内计算方案的选型避坑指南

news 2026/7/13 13:30:47

从SRAM到MRAM：手把手拆解主流存内计算方案的选型避坑指南

在芯片设计领域，存内计算（Computing-in-Memory）正掀起一场架构革命。当一位工程师首次面对SRAM、ReRAM、MRAM等五花八门的存储介质选型时，往往会陷入技术参数的迷宫——哪种方案更适合边缘AI推理？高密度存储场景该牺牲一致性还是工艺成熟度？本文将化身您的"选型导航仪"，通过三个真实工程案例，揭示不同存储介质在存内计算中的实战表现。

1. 存内计算的技术十字路口

存内计算本质上是用存储单元做数学运算。想象一下，传统架构中数据要在CPU和内存间"往返跑"，而存内计算则让数据"就地解决"。这种范式转换带来两个关键指标：

能量效率：数据搬运能耗可占系统总功耗的60%以上
计算密度：单位面积内能并行处理的运算量

当前主流存储介质在存内计算中的表现差异显著：

介质类型	计算精度	非易失性	耐久性(次)	工艺节点(nm)	单元面积(F²)
SRAM	数字/模拟	否	>1e15	5	120-140
eFlash	模拟为主	是	1e4-1e5	40	20-30
ReRAM	模拟为主	是	1e6-1e12	28	4-10
MRAM	数字为主	是	>1e15	22	20-40

注：F²表示特征尺寸的平方，数值越小密度越高

2023年ISSCC会议上，台积电展示的ReRAM存内计算芯片在ResNet-18模型上达到35.1TOPS/W，而三星的MRAM方案则在数字计算中实现0.8V@4GHz的超低电压运行。这些案例印证了不同介质的技术分化。

2. SRAM方案：高性能背后的面积代价

在28nm工艺节点下，我们曾为某AI加速器设计过SRAM存内计算模块。其优势非常明显：

// 典型6T-SRAM存内计算单元 module SRAM_CIM ( input WL, BL, BLB, inout [7:0] ADC_out ); // 模拟计算通过电荷共享实现 always @(posedge WL) begin ADC_out <= (BL - BLB) * cell_data; end endmodule

但实际流片后暴露出三大痛点：

面积膨胀：8bit乘加阵列占用面积是纯存储的3.2倍
漏电问题：在55℃环境下静态功耗增加47%
工艺敏感性：跨芯片的阈值电压偏差导致计算误差达8.3%

某头部自动驾驶芯片厂商的解决方案值得借鉴：他们采用混合精度架构，对关键层使用SRAM计算（8bit），普通层转为数字存内计算（4bit），最终面积优化39%。

3. MRAM的阻值困局与突围路径

MRAM的非易失性和无限耐久性看似完美，但其核心挑战在于：

标准STT-MRAM单元阻值仅5-10kΩ
高低阻态比通常<300%

这导致模拟计算时信噪比(SNR)严重不足。IMEC的解决方案颇具创意：

# SOT-MRAM单元电阻模型 def calc_snr(R_high, R_low, N_cells): R_parallel = 1/(N_cells*(1/R_high + 1/R_low)) signal = N_cells*(1/R_low - 1/R_high) noise = sqrt(4*k*T*R_parallel)*N_cells return 20*log10(signal/noise)

通过采用自旋轨道矩(SOT)结构，他们将单元电阻提升到MΩ级别，使128x128阵列的SNR改善17.6dB。而三星则另辟蹊径，其"电阻链"方案通过串联多个单元提升有效阻值，代价是计算延迟增加23%。

4. 选型决策树：从需求到方案

根据三个真实项目经验，我们提炼出以下决策流程：

明确计算类型
- 数字计算：优先考虑MRAM/SRAM
- 模拟计算：评估ReRAM/Flash
工艺成熟度检查
- 成熟制程(>28nm)：所有选项开放
- 先进制程(<16nm)：排除Flash

关键指标排序

graph TD A[需求分析] --> B{是否要求非易失?} B -->|是| C[MRAM/ReRAM] B -->|否| D[SRAM] C --> E{需要高精度模拟?} E -->|是| F[ReRAM优先] E -->|否| G[MRAM优先]

某IoT芯片客户的实际选择过程颇具代表性：他们最终采用MRAM数字计算+轻量级模拟前端，在语音识别任务中达成0.5mW@98%准确率，比纯SRAM方案续航提升6倍。

5. 工程落地中的隐藏成本

容易被忽视的三大隐性成本因素：

测试成本：MRAM需要磁屏蔽测试环境，设备投入增加$2.8M
设计迭代：ReRAM的IV非线性特性导致SPICE仿真耗时增加5-8倍
良率补偿：28nm eFlash的存内计算模块需要预留15%冗余单元

一个血泪教训：某团队在40nm节点选择Flash方案时，未考虑擦写次数限制，量产时因训练数据更新频繁导致器件提前失效，最终被迫召回。这提醒我们：耐久性指标必须按实际应用场景加3-5倍余量。

在最近一次MRAM存内计算芯片的流片中，我们发现温度系数对计算精度的影响比预期大得多。通过调整自由层的饱和磁化强度(Ms)，最终将-40℃~125℃范围内的计算偏差控制在±1.5%以内。这种细节级的参数调优，正是工程实践中区分平庸与卓越的关键所在。

查看全文

http://www.jsqmd.com/news/855778/

如何摆脱文章同质化，让编辑一眼心动？

3分钟快速上手：Rufus终极USB启动盘制作完整指南

企业级ONVIF协议集成：实战架构设计与最佳实践

如何通过REST API和MCP服务器彻底释放Obsidian笔记自动化潜力

终极B站视频下载指南：3分钟学会无水印高清下载技巧

Minio备份文件占满磁盘？教你用Rsync硬链接做增量备份，省下80%空间

PlantCV终极指南：5步掌握植物表型分析开源工具

Perplexity读书笔记生成实战手册（学术党职场人必藏版）：覆盖PDF/EPUB/网页多源解析与结构化输出

chatgpt-mirai-qq-bot工作流系统：可视化编排复杂对话逻辑

3分钟实现CAD建模革命：Zoo Text-to-CAD如何让文字描述秒变3D模型？

Python OAuth终极指南：requests-oauthlib快速入门与实战

3步精通Mission Planner：从零开始打造你的智能飞行指挥官

YimMenu：基于现代C++的GTA V模块化反作弊与安全架构深度解析

3步掌握VisionAgent：让AI为你的视觉任务自动生成代码

Adobe-GenP 3.0：5分钟快速激活Adobe全系列软件的专业指南

别再只会Hello World了！用Hadoop 3.x + Eclipse手把手搞定你的第一个MapReduce词频统计

汽车电子入门实战：用STM32F103模拟LIN总线车窗控制器（附代码）

5分钟掌握face-detection-tflite：Python人脸检测终极指南

避开VisionPro PatMaxTool的5个常见‘坑’：从训练报错到匹配超时，一次讲清楚

python海龟绘图之绘图窗口操作

Rufus终极指南：5步快速创建专业级可启动USB安装盘

Redis——string类型相关指令

14种颜色，3分钟安装：用Folcolor彻底改变你的Windows文件夹管理体验

LDDC歌词管理工具：一站式解决歌词下载、匹配与转换的终极方案

CANN/asc-devkit __hgtux2函数

CANN/asc-devkit原子减法操作

告别Keil！用STM32CubeIDE给STM32F103C8T6做双路ADC采样（附DMA+串口中断完整工程）

如何在Linux系统上快速部署Tsukimi：打造你的个人媒体中心

2026年国内优质伺服油缸定制厂家盘点-口碑好的薄型油缸源头工厂|拉杆油缸源头工厂推荐:高杰自动化领衔 - 栗子测评

避开勒让德函数那些坑：GRACE数据处理中MATLAB高效计算与调试技巧