从存储革命到计算革命:eMRAM存算一体芯片的现状、迷思与终极蓝图
eMRAM只是过度形态,最终的神经网络芯片要成为存内计算单元,可以动态写入和改变神经网络权重,完成存储芯片也是计算芯片的跃迁。
在深度学习浪潮席卷全球的今天,一股深刻的焦虑正在芯片界蔓延:我们的计算机,似乎越来越“跑不动”这些庞大的AI模型了。处理器的算力在突飞猛进,计算本身只需不到1%的时间,而高达99%的延迟和功耗都浪费在处理器与存储器之间永无止境的数据搬运中。这便是困扰半导体行业半个多世纪的“冯·诺依曼瓶颈”。
为冲破这一藩篱,业界提出了一个看似颠覆性的理念——存算一体(Computing-in-Memory)。既然数据搬运是罪魁祸首,为何不让存储器在保存数据的同时,直接就地完成计算呢?在众多实现方案中,嵌入式磁阻随机存取存储器(eMRAM)凭借其独特的物理特性,正逐渐被视为承载这一使命的理想技术基石。
一、何为eMRAM?在磁性中存储信息
eMRAM,即嵌入式磁阻随机存取存储器,是一种利用磁性隧道结(MTJ)的电阻变化来记录数据的非易失性存储技术。
MTJ是一个纳米级的“三明治”结构:上下两层是铁磁性金属材料,中间夹着一层极薄的氧化物绝缘层。其中一层铁磁材料的磁化方向是“固定的”,称为参考层;而另一层的磁化方向是“自由的”,称为自由层,其磁化方向可以通过外部手段(如电流或磁场)来改变。
当自由层与参考层的磁化方向相互平行(Parallel)时,电子可以较容易地隧穿通过中间的绝缘层,表现为低电阻状态,通常被定义为逻辑“0”;而当它们反平行(Anti-Parallel)时,电子隧穿的概率大幅降低,表现为高电阻状态,定义为逻辑“1”。这种通过在纳米尺度下操控电子“自旋”这一纯量子力学特性来存储信息的方式,赋予了eMRAM许多传统存储器难以企及的特性。
在写数据方面,eMRAM主要采用的是自旋转移矩(STT)技术:不再使用外磁场,而是直接向MTJ注入一股高度“自旋极化”的电流。这股自旋极化电子流会与自由层的局部磁矩相互作用,传递力矩,从而巧妙地“翻转”自由层的磁化方向,完成信息的电学写入。这种纯电学的写入方式,为实现高密度、低功耗的存储阵列奠定了基础。
二、eMRAM的破局优势:为什么是它?
在嵌入式计算的新时代,许多应用场景要求芯片的片上存储器同时具备非易失性、高速度、高密度和无限次擦写的能力。eMRAM的独特物理机制,使其在与各类传统存储器的对比中崭露头角:
- eFlash(嵌入式闪存):闪存微缩止步于28nm,且写入前需块擦除,速度为毫秒级。eMRAM可随先进工艺微缩,写入速度约是其1000倍,且功耗更低。
- eDRAM:需数十毫秒刷新一次,静态功耗高。eMRAM无需刷新,断电后数据不丢失,静态功耗近乎为零。
- eSRAM:速度极快,但单元面积巨大,6个晶体管存1比特,成本极高。eMRAM单元面积远小于SRAM,可实现数倍的数据密度。
- eReRAM/ePCRAM:同为新兴非易失存储,但在温度敏感性、生产良率和耐久性上,eMRAM表现更优。
具体而言,eMRAM拥有以下五项核心优势:
1. 多代工艺兼容:闪存在28nm以下已无法继续微缩。而eMRAM凭借后端工艺兼容性,只需增加极少光罩即可与任何现有逻辑工艺(无论是平面、鳍式还是FD-SOI晶体管)集成,并已展示出可向14nm、8nm、甚至5nm节点演进的潜力。
2. 性能均速跃升:eMRAM无需在写入前执行擦除操作。据实测,其写入速度约为eFlash的1000倍。这使得很多原本受限于存储延迟的实时应用(如空中OTA升级)成为可能。
3. 数据长久驻留:数据以自旋方向的形式储存在磁性材料中,是一种物理状态而非电荷,数据可稳定保存超过20年(85℃下),且读写耐久性可达>1E12次循环甚至近乎无限。
4. 静态功耗终结者:因其非易失性,在待机模式下eMRAM的功耗为零,无需像DRAM那样消耗大量能量来维持数据刷新。
5. 极端环境适应性:eMRAM不仅具有比传统存储器更好的抗辐射能力,三星等厂商还验证了其在-25℃至150℃的极端温度下均能实现可靠的读写操作。
上述五大优势让eMRAM在AI、物联网与汽车电子三大战略高地上,成为当之无愧的下一代嵌入式存储“新王”。然而,当我们试图用eMRAM来构建AI芯片时,却会发现事情远非“把Flash换成MRAM”那么简单。
三、eMRAM的阿克琉斯之踵:技术与生态挑战
尽管eMRAM优势显著,但其大规模商业化仍面临一系列技术瓶颈。
首要挑战是写入功耗与速度的平衡。STT-MRAM的写入需要在MTJ中通过较高的电流密度来翻转磁化方向,这个写入电流远大于读取电流。过高的写入电流不仅导致动态功耗偏高,更对为MTJ提供驱动电流的CMOS晶体管施加了巨大的电压压力,严重威胁晶体管的栅氧寿命和整个位单元的可靠性。随着制程微缩到14nm以下,逻辑晶体管的工作电压会大幅下降,如何在不增加外围电荷泵电路、不增大芯片面积的前提下驱动MTJ写入,已成为先进节点下eMRAM设计的核心矛盾。为缓解这一问题,学术界正通过MgO隧道势垒工程、低电阻-面积积MTJ等手段来降低MTJ的开关电压。
其次是器件一致性(Device Variation)问题。在大规模阵列中,亿万个MTJ单元因工艺波动会表现出不同的电阻值和写入特性。如前文所述,MTJ利用电子的量子隧穿和自旋转移矩效应进行读写,对这些原子层级的物理过程极为敏感。即使每一道工艺都精确到极致,纳米尺度的界面粗糙度、薄膜厚度的微小差异也会在百万量级的阵列中引入可观的单元间不一致性。这种与生俱来的参数离散性——例如不同MTJ的写入电流阈值相差数十微安——对于要求高度精确的模拟计算而言将是灾难性的。
再次是有限的开关比(On/Off Ratio)问题。与某些新兴存储技术相比,MTJ的高阻态与低阻态之间的比值相对较小,给读取电路的设计带来了挑战,需要更灵敏的读出放大器区分信号。
最后是高昂的初期成本和生态系统不成熟。eMRAM的制造涉及精确的多层薄膜沉积和刻蚀工艺,堆叠层数超10层光罩,初期良率控制和成本摊销都是巨大挑战。相比传统CMOS设计,eMRAM的EDA工具、仿真模型、IP核和测试方案尚不够丰富。设计者需要更深入地理解磁性物理和器件特性,而代工厂也需要时间将良率提升至“亚ppm(百万分之一以下)级”比特错误率的水平。
四、理想与现实的差距:过渡形态的真实现状
正是由于上述挑战,几乎所有目前宣称的“eMRAM存算一体”芯片,本质上都是一种近存计算(Near-Memory Computing)的过渡形态。
以亚洲首个8nm eMRAM AI芯片为例,其核心技术采用了“MRAM + SRAM”的混合存储架构。该方案中,eMRAM的主要任务是以极高的密度和极低的静态功耗存储海量神经网络权重,而真正的计算,则很大程度上仍发生在旁边的SRAM计算单元中。
这种方案是当下最务实的工程路径:它用廉价的片上高密度非易失存储,换取了带宽和功耗的极大收益,又避开了直接挑战器件物理极限的模拟计算难题。然而,它仅仅是在物理距离上将存储和计算拉近了一些,数据依然需要从MRAM读出,再搬进SRAM进行计算。数据的“搬运”和“转换”并未消失。
而在学术前沿,一项有望打破这一僵局的重磅成果——南方科技大学与西安交通大学团队的全球首款“数字式非易失存算一体(nvDCIM)芯片”为我们指明了另一条务实道路。该成果基于40纳米STT-MRAM工艺,通过创新的“单元内乘法与数字化”(IBMD)设计,直接在STT-MRAM位单元内完成了单比特输入与存储权重的乘法运算并数字化输出,实现了精度完全无损的全并行矩阵计算,彻底避开了传统模拟式中耗电且昂贵的数模转换器。
这是MRAM在存内计算领域的一大步:它首次证明了数字式、精度无损地直接在MRAM中处理信息是可行的。但严格来讲,它通过在存储单元周边引入数字逻辑门的方式间接实现了“计算”,仍只是更逼近于真正的“存内处理”理想。
五、终极哲学:写入权重即运算
那么,真正的终局图景——“写入权重,即可运算”——究竟是怎样的?
在真正的存内计算芯片中,物理定律本身成了最强大的计算引擎。每一个神经网络连接权重的值,不再仅仅是一个抽象的0/1数字,而是被物理地、精确地编程设定为eMRAM单元中磁性隧道结的电导值。当输入信号(电压向量)施加在芯片上的一瞬间,物理世界最基础的法则——欧姆定律(I=V×G)与基尔霍夫电流定律便开始发挥作用:
电流自然地流过这些预编程的电导阵列,在每一条位线上瞬间完成了“输入电压 × 权重电导”的乘法,并在汇聚点自然地完成了电流的累加求和。
整个作为神经网络核心的“矩阵向量乘法”计算,由一个物理定律在不到一纳秒的时间内,原位、并行地直接完成了。无需逻辑门级联,无需从存储阵列中“读取”任何数据到外部的计算单元。一位IBM研究员曾如此形象地描述道:“模拟存内计算利用的是物理定律,而不是逻辑运算。”
这才是存算一体的终极哲学:数据从未“移动”,电子的流动本身即是计算。
这意味着,当厂商将一套训练好的神经网络权重(比如图像识别或大语言模型)通过电脉冲写入到eMRAM单元的原子磁矩中后,这个芯片就不再是简单的存储器,而**“蜕变”** 为了一块固化的物理大脑。下一次通电的瞬间,当一张图片的像素信息转化为电压向量时,欧姆定律会立刻产生结果电流,AI的推理在纳秒间完成。这是超越传统冯·诺依曼架构的终极能效极限。
六、最终幻想:神经网络的动态调整
但一个固化的“物理大脑”还不够完美。我们还需要赋予它像人类大脑一样的可塑性——即权重的动态可调整能力。
好消息是,eMRAM的物理本质与当代芯片的电路架构联合,正使得这种“终身学习”成为可能。如果一个应用场景需要实时更新人脸模型(比如针对特定用户的手机解锁),专用的写入控制电路可以通过极小的电流脉冲,以“写入-验证-重试”的闭环微调技术,精准地改变特定MTJ的磁化方向或磁畴结构,从而实现权重的片上原位更新。
面向未来,一些更前沿的研究正在探索利用电控磁效应(如电压调控磁各向异性效应VCMA)进行权重调节。通过施加一个电压而非大电流来改变磁性材料的各向异性,理论上可以实现比STT低几个数量级的超低功耗写入。虽然这类技术尚在实验室阶段,但它们为未来真正具备实时、低功耗“片上学习”能力的AI芯片描绘了清晰的演进方向。
总结:通往智能的航程
当前,基于eMRAM的存算一体技术正站在一个激动人心的历史交汇点。它不再只是存储技术的简单迭代,而是一场由物理学推动的计算范式革命。这场变革正分两步走:第一步,在现有工程基础上,通过“近存计算”解决迫在眉睫的AI推理能效难题;第二步,在实验室中持续攻克器件一致性与模拟计算噪声等世界级难题,向着“写入权重即计算”的理想彼岸挺进。
在这个“后摩尔时代”,工艺的微缩已不再是唯一的航标,而架构的创新——尤其是颠覆性的存算一体技术——正成为驱动AI能力民主化和无处不在智能的核心引擎。eMRAM,正承载着这一伟大愿景,向着真正的存内计算终极形态,乘风破浪。
