2T双端口无电容DRAM:基于体硅浮体效应的高性能嵌入式存储新方案
1. 项目概述:为什么我们需要重新思考嵌入式DRAM?
在今天的片上系统(SoC)设计里,内存子系统往往是性能、功耗和成本三角博弈的核心地带。对于需要高带宽、低延迟的嵌入式应用,比如高端图形处理器、网络处理器或者AI加速器,静态随机存取存储器(SRAM)和嵌入式动态随机存取存储器(eDRAM)是两种主流选择。SRAM速度快,但单元面积大(典型的6T单元),功耗也高;而传统的eDRAM,即1晶体管1电容(1T1C)结构,虽然单元面积小,但那个独立的存储电容成了工艺上的“阿喀琉斯之踵”。
随着工艺节点不断微缩,在硅片上集成一个高性能、高密度、漏电又小的电容变得越来越困难。电容的制造需要额外的、复杂的工艺步骤,这不仅推高了成本,也带来了可靠性和良率问题。更棘手的是,1T1C结构固有的“破坏性读取”特性——每次读取数据后都需要重写,这直接导致了额外的功耗和延迟。
正是在这种背景下,“无电容DRAM”(Capacitor-less DRAM)的概念应运而生。它的核心思想非常巧妙:既然制造电容这么麻烦,我们能不能用晶体管本身来存储电荷?答案是肯定的,利用的就是MOSFET中“浮体”(Floating Body)的物理效应。电荷被注入并暂时存储在晶体管的体区(Body),通过改变体电位来调制晶体管的阈值电压,从而实现“1”和“0”的区分。这彻底摒弃了独立电容,工艺兼容性更好,单元面积有望进一步缩小。
然而,早期的无电容DRAM,尤其是基于体硅(Bulk)工艺的1T单元,面临着几个关键挑战:数据保持时间(Retention Time)短,尤其是在高温下;读取信号窗口(Memory Window)小,对工艺波动敏感;以及读写路径耦合导致的访问灵活性差。我们今天要深入解析的这篇论文,提出了一种基于体硅浮体效应的2T双端口无电容DRAM技术,正是为了系统性地解决这些问题。它不仅仅是一个单元结构的改变,更在读取机制上做了根本性的创新,为高速、低功耗、低成本的嵌入式存储开辟了一条颇具吸引力的新路径。
2. 核心架构解析:2T双端口单元如何工作?
要理解这项技术的精妙之处,我们得先抛开传统1T1C的思维定式,从晶体管的基本物理和电路设计两个层面来看这个2T单元。
2.1 单元结构与物理基础
论文中提出的2T单元结构如图1(a)所示,其核心是一个共享的、被隔离的“浮空P阱”(Floating P-well)。这个P阱通过浅沟槽隔离(STI)和周围的PN结与衬底隔离开来,形成了一个电荷的“蓄水池”。在这个蓄水池上,建造了两个串联的NMOS晶体管:写晶体管(Tw)和读晶体管(Tr),它们共享这个浮空P阱作为共同的体区。
这种设计带来了几个根本优势:
- 工艺兼容性:整个结构基于主流的130nm体硅CMOS工艺,仅需增加两块掩膜版来形成浮空P阱和埋藏N层(Buried n-layer)。这比转向SOI(绝缘体上硅)或引入全新材料要经济得多,也更容易集成到现有的SoC设计流程中。
- 物理隔离:共享的浮空P阱被STI和PN结包围,相比早期体硅1T单元中电荷容易通过衬底泄漏的路径,这种隔离显著提升了电荷的保持能力,为更长的数据保持时间打下了基础。
- 功能分离:Tw和Tr各有专属的端口:Tw连接写位线(WBL)和写字线(WWL),负责数据的写入和刷新;Tr连接读位线(RBL)和读字线(RWL),专门负责数据的读取。这种物理上的端口分离,是实现“双端口”特性的基石。
2.2 双端口操作与电路优势
图1(b)的电路示意图清晰地展示了其双端口特性。在传统的1T1C或1T无电容DRAM中,读写共享同一条位线和字线,读写操作是互斥的——读的时候不能写,刷新的时候不能读。而在这个2T单元中,由于读写路径完全独立,带来了革命性的访问灵活性:
- 并发操作:当系统需要对某个单元进行刷新(或写入)时,Tw被激活。与此同时,系统可以完全独立地通过Tr去读取同一阵列中其他行或列单元的数据。读写操作在时间上可以重叠,互不干扰。
- 更高的数据可用性:这意味着存储阵列的“停机时间”大大减少。对于需要高实时性的应用,比如视频处理或通信基带,存储控制器可以在后台持续刷新数据的同时,保证前台的读取请求得到即时响应,有效提升了存储带宽和系统整体性能。
- 简化的控制逻辑:读写控制的解耦也简化了周边电路的设计。读写放大器、驱动电路都可以针对各自的操作进行独立优化,无需复杂的仲裁逻辑来处理读写冲突。
2.3 操作电压与状态定义
单元的操作电压设置是性能调优的关键。如表I所示,所有操作中,埋藏N层都偏置在0.6V,这有助于形成更好的隔离并优化寄生双极晶体管(BJT)的特性。写入(写‘1’)和擦除(写‘0’)操作主要通过Tw进行:
- 写‘1’(Program):通过碰撞电离(Impact Ionization)机制向浮空P阱注入空穴。当WWL和WBL施加合适的电压时,Tw沟道中的电子在高电场下获得足够能量,与晶格碰撞产生电子-空穴对。产生的空穴被扫入并存储在浮空P阱中,抬高了体电位(Vbody)。
- 写‘0’(Erase):通过正向偏置Tw的源/漏结,将浮空P阱中的空穴排出,从而降低体电位。
存储的数据状态通过体电位的高低来表征:高体电位(充满空穴)对应逻辑‘1’,低体电位(空穴稀少)对应逻辑‘0’。读晶体管Tr的使命,就是灵敏地检测出这种体电位的差异,并将其转换为可区分的读位线电流。
注意:操作电压(如WBL电压、读写字线电压)需要根据具体的工艺节点(栅氧厚度、电源电压)进行精细优化。论文中基于130nm工艺的电压值是一个参考,在更先进的节点上,这些电压有望进一步降低,从而减少功耗。
3. 技术核心突破:基于寄生BJT效应的新型读取机制
如果说双端口架构解决了访问灵活性的问题,那么论文提出的基于寄生双极结型晶体管(BJT)效应的新型读取方案,则是攻克高温下性能衰减这一行业难题的关键。这是本文最精彩、也最具洞察力的部分。
3.1 传统读取方式的局限
在早期的体硅无电容DRAM中,读取操作通常让读晶体管工作在线性区(Linear Region)。此时,晶体管的漏极电流(Id)受阈值电压(Vth)调制,而Vth又通过体效应(Body Effect)与体电位(Vbody)相关联。体电位高(状态‘1’)时,Vth降低,Id增大;体电位低(状态‘0’)时,Vth升高,Id减小。通过感知RBL上的电流差来判别数据。
这种方式的问题在于,体效应是一种“弱”的调制机制。Vth随Vbody的变化是平方根关系,灵敏度有限。尤其是在高温下,晶体管本身的漏电流(如亚阈值漏电、结漏电)会急剧增加,这些背景噪声会严重淹没由体效应产生的微小信号差异,导致读取窗口(Memory Window)迅速缩小,数据保持时间大幅缩短。从图4的实验结果可以清晰看到,在85°C下,传统读取模式的初始存储窗口仅为34.10 µA/µm,刷新周期时间也缩短到约0.48秒。
3.2 新型BJT读取原理与优势
论文的创新点在于,它让读晶体管Tr工作在饱和区(Saturation Region),并刻意利用通常被视为有害的“寄生BJT效应”来作为读取机制。
在一个NMOS晶体管中,源区(N+)、P型体区和漏区(N+)天然构成了一个NPN双极型晶体管。在常规MOS操作中,我们极力抑制这个寄生BJT开启,因为它可能导致闩锁(Latch-up)等可靠性问题。但在这里,研究人员反其道而行之,通过巧妙的偏置,让这个寄生BJT成为高灵敏度传感器。
工作原理:
- 当读取逻辑‘1’(高Vbody)时,读晶体管的源极(此时作为BJT的发射极)电压为0V,体区(基极)电位被空穴抬高。这使得寄生BJT的发射结(基极-发射极)处于接近正偏的状态(Vbe ≈ 0.64V,如图3仿真所示)。
- 一旦发射结正偏,大量的电子从发射极(源极)注入基区(体区),并在集电结(体区-漏极)反偏电场的作用下,被扫到集电极(漏极),形成巨大的BJT集电极电流(Ic)。这个电流与发射结电压Vbe呈指数关系:Ic ∝ exp(qVbe / kT)。
- 当读取逻辑‘0’(低Vbody)时,体电位很低,寄生BJT的发射结反偏或零偏,BJT效应极其微弱,读电流主要来自MOSFET本身的漏电流,数值很小。
指数关系的威力:正是这个指数关系带来了革命性的提升。体电位Vbody的微小变化,会引起Vbe的线性变化,进而导致BJT电流呈指数级变化。这使得读取信号对体电位的灵敏度比传统的体效应调制高出几个数量级。
3.3 性能提升的数据印证
图4的实验对比令人信服地展示了新方法的优势。在85°C的高温下:
- 存储窗口:新型BJT读取模式的初始窗口达到192.84 µA/µm,是传统模式(34.10 µA/µm)的5.66倍!巨大的电流差使得后续的读出放大器(Sense Amplifier)设计变得非常简单且鲁棒,几乎不需要复杂的偏移消除电路。
- 刷新周期:刷新周期时间从传统模式的0.48秒延长到了1.28秒。这意味着在相同时间内,需要执行刷新操作的次数减少了约62%,直接转化为可观的静态功耗节省。这对于电池供电的便携式设备至关重要。
- 抗工艺波动能力:图5展示了在16Kb阵列测试中,读‘1’和读‘0’电流的分布。两者都呈现良好的正态分布,且分离度很高。在±5 sigma(覆盖99.99994%的样本)的工艺波动下,仍然能保持高达112.75 µA/µm的信号感知裕度(Sensing Margin)。这说明该方案对晶体管尺寸、掺杂浓度等工艺波动具有很强的容忍性,有利于提高量产良率。
实操心得:在设计采用此类BJT读取方案的电路时,需要特别注意对寄生BJT电流增益(β)的优化。论文指出,体硅器件中寄生横向BJT的β值低于基于SOI的闩锁型器件,这反而是一个优点,因为它避免了不希望发生的闩锁过程,保证了读操作的稳定性和可控性。工艺上,可以采用相对较低的共享P阱掺杂浓度,这有助于维持足够的β值,同时减少带带隧穿引起的结漏电,并抑制随机掺杂波动带来的性能差异。
4. 设计考量与工艺集成要点
将这样一个创新的存储单元从概念变为可量产的嵌入式内存模块,需要在电路设计和工艺集成层面进行一系列细致的权衡与优化。
4.1 关键设计参数权衡
- 写入机制选择:论文采用了碰撞电离(Impact Ionization)而非栅致漏极漏电(GIDL)作为主要的空穴注入机制。这是因为在有限的漏极电压(如≤2V)下,碰撞电离能提供更快的写入速度。但碰撞电离会产生高能热载流子,可能引发器件可靠性问题。因此,设计中使用了较厚的栅氧来增强栅极可靠性并抑制热载流子退化。在更先进的工艺节点,需要重新评估这两种机制在速度、功耗和可靠性方面的平衡。
- 读写晶体管尺寸(W/L):Tw和Tr的宽长比需要协同优化。Tw的尺寸影响写入速度和注入效率,而Tr的尺寸直接影响读电流的绝对值和BJT效应的强度。过小的Tr可能使读电流太小,增加读出难度;过大的Tr则会增加单元面积。论文中测试的单元W/L=0.30/0.28 µm是一个在130nm节点下平衡了性能与面积的折中选择。
- 操作电压优化:表I中的电压(如WBL=2.0V, WWL=1.2V等)是针对特定工艺和氧化层厚度优化的结果。随着技术节点微缩,电源电压降低,这些操作电压也需要等比例缩放或重新优化,以确保足够的写入效率和读取裕度,同时不超出晶体管的安全工作区。
- 时序控制:图3(a)的瞬态仿真展示了严格的时序控制需求。在写入/擦除脉冲之后,需要插入一个短暂的保持时间(Hold Time, 约50-100ns),让电路中的寄生电容充电/放电稳定,然后再进行第一次读取,以避免瞬态干扰误判数据。在实际的存储控制器设计中,这个时序必须被精确遵守。
4.2 工艺集成挑战与解决方案
- 浮空P阱与隔离:这是工艺上最关键的附加步骤。需要增加掩膜版来定义浮空P阱的区域,并通过高能离子注入形成埋藏N层,与下方的P型衬底形成PN结隔离。STI的深度和质量至关重要,它必须确保浮空P阱在水平方向上的良好隔离,防止相邻单元之间的电荷串扰。
- 掺杂剖面控制:共享P阱的掺杂浓度需要精确控制。如之前所述,较低的浓度有利于BJT效应和减少波动,但浓度过低可能会削弱对沟道的控制能力,增加短沟道效应。这是一个需要工艺与器件仿真紧密协同的优化过程。
- 与逻辑工艺的兼容性:最大的优势在于其与标准CMOS逻辑工艺的高度兼容。增加的步骤较少,且不涉及新材料(如高K金属栅在论文发表的2014年已是前沿,但此处未使用),这使得该技术能够作为嵌入式模块,相对平滑地集成到主流的SoC制造流程中,成本可控。
5. 应用前景、挑战与实测问题排查
5.1 应用场景与价值
这项2T双端口无电容DRAM技术,其特性精准地瞄准了高端嵌入式存储市场的痛点:
- 高性能计算与图形:需要极高带宽和低延迟的缓存。双端口特性允许同时读写,非常适合作为最后一级缓存(LLC)或纹理缓存,能显著提升数据吞吐量。
- 网络处理器与通信基带:处理高速数据流,需要频繁访问存储表(如路由表、流表)。长刷新周期和高温稳定性降低了刷新功耗和系统热管理压力。
- 人工智能边缘推理:模型权重和中间激活值的存储需要高密度、低功耗的内存。该技术的单元面积小于SRAM,静态功耗优于传统eDRAM,是片上权重存储的潜在候选。
- 物联网终端设备:对成本极度敏感,且需要长续航。其与标准CMOS工艺的兼容性有助于降低成本,而低刷新功耗则延长了电池寿命。
5.2 潜在挑战与发展方向
尽管前景广阔,该技术走向大规模商用仍需克服一些挑战:
- 缩放性(Scalability):当工艺节点进入22nm以下,特别是FinFET时代,传统的体硅平面结构被三维鳍式结构取代。浮空体的概念如何迁移到FinFET?电荷的注入、存储和检测机制在三维结构中会发生何种变化?这是后续研究必须回答的问题。
- 多比特存储:目前的方案是单比特存储(1bit/cell)。能否利用体电位多级调制的可能性,实现多级单元(MLC)存储,从而进一步提升密度?这需要对电荷存储的精确控制和更灵敏的读出电路提出极高要求。
- 阵列架构与外围电路:双端口设计在提升灵活性的同时,也增加了位线、字线的数量,对阵列布局和布线提出了挑战。如何优化阵列架构,在面积开销和性能收益之间取得最佳平衡,需要从系统层面进行设计。
- 可靠性:长期、多次的碰撞电离写入操作可能引发热载流子注入(HCI)退化,影响晶体管寿命。需要建立完善的可靠性模型和测试方法,确保产品达到足够的耐久性(Endurance)要求。
5.3 常见问题与实测排查思路
基于论文中的实验设置和可能遇到的实际工程问题,可以梳理出以下排查指南:
| 问题现象 | 可能原因 | 排查思路与解决方向 |
|---|---|---|
| 读电流窗口小 | 1. 浮空P阱掺杂浓度过高。 2. 寄生BJT增益β过低。 3. 读晶体管偏置电压(RWL, RBL)未优化。 4. 写入操作不充分,体电位抬升不够。 | 1. 检查工艺仿真模型,调整P阱注入剂量。 2. 优化读晶体管源/漏结深和间距,改善BJT特性。 3. 扫描RWL电压,找到使BJT效应最显著的工作点。 4. 增加写入脉冲宽度或WBL电压(在可靠性允许范围内)。 |
| 数据保持时间短 | 1. STI或PN结隔离质量差,漏电大。 2. 共享P阱中存在缺陷或产生-复合中心。 3. 温度升高导致载流子热产生率增加。 | 1. 检查STI工艺步骤,确保填充致密无空隙。优化隔离注入。 2. 改善工艺清洁度,减少晶体缺陷。采用吸杂(Gettering)技术。 3.这是固有物理限制。重点应转向优化BJT读取方案,提升高温下的信噪比,而非单纯追求绝对保持时间。 |
| 读写干扰 | 1. 读写路径隔离不彻底,存在寄生耦合。 2. 时序控制不当,读写操作重叠产生冲突。 | 1. 在版图布局中,加大读写位线/字线的间距,增加屏蔽层。进行寄生提取和信号完整性仿真。 2. 仔细验证存储控制器的时序,确保满足图3(a)中的建立/保持时间要求。 |
| 工艺波动导致良率低 | 随机掺杂波动(RDF)、线边缘粗糙度(LER)等引起读电流分布过宽。 | 1. 如前所述,采用较低的P阱掺杂浓度以抑制RDF影响。 2. 在电路设计上,采用具有更高偏移容限的读出放大器架构。 3. 利用ECC(纠错码)技术来容忍一定程度的软错误。 |
我在实际跟进类似嵌入式存储项目时发现,从实验室的单器件特性到大规模阵列测试,性能往往会有折损。关键是要建立从器件物理模型到阵列级性能预测的完整仿真流程。在流片前,必须进行充分的蒙特卡洛仿真,评估工艺波动对读电流分布、刷新时间等关键指标的影响。阵列测试中,除了功能测试,应重点进行刷新失败率、访问时间在不同电压和温度角(Corner)下的测试,以确定实际可用的工作窗口。这项2T双端口技术最大的魅力在于,它通过电路和器件层面的协同创新,用一个相对简洁的改动,同时撬动了性能、功耗和成本多个杠杆,为嵌入式存储的设计提供了极具启发性的新思路。
