当前位置：首页 > news >正文

量子阱电荷陷阱突触晶体管：硅基神经形态计算的超低功耗硬件方案

news 2026/7/28 19:26:26

1. 项目概述与核心价值

在当前的AI计算浪潮中，我们正面临着一个日益严峻的“内存墙”问题。传统的冯·诺依曼架构将处理器和存储器物理分离，数据需要在两者之间频繁搬运，这个过程消耗的能量远超过实际计算本身，成为制约算力提升和能效比的关键瓶颈。想象一下，一个庞大的物流中心，货物（数据）从仓库（内存）运到加工厂（处理器）加工后，再运回仓库，大部分时间和燃料都花在了路上，这显然不是一种高效的运作方式。神经形态计算，或者说类脑计算，正是为了从根本上解决这个问题而提出的新范式。它试图模仿生物大脑中神经元和突触高度并行、存算一体的信息处理方式，其中，能够模拟生物突触权重可塑性（即连接强度可调）的电子器件——突触器件，是整个硬件系统的基石。

我最近深入研读了一篇关于“量子阱电荷陷阱突触晶体管”（Quantum-Well Charge-Trap Synaptic Transistor, QW CTS）的论文，这项工作由普渡大学和首尔国立大学的研究团队完成。坦率地说，这篇论文让我感到兴奋。它提出的不仅仅是一个新器件结构，更是一套极具工程落地潜力的解决方案。其核心亮点在于，它巧妙地将成熟的硅基工艺、量子阱物理和电荷陷阱技术结合起来，实现了一个兼具短期可塑性（STP）和长期可塑性（LTP）、且权重调节线性度极高、能耗极低的三端突触器件。每个突触事件的能耗低至约1.5飞焦耳（fJ），这是什么概念？这比目前许多基于新型材料的突触器件还要低1-2个数量级，并且完全兼容主流的硅基CMOS工艺线。这意味着它不再仅仅是实验室里的新奇玩具，而是具备了走向大规模集成和实际应用的坚实工艺基础。对于从事集成电路设计、新型存储器开发，或是关注边缘AI硬件加速的工程师和研究者来说，理解这个器件的设计思路、运作机理和性能边界，无疑能为我们打开一扇新的窗户，看到神经形态硬件落地的一条切实可行的技术路径。

2. 器件结构与物理机制深度解析

要理解QW CTS为何优秀，我们必须先拆解它的物理结构和工作原理。这不像有些基于忆阻器或相变材料的二端器件，仅通过两端电压改变电阻状态。QW CTS是一个标准的三端晶体管结构，但内部做了精心的“外科手术”，使其具备了神经突触的特性。

2.1 核心结构：一个器件，两种记忆

从结构上看，QW CTS可以看作一个特殊的p型场效应晶体管（FET），但它拥有两个独立的栅极（Gate 1和Gate 2）和一个特殊的沟道区域。

沟道与量子阱（QW）：在p型硅沟道中，嵌入了一段硅锗（SiGe）层，形成量子阱。这个SiGe层的锗组分（Ge fraction, x）是关键参数，论文中设为0.3（即Si0.7Ge0.3）。由于SiGe的禁带宽度比Si小，在价带顶会形成一个势阱（Valence Band Offset, VBO），可以有效地 confine（限制）空穴。
双栅结构与功能分离：这是设计的精妙之处。Gate 1覆盖在沟道上方，其下的栅介质是简单的3nm SiO2。Gate 2则覆盖在电荷陷阱单元上方，其介质层是一个经典的SONOS（SiO2/Si3N4/SiO2）堆叠，厚度分别为2/4/6 nm。这个Si3N4层就是用于长期存储信息的电荷陷阱层。两个栅极的独立控制，实现了“推理”和“权重更新”操作的物理分离：Gate 1和漏极（Drain）主要负责在推理时读取电流（即突触权重），而Gate 2则专司权重的长期调节（ potentiation/depression）。
源漏区域：标准的n+硅源极和漏极，源极在仿真中始终接地（0V）。

这种结构设计的目标非常明确：利用SiGe量子阱实现快速的、易失性的短期记忆（STM），模拟生物突触的短期增强；利用SONOS电荷陷阱层实现非易失性的长期记忆（LTM），模拟生物突触的长时程增强或抑制。

2.2 运作物理：从带间隧穿到福勒-诺德海姆注入

器件的核心操作物理围绕“空穴”的生成、限制、存储和释放展开。我们可以把整个过程想象成一个精密的“空穴水泵和水库”系统。

短期可塑性（STP）的触发：当施加一个“增强脉冲”（Potentiation Pulse）时，具体的电压设置为(VGS1, VGS2, VDS) = (-0.2 V, -0.7 V, 0.55 V)。在Gate 1和Drain之间形成的强电场下，SiGe量子阱价带中的电子会发生带间隧穿（Band-to-Band Tunneling, BTBT），隧穿到Drain的导带。电子被扫走后，就在SiGe量子阱中留下了带正电的空穴。这些空穴被量子阱的势垒（VBO）限制住，无法轻易逃逸。空穴的积累会抬升沟道局部的电势，从而降低晶体管的阈值电压（Vth），使得在相同的Gate 1电压下，沟道电流（ID）增大——这就表现为突触权重的短期增强。
注意：这个BTBT过程被精心设计在Gate 1侧的沟道区域发生，通过调节两个栅的功函数，避免了在Gate 2下方发生不必要的“软增强”，确保了权重更新的可控性。
从短期到长期的跃迁（STP -> LTP）：如果增强脉冲持续、频繁地施加，量子阱中积累的空穴浓度会越来越高。空穴在势阱中会占据更高的能态。当空穴的准费米能级被抬升到足够高时，即使在Gate 2施加相对较低的负压（-0.7V），这些高能空穴也有足够的概率通过福勒-诺德海姆（Fowler-Nordheim, F-N）隧穿机制，穿过薄的隧穿氧化层（2nm SiO2），注入到Si3N4电荷陷阱层中被捕获。一旦空穴被捕获，它们对沟道电势的影响就变成了非易失性的——即使移除电源，这种影响依然存在。这就实现了从短期记忆到长期记忆的转变。
长期抑制（LTD）与权重擦除：要降低权重（实现抑制），就需要把陷阱层中的空穴“请”出来。这时需要在Gate 2上施加一个较高的正电压（例如5.5V）。在强正电场作用下，被陷阱捕获的空穴通过F-N隧穿机制被拉回沟道并复合掉，从而抬升阈值电压，降低沟道电流，完成权重的长期抑制。
推理操作：在权重更新完成后，进行推理（即读取权重值）时，只需要在Gate 1和Drain上施加一个很小的、非破坏性的读取电压（例如VGS1 = VDS = -0.1V），测量产生的漏极电流ID即可。这个电流值直接对应了器件的电导，也就是突触的权重。

这套物理机制的优势在于，权重的更新（增强/抑制）和读取是解耦的。更新依赖于Gate 2和特殊的脉冲序列，而读取则像操作一个普通的晶体管，这大大简化了外围电路的设计，并提高了操作的可靠性。

3. TCAD仿真验证与关键性能指标

论文作者使用了业界标准的工艺计算机辅助设计（TCAD）工具（如Silvaco Atlas）对上述物理过程进行了严格的仿真验证。TCAD仿真不仅仅是画个结构图跑个电流，它需要建立精确的物理模型来模拟真实的器件行为。

3.1 仿真模型与参数设置

为了确保仿真结果的可信度，作者激活了一系列复杂的物理模型：

泊松方程与载流子连续性方程：求解器件内的电势和载流子分布。
费米-狄拉克统计：在纳米尺度下，载流子分布必须用量子统计来描述，经典的玻尔兹曼统计不再准确。
Lombardi迁移率模型：考虑表面散射、声子散射等对载流子迁移率的影响。
非局域带间隧穿模型：精确模拟BTBT过程，这是产生初始空穴的关键。
Shockley-Read-Hall复合模型：模拟载流子通过缺陷中心的复合。
电荷陷阱宏观模型：专门针对SONOS结构，集成了F-N隧穿、热载流子注入、Poole-Frenkel发射等电荷捕获和释放机制。

材料参数方面，Si和Si0.7Ge0.3的禁带宽度、电子亲和能、态密度等关键参数均来自实验数据。电荷陷阱氮化硅层的陷阱密度、能级、捕获寿命等参数也基于文献值进行设置（见论文中的Table 1和Table 2）。这种基于物理的仿真，使得结果具有很高的预测价值。

3.2 突触行为的仿真结果

仿真清晰地再现了生物突触的核心特性：

短期可塑性（STP）：如图3(a)所示，当施加单个增强脉冲时，漏极电流ID会出现一个瞬态的尖峰，然后随着量子阱中空穴的扩散和复合而衰减回基线。这模拟了生物突触对单个刺激的短期响应。
长时程增强（LTP）：当连续施加多个增强脉冲（脉冲间隔时间短于空穴的留存时间，约几百微秒），空穴在量子阱中不断累积。在仿真中，大约在第4个脉冲后，ID发生了一个阶跃式的、永久的增加（图3(a)），并且对应地，电荷陷阱层中的电荷量Qnit也出现了永久性增加（图3(c)）。这表明器件状态从STP切换到了LTP。
长时程抑制（LTD）：对已经处于LTP状态的器件施加抑制脉冲（VGS2=5.5V），可以观察到ID的永久性下降（图3(b)）和Qnit的减少（图3(d)），实现了权重的可逆下调。
转移特性曲线：图5展示了器件在经历不同次数增强/抑制脉冲后的转移特性曲线（ID-VGS1）。随着增强脉冲次数增加，曲线整体向左平移（阈值电压Vth降低），电导增大；反之，抑制脉冲使曲线右移（Vth升高），电导减小。这直观地展示了权重（电导）的多态可调性。

3.3 线性与对称的权重更新

这是QW CTS最引人注目的性能之一。在神经网络训练中，权重的更新如果非线性、不对称，会严重恶化训练收敛性和最终精度。论文图8展示了器件电导随学习脉冲数量变化的曲线。

高度线性：无论是增强还是抑制过程，电导的变化与脉冲数量之间都呈现出极好的线性关系。通过优化Gate 2的电压（VGS2 = -0.5V），作者获得了近乎完美的线性拟合。增强过程可拟合为 G = 1.47×10⁻⁷ + (5.61×10⁻⁸)·N（西门子）。
对称性：抑制过程的线性斜率与增强过程基本对称，这意味着“学习”和“遗忘”的难度是对等的，这对于实现稳定的权重更新算法至关重要。

这种优异的线性度源于其独特的物理机制：每个脉冲导致大致固定数量的空穴被注入/排出陷阱层，从而引起近似线性的阈值电压漂移和电导变化。这与一些基于细丝形成/断裂的忆阻器器件相比，具有先天优势。

3.4 超低能耗评估

能耗是神经形态硬件的生命线。作者对每个突触事件的能耗进行了详细计算：

增强事件能耗：~0.52 fJ
抑制事件能耗：~1.5 fJ
单次推理（读取）最高能耗：对于权重最高的单元（经22次增强后），也仅需约0.766 aJ (7.66×10⁻¹⁶ J)。

图9的对比图显示，QW CTS的能耗在已报道的三端突触器件中处于最低的梯队。其低能耗主要得益于：1）低的操作电压（<0.75 V）；2）基于隧穿和注入的物理过程本身功耗较低；3）读取与更新分离，推理时仅需微小电流。

4. 材料参数影响与工艺考量

任何器件设计从仿真走向流片，都必须考虑工艺波动和材料参数的影响。论文花了大量篇幅分析关键参数对器件性能的鲁棒性影响，这部分对于实际工程开发极具指导意义。

4.1 关键参数敏感性分析

通过TCAD仿真，作者系统性地改变了几个关键参数，观察其对学习行为的影响：

参数	影响趋势	工程意义与考量
陷阱密度 (Trap Density)	密度越高，可实现的电导变化窗口越大，器件对脉冲更敏感；密度过低则权重调节范围窄，灵敏度差。	在工艺中需要精确控制氮化硅层的沉积条件，以获得适中且均匀的陷阱密度。过高的密度可能导致电荷泄露和保持特性变差。
捕获寿命 (Capture Lifetime)	寿命缩短（如在高温下），会导致被捕获电荷更容易逃逸，影响长期保持特性。	器件的工作温度范围需要被限定，或者选择具有更深能级陷阱的材料来保证足够的保持时间（>10年）。
陷阱能级 (Trap Energy Level)	较深的陷阱能级（远离导带/价带）能提供更稳定的电荷保持，电导衰减尾巴更小。	优化氮化硅的化学计量比或引入其他元素（如Al），可以调控陷阱能级深度。
SiGe QW掺杂浓度	浓度过低（1e17 cm⁻³），BTBT效率低，需要更多脉冲才能触发LTP；浓度过高（1e19 cm⁻³），势垒增高，需要更高操作电压，不利于低功耗。	需要折中，论文中选择1e18 cm⁻³作为一个平衡点，在适中的电压下实现可靠的STP-LTP转换。
锗组分 (Ge fraction, x)	x值越高，SiGe与Si的价带偏移越大，量子阱对空穴的限制能力越强，BTBT效率也越高，LTP转换更快（x=0.4时仅需4个脉冲）。但x过高会引入更多界面缺陷和应力。	这是一个典型的性能与工艺难度/可靠性的权衡。论文中选择x=0.3，在90nm及以上CMOS技术中已较为成熟，能在性能和可靠性间取得良好平衡。

4.2 工艺集成挑战与机遇

QW CTS最大的优势之一是其全硅工艺兼容性。SiGe工艺自90nm节点引入，现已非常成熟。SONOS结构更是广泛应用于传统的电荷陷阱闪存中。这意味着QW CTS可以利用现有的CMOS产线进行制造，无需开发全新的材料和工艺，大幅降低了产业化门槛。

然而，挑战依然存在：

界面与缺陷控制：Si/SiGe异质结界面的质量至关重要。界面态和晶体缺陷会成为额外的电荷陷阱或复合中心，影响空穴在量子阱中的留存时间，进而干扰STP行为，甚至导致异常的电荷泄露。需要精确的外延生长技术（如UHV-CVD）来获得高质量的界面。
Ge组分梯度与掺杂剖面控制：为了实现理想的量子阱和BTBT特性，需要精确控制SiGe层中的Ge组分分布和掺杂浓度剖面。这对外延工艺的均匀性和重复性提出了高要求。
双栅结构的对准：Gate 1和Gate 2需要精确对准，特别是Gate 2要完美覆盖电荷陷阱区域，任何错位都可能影响器件性能和均匀性。

实操心得：在考虑将此类器件集成到大规模阵列时，均匀性（Variation）是必须面对的恶魔。工艺波动会导致不同器件的阈值电压、BTBT效率、陷阱密度存在差异。在电路设计层面，可能需要引入纠错机制、冗余设计或自适应脉冲调整算法来补偿这种不均匀性，确保神经网络整体功能的鲁棒性。

5. 在神经形态系统中的应用前景与设计思考

QW CTS不仅仅是一个独立的器件，它需要被集成到更大的系统中才能发挥价值。从系统层面看，它的特性带来了一些独特的优势和设计考量。

5.1 阵列架构与外围电路

由于QW CTS是三端器件，其阵列架构会类似于传统的SRAM或Flash存储器阵列，但读写操作更为复杂。

1T1C vs. 交叉阵列：传��的二端忆阻器可以组成简单的交叉阵列，结构紧凑。三端的QW CTS则需要更多的布线，但优势是读写干扰小，选择性好。一种可能的架构是使用“1晶体管-1突触”（1T1S）单元，每个QW CTS由一个选择晶体管控制，这虽然牺牲了一些密度��但提高了可靠性和可控性。
外围电路需求：需要精密的脉冲产生电路来生成增强/抑制所需的特定电压波形（幅度、宽度、间隔）。读取电路则需要高灵敏度的感放电路来测量微小的电流变化。由于权重更新是线性的，数字-模拟转换器（DAC）和模拟-数字转换器（ADC）的设计可以相对简化。

5.2 模拟存算一体（Analog In-Memory Computing）

QW CTS的高线性电导调变特性，使其非常适合用于模拟存算一体架构。在这种架构中，突触权重（电导值）以模拟量存储，输入电压信号通过字线施加，产生的电流在比特线上求和（遵循欧姆定律和基尔霍夫电流定律），直接完成乘加运算。这种模拟计算方式可以极低的能耗实现大规模的向量-矩阵乘法，正是神经网络的核心操作。QW CTS的线性特性确保了乘加运算的精度，而其非易失性则保证了权重在断电后不丢失。

5.3 脉冲时序依赖可塑性（STDP）的实现

生物大脑的学习规则之一STDP，即突触前后神经元脉冲的时序差决定权重增强或抑制。利用QW CTS的STP和LTP特性，可以自然地实现STDP学习规则。具体来说：

如果突触前脉冲稍早于突触后脉冲到达，两者在时间上重叠的部分会形成一个有效的“增强”电压条件，促使空穴积累并向LTP转变。
如果时序相反，则可能形成“抑制”条件，或者至少无法有效增强。通过设计脉冲的形状和时序，可以在硬件层面实现复杂的STDP学习，为构建更接近生物的自适应神经网络硬件提供了可能。

5.4 与现有技术的对比与定位

让我们将QW CTS放在更广阔的突触器件谱系中进行定位：

器件类型	代表技术	优势	挑战	QW CTS的定位
二端器件	忆阻器(RRAM)、相变存储器(PCM)、自旋器件	结构简单，密度高，易于组成交叉阵列	非线性/不对称更新，循环耐久性有限，电导漂移，工艺非标	优势互补：QW CTS提供高线性、对称更新和卓越的耐久性（>10^6次，继承自SONOS Flash），但密度可能稍低。适合对精度和可靠性要求高的应用。
三端器件	浮体晶体管、电化学晶体管、光突触	功能丰富，常具备多模态（光、电）响应	能耗较高，线性度一般，工艺集成难度大	性能领先：在能耗和线性度这两个关键指标上，QW CTS显示出明显优势，且硅工艺兼容性最好。
纯数字方案	用SRAM/Flash存储数字权重，数字电路计算	成熟、可靠、精度高	能效比低，“内存墙”问题严重	范式颠覆：QW CTS代表的是存算一体的模拟计算范式，旨在从根本上突破能效瓶颈，适用于对功耗极端敏感的边缘AI场景。

5.5 潜在应用场景

超低功耗边缘AI加速器：物联网传感器、可穿戴设备、移动设备上的实时语音识别、图像分类、异常检测等任务，对功耗有严苛要求。QW CTS阵列可以作为专用神经网络加速核心，在本地完成推理甚至简单学习，无需将数据上传至云端。
类脑感知与决策系统：利用其STP和STDP特性，可以构建能够处理时空信息的脉冲神经网络（SNN），用于动态视觉传感、实时路径规划、自适应控制等更接近生物智能的任务。
高能效数据中心推理卡：虽然训练可能仍需高精度数字系统，但对于已训练好的模型，使用基于QW CTS的模拟存算一体芯片进行推理，可以大幅降低数据中心的能耗。

6. 总结与展望

回顾这项关于量子阱电荷陷阱突触晶体管的工作，它给我的最大启发在于其巧妙的工程思维。它没有追逐最前沿的二维材料或复杂的氧化物，而是回过头，将成熟的硅基工艺、经典的量子阱和电荷陷阱物理进行了一次创造性的“排列组合”，解决了一个前沿的类脑计算器件难题。这种基于现有技术生态进行创新的思路，往往比从零开始更具落地潜力。

从器件性能上看，~1.5 fJ的超低单事件能耗和高度线性、对称的权重更新，使其在众多突触器件提案中脱颖而出。而全硅工艺兼容性则是其从实验室走向产业化的“通行证”。当然，挑战依然清晰：工艺波动下的器件均匀性控制、大规模阵列的集成方案、以及与之匹配的高能效外围电路与算法协同设计，都是未来需要深入研究的课题。

我个人认为，神经形态计算的硬件实现路径必然是多元化的。QW CTS为代表的三端硅基突触器件，很可能在需要高精度、高可靠性和超低功耗的特定应用场景中（如医疗植入设备、长期部署的环境监测节点）率先找到用武之地。它提醒我们，在探索计算新范式的道路上，有时最优雅的解决方案，就隐藏在我们已经熟练掌握的技术工具箱里，等待着一个全新的视角去重新发现和组合。下一步，我期待看到基于此器件的较小规模（例如128x128）阵列演示芯片问世，以及在其上运行真实神经网络算法的完整系统级能效评估，那将是检验其真正价值的下一块试金石。

查看全文

http://www.jsqmd.com/news/905449/