当前位置：首页 > news >正文

基于嵌入式MTJ的p-bit硬件实现：用成熟技术开启概率计算新范式

news 2026/8/2 17:26:26

1. 项目概述与核心价值

在传统的计算架构里，确定性是基石。一个与门（AND）输入“1”和“0”，输出永远是“0”，这是布尔逻辑的铁律。然而，当我们试图让机器去解决优化、推理乃至逆向求解这类问题时，这种绝对的确定性有时反而成了枷锁。想象一下，你有一个复杂的密码锁，只知道最终结果是“开启”，但不知道是哪几个齿轮的正确组合，传统的计算方式需要遍历所有可能性，而一种能够“逆向思考”、从结果反推可能输入的硬件，将极大地提升效率。这正是概率计算和可逆逻辑试图攻克的堡垒。其核心在于引入可控的随机性，而实现这一点的关键硬件单元，就是p-bit。

p-bit，或称概率比特，可以看作是一个“可调谐的硬币”。它不像经典比特那样非0即1，而是在某一时刻以一定的概率输出0或1，而这个概率可以通过一个输入电压来连续、精确地控制。当输入电压为很大的负值时，它几乎确定地输出0；当输入电压为很大的正值时，它几乎确定地输出1；而在零电压附近，它就像一个公平的硬币，以50%的概率随机输出0或1。这种特性使得由大量p-bit互连构成的网络，其整体状态能够以一种受控的、概率性的方式演化，最终稳定到代表问题解决方案的状态上。这为硬件直接求解组合优化、贝叶斯推理乃至实现可逆逻辑运算（如因子分解）开辟了新路径。

然而，构建一个实用的p-bit并非易事。早期构想需要一种全新的三端可调随机数发生器（RNG）器件。2017年，Kerem Camsari等人在IEEE EDL上发表的这篇论文，提出了一种极具工程智慧的方案：利用现有成熟的嵌入式磁隧道结（MTJ）技术，通过巧妙的电路设计，实现了一个功能完备的p-bit。这个方案的精妙之处在于，它没有去发明一种新物理器件，而是将已经用于嵌入式MRAM（磁性随机存储器）的、具有随机开关特性的低势垒MTJ，与一个标准NMOS晶体管组合起来，通过电路层面的“翻译”，让MTJ的随机电阻波动，表现为一个受输入电压控制的概率性电压输出。

简单来说，这篇工作的核心贡献是：用“老”技术（嵌入式MTJ+晶体管）实现了“新”功能（p-bit）。它证明了无需等待革命性的器件突破，利用现有半导体工艺的“边角料”，就能为CMOS世界注入概率计算的灵魂。这对于硬件加速机器学习、解决NP难问题以及探索新型计算范式，具有重要的现实意义和启发性。

2. p-bit原理与嵌入式MTJ方案深度解析

2.1 从理想模型到物理现实：p-bit的数学与物理本质

要理解这个方案，首先要搞清楚p-bit的理想行为是什么。论文中给出了其核心的数学模型，这是一个类Sigmoid（双曲正切）函数：

mi(t) = sgn( rand(-1, 1) + tanh[Vi(t)/V0] )

这里的mi(t)是第i个p-bit在时刻t的输出，取值为+1或-1（对应逻辑1和0）。Vi(t)是输入电压。V0是一个缩放常数，决定了输入电压对输出概率影响的敏感度。rand(-1, 1)代表一个在-1到+1之间均匀分布的随机数。

这个公式非常直观地描述了p-bit的行为：

当Vi(t)远大于V0（正很大）时，tanh[Vi(t)/V0]接近+1。此时即使加上一个在[-1,1]的随机数，结果也几乎总是正数，sgn()函数输出+1的概率极高。
当Vi(t)远小于V0（负很大）时，tanh[Vi(t)/V0]接近-1，结果几乎总是负数，输出-1的概率极高。
当Vi(t)= 0 时，tanh[0]=0，输出完全由rand(-1,1)决定，因此输出+1和-1的概率各为50%。

关键点在于：这个模型描述的是一个“理想”的p-bit。在硬件实现中，我们不需要（也很难）直接造出一个物理实体，其输出严格服从这个数学公式。我们需要的是一个物理系统，其宏观统计行为与这个公式匹配。这就是电路设计的用武之地。

2.2 嵌入式MTJ：一个现成的随机电阻

论文选择的物理随机源是低势垒磁隧道结（Low-Barrier MTJ）。MTJ是自旋电子学中的核心器件，由两层铁磁层夹着一层薄绝缘层（隧道势垒）构成。其中一层磁化方向固定（参考层），另一层（自由层）的磁化方向可以改变。当两层磁化方向平行时，电阻低（Rp）；反平行时，电阻高（Rap）。隧道磁阻比（TMR）定义为(Rp - Rap)/Rap。

传统MRAM中使用的MTJ，其自由层具有较高的磁各向异性能垒，以确保数据在无外界干扰下的长期稳定性（非易失性）。而这里使用的“低势垒”MTJ，其能垒很低，以至于在室温热扰动下，自由层的磁化方向就会发生随机的、快速的翻转，导致MTJ的电阻在Rp和Rap之间随机 telegraphic（电报）跳变，或者对于圆形纳米磁体，其磁化矢量在平面内连续随机旋转。这种器件已经被成功用作真随机数发生器（TRNG）。

因此，一个低势垒MTJ本身就是一个高质量的随机电阻发生器。它的瞬时电导Gi(t)可以表示为：Gi(t) = G0 * [1 + mzi(t) * TMR/(2+TMR)]其中G0是平均电导，mzi(t)是归一化的瞬时磁化分量（在-1到+1之间随机波动）。

2.3 电路魔术：将随机电阻变为可控概率电压

现在，我们有一个随机波动的电阻（MTJ），目标是得到一个输出概率受输入电压控制的电压信号。论文的方案极其简洁：将这个MTJ作为晶体管的负载。

具体电路如图1(a)所示：一个低势垒MTJ连接在一个NMOS晶体管的漏极（Drain）和电源VDD之间。晶体管的源极（Source）接地，栅极（Gate）接收输入电压VIN。我们关注的是漏极电压VDRAIN。

这个电路的工作原理，可以通过一个简化的定性分析来理解：

当VIN为负（晶体管关闭）：晶体管通道电阻极大（α = GT/G0 → 0）。此时，无论MTJ的电阻如何随机波动，VDRAIN都被上拉至接近VDD（论文中设定为VDD/2，因采用对称电源）。
当VIN为零（晶体管处于线性区边缘）：晶体管电导GT被设计为约等于MTJ的平均电导G0（α ≈ 1）。此时，VDRAIN由MTJ和晶体管的分压决定。由于MTJ电阻的随机波动，VDRAIN也会随之大幅波动，其平均值在VDD/2附近。
当VIN为正（晶体管充分开启）：晶体管通道电阻极小（α → ∞）。此时，VDRAIN被强力下拉至接近地电位（-VDD/2），MTJ的电阻波动几乎被短路，无法影响输出电压。

注意：这里的VDD/2和-VDD/2是论文中为了简化后续反相器设计而采用的对称电源方案。核心思想是，VDRAIN的直流偏置点会随VIN在正负电源轨之间移动，而其波动幅度在VIN接近0时最大。

通过一个反相器（或比较器）对VDRAIN进行整形，当VDRAIN高于反相器阈值时输出高电平（逻辑1），低于时输出低电平（逻辑0）。这样，我们就得到了一个二值化的输出VOUT。

整个过程的精妙之处在于：VIN控制了晶体管这个“可变电阻”，从而控制了MTJ随机波动被“看到”的程度。当晶体管关闭或完全开启时，MTJ的噪声被抑制，输出被“钉扎”在确定状态；当晶体管工作在线性区时，MTJ的噪声被放大并传递到输出，表现为随机翻转。通过精心设计晶体管的跨导和MTJ的参数，可以使VOUT为1的平均概率P(1)与VIN的关系，非常接近理想的双曲正切函数tanh(VIN/V0)。电路完成了从“随机电阻”到“可控概率比特”的翻译工作。

3. 核心电路设计与SPICE仿真验证

3.1 器件选型与参数匹配

要实现上述功能，器件参数的选择至关重要。论文中基于14nm HP-FinFET的预测模型（PTM）进行仿真，关键参数选择如下表所示：

组件	参数	取值/型号	选择理由与考量
晶体管	工艺节点	14nm HP-FinFET	选择先进工艺节点以获得更陡峭的亚阈值斜率和更快的开关速度，这对精确控制`α`参数和实现高速p-bit操作至关重要。
MTJ	自由层类型	圆形面内纳米磁体	无易磁化轴，磁化矢量在面内连续随机旋转，产生平稳的电阻波动，而非 telegraphic 噪声，更接近理想的随机源。
直径	~22 nm	确保磁体处于单畴状态，同时具有足够低的热稳定因子（Δ ≈ 1），以保证在室温下足够的翻转速率（MHz-GHz量级）。
饱和磁化强度 (Ms)	~1100 emu/cc	典型的CoFeB材料参数。Ms和体积共同决定了热噪声的强度，影响翻转速率。
隧道磁阻比 (TMR)	110%	采用当时已实验验证的值。TMR越大，电阻波动幅度 (`ΔR`) 越大，转换到漏极的电压波动就越大，有利于驱动后级电路。
平均电阻 (R0=1/G0)	数十 kΩ量级	与晶体管在`VIN≈0`时的导通电阻匹配（`α≈1`），这是实现`VIN=0`时输出概率为50%的关键。电阻过高会导致功耗和延迟增加，过低则晶体管难以匹配。
电源	VDD	±0.4V (对称)	采用对称电源 (±0.4V) 是为了使后续反相器的逻辑阈值正好在0V，简化设计，便于将`VDRAIN`的波动直接转换为轨到轨的`VOUT`。

实操心得：参数匹配是核心在实际设计或仿真中，最关键的步骤是晶体管的G0与MTJ的G0匹配。这需要在特定的偏置点（通常是VDS = VDD/2, VGS=0）下，通过调整晶体管尺寸（Width）来实现。一个不匹配的设计会导致VIN=0时，P(1)严重偏离50%，破坏整个p-bit的对称性。仿真时，应首先进行DC扫描，找到使α=1的晶体管工作点。

3.2 SPICE仿真流程与结果分析

论文使用了一个将随机磁动力学与晶体管方程自洽耦合的SPICE模型进行仿真。对于我们复现工作，可以采取一个简化的流程：

建立MTJ行为模型：由于低势垒MTJ的翻转速率极高（>100MHz），在电路仿真中完全模拟每一个磁翻转是不现实的。可以采用一个等效的随机电压源或随机电阻模型来表征其波动。例如，可以生成一个带宽受限的随机噪声信号，其幅度与TMR/(2+TMR)*VDD成正比，并将其叠加到VDRAIN的DC偏置上。更精确的方法是使用Verilog-A等硬件描述语言，实现公式(3)描述的随机电导行为。
搭建电路：在Cadence Virtuoso或LTspice等工具中，搭建图1(a)的电路。使用PTM或类似模型定义14nm FinFET。MTJ用上述行为模型替代。
瞬态仿真：固定VIN为一个值，进行足够长时间的瞬态仿真（例如1μs），观察VDRAIN和VOUT的波形。
统计特性提取：对VOUT波形进行采样，统计高电平（逻辑1）所占的时间比例，即为该VIN下的输出概率P(1)。
扫描输入：改变VIN（例如从-0.4V扫到+0.4V），重复步骤3和4，得到P(1)随VIN变化的曲线。

论文中的仿真结果（图2）完美验证了设计：

图2(a)：展示了在某个VIN下，VDRAIN的瞬态波动。虚线表示时间平均值，可以看到平均值随VIN变化。
图2(b)：VOUT的平均值（或P(1)映射到电压）随VIN变化的曲线。散点是仿真结果，虚线是tanh(VIN/V0)拟合曲线，两者高度吻合，V0约为50mV。这证明了电路实现了理想的p-bit特性。
图2(c)：展示了在不同VIN偏置下，VOUT的瞬态波形。当VIN为负时，输出稳定在低电平（-0.4V）；当VIN为正时，输出稳定在高电平（+0.4V）；当VIN接近0时，输出在高、低电平间快速随机切换。

注意事项：噪声幅度与热噪声论文指出，使用TMR=110%的MTJ，在漏极产生的电压波动可达200mV。这远大于室温下反相器输入电容（~100aF）上的热噪声（约5mV）。这意味着驱动后续数字电路的信号是强而干净的随机信号，而不是被热噪声淹没的微弱信号。这是该方案可行性的物理基础。如果MTJ的ΔR/R太小，产生的波动可能无法可靠地触发后级电路。

4. 构建p-bit网络：实现可逆AND门

单个p-bit只是一个可控的随机数发生器。其威力在于互连成网络。论文通过实现一个可逆AND门，生动地展示了这一点。

4.1 网络互连原理：基于玻尔兹曼机

p-bit网络的互连遵循玻尔兹曼机或伊辛模型（Ising Model）的架构。每个p-bit的输入Vi由两部分组成：一个外部偏置hi，以及其他所有p-bit输出的加权和。

Vi / V0 = hi + Σ_j (Jij * mj)

这里，mj是其他p-bit的输出（+1或-1）。Jij是连接权重（对称矩阵，Jij = Jji），hi是偏置。这个公式就是公式(2)的再现。网络的功能（如实现一个逻辑门）完全由权重矩阵[J]和偏置向量{h}决定。

对于AND门，我们需要3个p-bit：A, B（输入）和 C（输出）。其布尔逻辑关系为：C = A AND B。我们可以为这个三人系统定义一个“能量函数”：E = -J * (A*B + A*C + B*C) - h * (A + B + C)通过选择合适的J和h（论文中引用自文献[27]），可以使这个能量函数在满足C = A AND B的状态（即[A,B,C]为[-1,-1,-1],[-1,+1,-1],[+1,-1,-1],[+1,+1,+1]）时达到局部最小值。当网络中的p-bit根据其输入（由其他p-bit的当前状态决定）异步、随机地更新时，整个网络的状态将以一定的概率在这些低能量状态（即合法状态）之间跳转。

4.2 硬件实现：电阻交叉阵列

在硬件上，如何实现这个加权求和Σ_j (Jij * mj)？论文采用了经典的电阻交叉阵列架构，如图3所示。

每个p-bit的输出VOUT（经过缓冲）连接到一条行线。每条列线通过一个电阻R_ij连接到对应p-bit的输入求和节点。根据欧姆定律和基尔霍夫电流定律，流入第i个p-bit输入节点的电流，正比于Σ_j (VOUT_j / R_ij)。通过一个跨阻放大器（图3中的理想运放配置），将这个电流和偏置电流hi转换回电压Vi，反馈给该p-bit的输入。

权重Jij的实现：权重值被编码在电阻R_ij的阻值中。Jij越大，对应的R_ij应该越小（电导越大），这样第j个p-bit的输出对第i个p-bit的输入影响就越大。通过精心设计电阻网络，可以物理地实现所需的[J]矩阵和{h}向量。

4.3 可逆操作演示

前向模式（常规逻辑）：将输入p-bit A和B的偏置hA,hB设置为很大的正值或负值，从而将它们“钳位”到特定的逻辑值（如A=1, B=0）。然后让网络自由演化。你会发现，输出p-bit C会以极高的概率稳定到正确的结果（C=0）。

逆向模式（可逆逻辑/因子分解）：这才是展示概率计算威力的地方。将输出p-bit C的偏置hC钳位到特定值（比如对应逻辑0），而放开A和B的钳位。让网络自由演化。你会观察到，A和B的状态不会固定，而是在所有能使C=0的输入组合{00, 01, 10}之间随机切换。如图4的仿真所示，统计一段时间内[A, B, C]的状态，会发现[-1,-1,-1],[-1,+1,-1],[+1,-1,-1]这三个状态的出现概率大致相等，而[+1,+1,+1]状态几乎不出现（因为C被钳位在-1）。

这相当于硬件在“求解”AND门的逆问题：给定输出是0，有哪些可能的输入？对于AND门，答案是三个。对于更复杂的电路（比如乘法器），逆问题就是因子分解，这是一个经典的计算难题。p-bit网络通过其固有的概率搜索特性，为这类问题的硬件加速提供了一种潜在途径。

实操心得：网络动力学与参数容差在实际仿真或硬件实现中，p-bit网络的收敛速度和稳定性对参数非常敏感。各p-bit的V0、反相器阈值、电阻值的不匹配都会影响网络行为。仿真时，需要引入一定的随机失配（如MTJ的TMR、尺寸Ms的微小差异，如图4所示），以评估方案的鲁棒性。通常，网络需要运行足够多的更新周期（每个p-bit被随机选择更新数千至数百万次），才能获得稳定的状态分布。

5. 方案优势、挑战与扩展思考

5.1 与传统方案及三端方案的对比

特性	本文嵌入式MTJ方案	理想三端p-bit器件	纯数字电路模拟
器件需求	利用现有成熟技术（嵌入式MTJ+CMOS），无需新材料或新工艺。	需要发明全新的三端可调RNG器件，制造工艺不成熟。	仅需标准数字逻辑单元。
随机源	物理随机（MTJ热涨落），真随机，不可预测。	物理随机，真随机。	伪随机数生成器（PRNG），算法决定，可预测。
可调性	通过外围电路（晶体管）实现概率调控，调控范围宽，线性度好。	通过器件内部物理效应（如自旋转移矩）直接调控，理论上更直接。	通过改变比较阈值实现，但随机性质量依赖PRNG。
面积与能效	1T1MTJ结构，面积较小。静态功耗主要来自偏置的晶体管和反相器。	取决于具体器件，可能更紧凑。	需要大量逻辑门和寄存器，面积和功耗通常较高。
速度	受限于MTJ翻转速率（MHz-GHz）和电路RC延迟。	可能更快，取决于物理机制。	受限于时钟频率和数字逻辑延迟。
功能实现	适合模拟玻尔兹曼机等概率模型，天然并行。	同左，更原生。	需要通过算法在时序逻辑中模拟，本质上是串行的。

核心优势：本方案最大的吸引力在于其技术可行性。它巧妙地将一个存储领域（MRAM）的“副产品”——低势垒MTJ的随机特性，通过成熟的CMOS电路设计，转化为了计算领域（概率计算）所需的核心功能单元。这是一种典型的“跨界创新”和“变废为宝”。

5.2 潜在挑战与工程考量

MTJ工艺集成：虽然嵌入式MTJ是成熟技术，但通常用于高稳定性存储。制造低势垒、高均匀性、高TMR的MTJ阵列，并保证其随机特性的一致性和可靠性，是工艺上的挑战。
功耗：每个p-bit单元包含一个始终偏置在亚阈值区附近的晶体管和一个反相器，存在静态功耗。对于大规模阵列（百万甚至十亿级），静态功耗可能成为瓶颈。论文中提到可以采用互补对称（CMOS-like）设计来减少静态功耗，但这会增加面积和复杂度。
速度与噪声：MTJ的随机翻转速率限制了p-bit的更新速度。此外，电路中的其他噪声源（如1/f噪声）可能会干扰MTJ产生的“有用”随机信号，需要精心设计信号链。
权重实现：使用固定的电阻交叉阵列实现权重[J]，意味着网络功能是硬连线的，缺乏可编程性。要实现可学习的系统，需要将电阻替换为可编程元件，如忆阻器（Memristor），但这又引入了新的器件非理想性和可靠性问题。
仿真与建模复杂度：精确模拟包含数百上千个相互耦合的随机MTJ和晶体管的电路，对仿真工具和计算资源要求极高。需要开发高效的宏模型或行为级模型来进行系统级评估。

5.3 未来扩展与应用展望

尽管面临挑战，该方案为概率计算硬件指明了一条务实的发展路径：

混合计算架构：将p-bit网络作为协处理器，与传统的CPU/GPU/FPGA集成在同一芯片或封装内。传统处理器处理确定性的控制流和任务调度，而将特定的组合优化、采样或推理任务卸载给p-bit网络进行硬件加速。
近似计算与随机计算：在图像处理、机器学习推理等容错应用场景中，可以利用p-bit网络的概率特性进行超低功耗的近似计算。
探索新型算法：硬件p-bit的出现促使算法研究人员开发更适合这种非冯·诺依曼、概率性、并行的硬件原生的算法。
材料与器件扩展：正如论文末尾提到的，产生随机电阻的物理机制不限于MTJ。任何具有随机开关或波动特性的两端器件（如相变存储器、金属-绝缘体转变器件等）都可以套用类似的电路框架来构建p-bit，这为探索更多材料体系打开了大门。

从我个人的工程实践角度看，这项工作的魅力在于它用相对简单的电路，桥接了物理随机性与计算逻辑。它提醒我们，在追逐最前沿器件的同时，回头审视现有成熟技术的“非常规”用途，往往能带来意想不到的突破。将嵌入式MTJ从存储单元重新定义为计算单元，这种思路的转变，其价值不亚于发明一种新器件。在实验室里搭建第一个可逆AND门仿真模型并看到它正确运行的那一刻，你能清晰地感受到，一种新的、充满不确定性与可能性的计算范式，正在从论文中的公式和波形图里，一步步走向现实的硅世界。

查看全文

http://www.jsqmd.com/news/894007/