STT-MTJ并行概率伊辛机设计与优化计算应用
1. 基于STT-MTJ的并行概率伊辛机设计解析
在当今计算技术面临摩尔定律瓶颈的背景下,概率伊辛机(PIM)作为一种新型非传统计算架构,为解决组合优化问题(COP)提供了创新思路。我们团队开发的基于250个自旋转移矩磁性隧道结(STT-MTJ)的并行PIM系统,通过硬件-算法协同设计,在计算效率和能效方面取得了突破性进展。
1.1 核心架构设计
系统采用分层设计理念,将器件、电路和算法三个技术层面有机结合:
器件层:选用STT-MTJ作为基本计算单元,相比传统超顺磁隧道结(SMTJ),具有更高的热稳定性和器件均匀性。每个MTJ单元由1个NMOS晶体管和1个MTJ器件构成(1T1MTJ),通过调节输入脉冲幅度(Vin)和宽度(10μs)实现可调概率切换。
电路层:系统包含16个处理单元(PE),每个PE集成16个MTJ计算单元。采用16通道DAC(AD5767)提供256个模拟输入通道,16通道ADC(MAX11131)实现256个状态采样通道。所有单元通过SPI接口与FPGA(NI-SBRIO9651)连接,主频设置为12.5kHz。
算法层:支持多种高级退火算法,包括模拟退火(SA)、并行回火(PT)和模拟量子退火(SQA)。系统可配置为全连接问题的多副本Gibbs采样或稀疏问题的并行集群更新模式。
1.2 STT-MTJ概率比特实现机制
MTJ器件的概率切换行为是实现p-bit功能的核心。我们的方案采用"复位-扰动"双脉冲机制:
- 复位阶段:施加负Vdd和零Vin,将MTJ强制切换到反平行(AP)状态
- 矩阵计算:FPGA根据当前系统状态计算每个p-bit的输入信号Ii(s)
- 扰动阶段:施加正Vdd和正Vin,激活MTJ的随机切换特性
- 状态读取:ADC采样输出电压Vout,与预存阈值Vth比较确定p-bit状态(+1或-1)
通过线性变换校准,我们将250个MTJ的切换概率曲线统一为标准S型曲线(如图1f所示),解决了器件间的固有差异性。实测显示,系统整体可产生312.5万次/秒的自旋翻转,为大规模并行计算奠定基础。
2. 并行计算架构与算法实现
2.1 更新策略对比
针对不同问题拓扑结构,我们开发了两种更新方案:
顺序更新方案:
- 严格遵循Gibbs采样要求,逐个更新p-bit
- 适用于全连接图问题
- 80p-bit系统完成一次全更新需80时钟周期
- 可并行运行250个独立副本
集群并行更新方案:
- 基于贪心图着色算法将p-bit划分为独立集
- 同色p-bit可并行更新
- 对80p-bit的10位整数分解问题,划分为5种颜色
- 将250个MTJ分为15个副本(每个16MTJ)
- 理论加速比达N/G(N为总自旋数,G为颜色数)
实测表明,在Max-Cut问题上,两种方案解质量相当,但并行方案将24位整数分解的求解时间(TTS)降低了一个数量级(图3d)。
2.2 高级退火算法实现
模拟量子退火(SQA):
# SQA横向场耦合强度计算 def calculate_JT(n, Z, beta, Gx, JT0): return -JT0 * log(tanh(beta*(Z-n)/(Z-1)*Gx)) # SQA输入信号计算 def calculate_input(J, h, s, beta, F): return beta*(np.sum(J*s) + h) + FSQA通过引入横向场Hamiltonian实现量子隧穿模拟。我们使用15组16副本的循环图结构,副本间通过时变横向场耦合。实验证明,在100节点Max-Cut问题上,SQA的解质量比传统SA高20倍(图4)。
并行回火(PT):
- 多副本并行运行于不同温度
- 采用Metropolis-Hastings交换准则:p_swap = min(1,exp(-βΔE))
- 高温副本负责空间探索,低温副本负责能量最小化
3. 应用性能评估
3.1 24位整数精确分解
我们将整数分解映射为Ising模型,通过SA过程求解:
- 初始逆温度β=0(无限温度)
- 线性增加β直至系统冻结
- 成功标志:归一化能量(E-Egs)/|Egs|=0
对11,970,307(=3673×3259)的分解实验显示:
- 解成本|F-AB|随β增加趋近于零(图3a插图)
- 因子A(3673)和B(3259)被可靠访问(图3b)
- 并行方案使能量-解比保持不变下,硬件效率提升16倍
3.2 Max-Cut问题对比
使用Biq Mac数据集测试,定义近似精度=获得割值/最优割值:
- SQA中位数精度最高,运行间变异最小
- 在200节点问题t2g20_5555上,SQA最差表现优于SA最佳表现
- PT在简单问题上接近SQA,但复杂问题差距拉大
4. 技术优势与前景
4.1 器件级比较
STT-MTJ在切换速度(1-2ns)和能效方面优于:
- 双稳态电阻(1012 FPS, 10-10J/bit)
- 忆阻器(1010 FPS, 10-9J/bit)
- FeFET(108 FPS, 10-8J/bit)
4.2 系统级展望
基于4ns脉冲切换实测数据,推算1Mbit阵列可实现:
- 1015 FPS(比GPU快10倍)
- 10-13 J/bit(比GPU省电10倍)
- 可采用MRAM读出放大器替代ADC,进一步减小面积功耗
我们的工作证实了STT-MTJ PIM在解决实际优化问题中的潜力。通过算法-硬件协同创新,未来可扩展至数千节点系统,为物流调度、金融优化等NP难问题提供高效解决方案。
