当前位置：首页 > news >正文

基于MoS₂模拟CAM的软决策树硬件实现：原理、映射与实战

news 2026/7/19 0:58:50

1. 项目概述：当软决策树遇上模拟CAM

在边缘AI和物联网设备爆发的今天，我们总在寻找一个平衡点：既要模型足够“聪明”，预测得准；又要它足够“轻快”，能在资源受限的硬件上实时运行，最好还能解释清楚自己为什么这么判断。决策树家族，尤其是随机森林，在表格数据上一直是“低调的实力派”，其白盒特性在医疗诊断、金融风控等需要可信度的场景里是无价之宝。但传统的硬决策树有个“硬伤”——它的决策边界像刀切一样分明，硬件上一点点器件参数的波动（比如阈值电压漂移）就可能让数据点从“良性”误判为“恶性”，鲁棒性不足。

于是，软决策树（Soft Decision Tree, SDT）被提了出来。它把每个节点的判断从非此即彼的“是/否”，变成了一个概率值，比如“有70%的可能性向左分支”。这就像给决策边界蒙上了一层柔光滤镜，模型更平滑，对噪声和硬件非理想性也自然更耐受。但这份“柔软”的代价是沉重的计算开销：原本一次比较就能完成的路径选择，现在需要计算一连串的Sigmoid概率并连乘，在数字CPU/GPU上跑，延迟和能耗会急剧上升。

这就引出了我们这次硬核实操的核心：用模拟存内计算（Analog In-Memory Computing）的思路，在硬件层面“原生”地支持软决策树推理。我们选择的武器是基于二维材料二硫化钼（MoS₂）的闪存单元构建的模拟内容可寻址存储器（Analog CAM）。你可能听说过数字CAM，它做的是精确匹配，输出0或1。而模拟CAM的神奇之处在于，它能通过匹配线（Match Line, ML）上的模拟电压值，直接输出一个“匹配度”，这恰恰与软决策树需要的概率乘法在物理层面上同构。我们的目标，就是把训练好的SDT模型“烧录”进这片模拟CAM阵列里，让数据输入后，能在纳秒级时间内、以微焦耳级的能耗，直接通过模拟域的电荷共享与竞争机制，得到最终的分类结果和其可信度。

简单来说，这是一次从算法创新到硬件映射的完整穿越。下面，我就结合自己的实验和踩坑经验，带你从原理到焊线，彻底拆解如何用MoS2闪存模拟CAM高效实现软决策树。

2. 核心原理：为什么模拟CAM是SDT的“天作之合”？

要理解这个项目，你得先忘掉传统的冯·诺依曼架构。这里的关键是存算一体和模拟计算。我们不是在内存里存好数据，再读到CPU里做计算；而是让计算直接在存储数据的那个地方，以模拟物理量的方式瞬间完成。

2.1 从硬边界到软边界：CAM的进化

传统数字CAM或用于硬决策树的模拟CAM，追求的是清晰的匹配/不匹配。想象一下，你有一排锁（存储单元），输入是一把钥匙（输入电压）。只有钥匙齿形完全吻合，锁才会打开，匹配线（ML）被拉低，输出一个明确的“匹配”信号。这对应硬决策树里“特征x是否大于阈值t？”的二元判断。

但在现实世界的硬件里，没有“完全吻合”。器件有差异，电压有噪声，这个边界从来都不是垂直的峭壁，而是一个有一定坡度的斜坡。传统方案视这个斜坡为敌人，想方设法让它更陡。而我们则换了个思路：拥抱这个斜坡，把它变成软决策树需要的“概率斜坡”。

在基于MoS2闪存的模拟CAM单元中，这个“坡度”由晶体管的亚阈值斜率等物理特性自然决定。当输入电压（对应特征值）接近存储的阈值电压时，晶体管的导通电流不会突变，而是连续变化。这导致匹配线ML的放电速度（电压下降斜率）成为一个关于输入与阈值之差的连续函数。这个放电曲线，经过适当的建模和标定，其形状恰好类似于一个Sigmoid函数——这正是软决策树节点用来计算概率的激活函数。

核心洞见：我们并没有用复杂的数字电路去计算Sigmoid，而是利用器件本身的物理特性，在模拟域“免费”获得了这个非线性变换。这是能效提升的根本来源。

2.2 从单细胞到整行：概率如何“计算”？

这是整个方案最精妙的部分。一个软决策树节点的概率输出是p_i = σ(k*(x - t_i))，其中x是输入，t_i是阈值。在CAM的一行（对应一条从根到叶子的路径）中，我们需要把该路径上所有节点的概率乘起来，即P_path = ∏ p_i。

模拟CAM是怎么实现乘法的呢？它靠的是电荷共享的时序动力学。

参考你提供的公式，在搜索初始阶段，ML电压轻微下降时，其行为可以近似为各个单元概率的乘积。更一般化且实用的模型是，ML电压的最终状态（或某一固定时刻的电压值）与整行所有单元的匹配情况强相关。当输入电压与单元中存储的阈值电压匹配度高时，该单元对ML的放电电流大；匹配度低时，放电电流小。

整行ML的电压V_ML，是由该行所有单元并联放电的共同结果决定的。其放电动态可以建模为：V_ML(t) ≈ V_pre - (∑ I_di) * t / C_ML其中，I_di是第i个单元的放电电流，它是输入x与该单元阈值t_i之差的函数，且函数关系近似Sigmoid。因此，在固定的搜索时间t后，V_ML的值包含了所有单元放电电流的加和信息。而通过精心设计映射规则和训练目标，我们可以让这个“电流之和”的某种映射，等价于“概率之积”的对数空间表示（因为乘法在对数域变为加法）。实际上，我们通过训练过程，将SDT模型的目标概率乘积，直接拟合到ML的最终电压值上。

简单来说：一条路径的概率乘积，被编码成了整行ML的放电速度或最终电压。电压越高（放电越慢），代表这条路径的总体匹配概率越高。

2.3 胜者为王：用模拟电路实现“ArgMax”

软决策树推理的最后一步，是比较所有叶子节点（对应所有CAM行）的概率，选出最大的那个。在数字世界，这需要一轮排序或比较。在模拟CAM阵列里，我们用一个赢家通吃（Winner-Take-All, WTA）电路来实现。

所有行的ML线会接入这个WTA电路。它是一个模拟电路，能快速识别出所有输入电压中最大的那一个，并只将其对应的输出置为有效（数字‘1’），其他输出置为‘0’。这样，模拟的匹配度比较，在瞬间就以极低的功耗完成了。

至此，从特征输入，到节点概率计算（模拟放电），到路径概率聚合（电荷共享），再到最终决策（WTA），整个软决策树的推理流程，完全在模拟域内、在存储阵列内部一气呵成，避免了数字域频繁的数据搬运和ALU计算，这就是能效和速度爆炸性提升的根源。

3. 硬件基石：MoS2闪存单元为何被选中？

工欲善其事，必先利其器。选择MoS2闪存作为CAM单元，是经过深思熟虑的，绝非偶然。市面上忆阻器、相变存储器等候选很多，但我们团队最终押宝二维材料MoS2，主要是看中了它在模拟存算场景下的几个独特优势：

3.1 关键特性解析

优异的电学可控性：MoS2作为二维半导体，具有原子级平滑的界面和无悬挂键的表面，这使得其与栅介质形成的界面缺陷极少。对于闪存单元，这意味着更尖锐的亚阈值摆幅（Subthreshold Swing）和更小的阈值电压漂移。在模拟CAM中，我们需要精确且稳定地控制单元的阈值电压（Vth）来代表决策树的判决阈值，MoS2器件的稳定性减少了后期校准的麻烦。
对称且线性的电导调制：相比于一些忆阻器器件电导��化的不对称和非线性，基于MoS2的闪存单元通过栅压编程，其源漏电流在一定的栅压范围内具有良好的对称性和线性度。这对于精确实现Sigmoid形状的匹配响应曲线至关重要。我们可以通过编程电压，将Vth设置在某个精准值，并且输入电压相对于Vth的正负偏移，能产生对称的电流变化，这对于处理决策树中“大于”和“小于”两种比较是天然的便利。
高速与低功耗潜力：二维材料器件的超薄沟道天然有利于短沟道效应控制，具备实现超快开关速度的潜力。在我们的实验中，单个单元的搜索操作可在纳秒级完成。同时，其关态电流极低，静态功耗几乎可以忽略，这对于常开待命的边缘设备是巨大优势。
与CMOS工艺的兼容性：这是产业化落地的关键。MoS2材料可以通过后端工艺（BEOL）集成在标准CMOS晶圆之上，无需颠覆现有的半导体产线。我们的测试芯片就是在200nm CMOS工艺平台上，集成了MoS2闪存阵列实现的，证明了工艺可行性。

实操心得：器件筛选与表征在实际流片和测试中，不是每个MoS2器件都完美。我们的做法是：
初筛：在阵列编程前，先进行一轮全阵列的I-V特性扫描，剔除那些开态电流过低、关态电流过高或亚阈值摆幅过差的坏点。
分档（Binning）：根据器件的初始阈值电压进行分档，将特性相近的单元映射到同一个决策树的相邻节点上，以抵消一部分工艺波动的影响。
迭代编程验证：采用迭代式编程算法（如增量步进脉冲编程ISPP），边编程边验证，直到单元的Vth达到目标值±10mV的窗口内。这个过程需要自动化测试设备（ATE）脚本配合，手动操作会累死。

3.2 阵列架构与外围电路设计

我们的测试芯片包含一个32x32的模拟CAM核心阵列。每一行对应决策树的一条路径（一个叶子节点），每一列对应一个特征维度。每个存储单元包含两个MoS2闪存晶体管，用于实现一个特征的一次比较（例如，x > t或x < t）。

外围电路是灵魂：

字线/位线驱动器：负责将输入的特征电压（已归一化到例如[-1V, 1V]范围）施加到阵列的位线上。
匹配线读出电路（ML Sense Amplifier）：这不是一个简单的数字灵敏放大器，而是一个能够快速、高精度地读取ML电压模拟值的电路。我们采用了一种基于电容耦合的采样保持电路，在固定的搜索时间窗口结束后，捕获ML的瞬时电压，并将其保持住，供后续的WTA电路判决。
赢家通吃（WTA）电路：如前所述，我们采用了一种电流模式WTA电路。它的所有输入端连接各行的ML读出电压，输出端会在几个纳秒内稳定，只有对应最高电压的行输出为高电平。我们选用了45nm工艺库中的一种经典高精度WTA设计，通过后仿真确保其在工艺角波动下仍能正确识别出最小20mV的电压差，这足以区分我们的概率输出。

一个踩过的坑：最初我们试图用数字比较器链来实现WTA，结果发现延迟和功耗随着行数增加而线性增长，成了系统瓶颈。换成模拟电流模式WTA后，延迟基本恒定在3ns左右，且功耗极低。教训是：在模拟存算系统中，尽量让信号保持在模拟域处理到底，不到万不得已不进行模数转换。

4. 核心算法：如何将软决策树“编译”进模拟CAM？

有了硬件，下一步就是如何把用Python训练好的软决策树模型，“翻译”成CAM阵列可以理解的阈值电压。这个过程我们称之为“映射”或“编译”，它是连接算法和硬件的桥梁。

4.1 训练策略：共享阈值的协同优化

传统的决策树训练，每个节点阈值是独立的。但在我们的模拟CAM映射中，一个物理存储单元可能被多条路径共享（因为树结构里不同分支可能用到同一个特征的不同阈值比较）。如果简单独立训练，这些共享单元会被赋予不同的目标阈值，硬件无法实现。

我们的解决方案是在训练算法中引入“共享阈值”约束。

初始化：首先，我们使用Scikit-learn训练一个标准的硬决策树作为骨架，确定树的结构（深度、分裂特征、叶子类别）。
软化和联合训练：在这个固定结构上，我们将其转化为软决策树，并使用梯度下降进行端到端训练。关键的一步是，在损失函数中，我们对所有映射到同一物理CAM单元的节点阈值，增加一个L2正则项，鼓励它们收敛到相同的值。损失函数大致如下：Loss = CrossEntropyLoss(P_pred, y_true) + λ * Σ ||t_shared_group - mean(t_shared_group)||^2其中，λ是权衡超参数。
阈值量化与微调：训练收敛后，得到一组浮点数的阈值。然后，我们根据CAM单元实际的编程精度（比如10mV步进），将这些阈值量化到最接近的可编程电压电平。量化后，模型精度可能会有轻微损失，我们再固定这些量化后的阈值，对剩余的可训练参数（如叶子节点的概率分布）进行一小轮微调（fine-tuning），以恢复性能。

经验技巧：λ的选择λ太大，会迫使所有共享阈值强行一致，可能损害模型精度；λ太小，则起不到约束作用，硬件无法映射。我们的经验是，从0.01开始，每隔一个数量级尝试，观察验证集精度和阈值标准差。通常λ在0.1到1之间能取得较好平衡。对于Iris这种小数据集，λ可以稍大；对于MNIST，λ需要小一些以保持模型容量。

4.2 映射规则：“大于”和“小于”的硬件实现

决策树的每个内部节点判断，无非两种：特征x < 阈值t或特征x > 阈值t。在我们的双晶体管CAM单元中，如何优雅地实现这两种操作？

对于 “x < t” （左分支概率）：我们将阈值t直接编程到左晶体管的浮栅上。当输入电压V_x施加到位线时：
- 如果V_x < t，左晶体管导通较好，对ML放电电流大，ML电压下降快，对应于高匹配度（高概率）。
- 如果V_x > t，左晶体管导通差，放电电流小，匹配度低。同时，我们将右晶体管编程到一个极高的阈值（例如2V，远高于输入范围），使其在任何输入下都几乎不导通，相当于“始终不匹配”（即忽略该晶体管）。这样，左晶体管的导通程度就直接反映了x < t这个条件的满足概率。
对于 “x > t” （右分支概率）：这里用到了我们单元中两个晶体管栅极连接互为反相的特性。我们不是将t编程到右晶体管，而是将-t编程到右晶体管。当输入V_x施加时，右晶体管的栅极实际看到的是-V_x（经过一个模拟反相器，通常是一个简单的共源极放大器）。因此，右晶体管的导通条件变成了-V_x > -t，即V_x < t。等等，这不对？别急，我们需要的概率是P(x > t)，这等价于1 - P(x < t)。在我们的概率乘法模型中，一条路径的概率是各节点概率的乘积。如果我们把P(x > t)看作一个基本事件，那么我们可以通过硬件设计，让右晶体管的放电行为直接模拟P(x > t)。实际上，我们通过训练过程的约束，让模型去适应这种硬件映射��更直观的理解是：对于x > t的判断，我们让右晶体管在x较大时导通更厉害（放电更多）。通过将-t编程到右晶体管，并配合输入反相，我们巧妙地实现了：x越大 -> 反相后的-x越小 -> 相对于-t的过驱动电压Vov越小 -> 右晶��管电流越小 -> ML放电越慢 ->匹配度越高（对应x > t的概率越高）。这需要与左晶体管的特性曲线进行配合校准。

映射表示例：假设一个节点判断f1 > 0.41V，在归一化到[-1,1]后，假设t=0.41。我们将其映射到CAM单元：

左晶体管：编程为高阈值（如2V），置为“X”（始终不匹配）。
右晶体管：编程阈值 =-0.41V。这样，当输入f1的电压大于0.41V时，该单元整体呈现较高的匹配度。

4.3 搜索时序与概率提取

整个推理过程由一个精确的时序控制：

预充电阶段：所有匹配线ML被预充电到一个固定的高电压V_pre。
搜索阶段：输入特征电压被施加到位线，同时开启搜索使能信号。所有CAM单元开始根据输入与自身阈值的比较结果，对ML进行放电。这个阶段持续一个固定的时间T_search。
采样保持阶段：在T_search结束时，ML读出电路迅速动作，捕获并保持此刻每条ML上的电压V_ML。
判决阶段：保持住的V_ML电压被送入WTA电路。WTA电路在几纳秒内判决出电压最高的那一行。
输出阶段：WTA电路的输出（一个one-hot编码）被锁存并输出，即为预测的叶子节点编号，再通过一个简单的查找表即可得到最终类别标签。

这里有一个至关重要的参数：T_search。它直接决定了Sigmoid曲线的“柔软度”。T_search越短，ML放电不充分，所有行的电压差异小，曲线平坦，判决置信度低；T_search越长，放电越充分，电压差异拉大，曲线变陡，判决更“硬”。我们通过实验和仿真，为每个数据集和模型选择一个最优的T_search，以平衡精度和速度。

5. 实战全流程：从数据到芯片推理

理论说了这么多，是时候上手了。下面我以经典的Iris鸢尾花数据集为例，带你走一遍从软件训练到硬件推理的完整流程。

5.1 步骤一：数据预处理与模型训练

数据准备：加载Iris数据集（150个样本，4个特征，3个类别）。按8:2随机划分训练集和测试集。
特征归一化：这是硬件兼容的关键一步。我们将所有特征归一化到**[-1, 1]**的区间。因为我们的CAM输入电压范围通常设计为对称的，例如-1V到1V。归一化公式：x_norm = 2 * (x - x_min) / (x_max - x_min) - 1。注意：x_min和x_max必须从训练集中计算，并同样应用于测试集。
训练硬决策树骨架：使用Scikit-learn的DecisionTreeClassifier，设置max_depth=3（为了演示），其他参数默认。训练后得到一棵结构固定的树。
转化为软树并联合训练：
- 将硬树结构转化为自定义的软决策树模型，节点激活函数使用Sigmoid：σ(k*(x-t))，其中k是斜率参数，控制软硬程度。
- 实施共享阈值约束：遍历树结构，建立“CAM单元”到“树节点”的映射关系。将映射到同一物理单元的所有节点阈值参数在内存中绑定（共享同一个参数张量）。
- 定义损失函数（交叉熵 + 共享阈值正则项），使用Adam优化器进行训练。训练约100个epoch。
阈值量化：训练完成后，获取所有共享阈值参数。假设我们的MoS2闪存单元编程精度为20mV一步。我们将每个阈值四舍五入到最接近的20mV整数倍值。例如，训练得到的阈值0.357V，量化为0.36V；-0.478V量化为-0.48V。

5.2 步骤二：硬件配置与编程

生成编程矩阵：根据量化后的阈值和映射规则，生成一个二维矩阵，其维度为[行数, 列数*2]（因为每列对应一个特征，每个特征需要两个晶体管）。矩阵中的每个元素就是目标编程阈值电压。
连接测试平台：我们的测试平台基于Keysight B1500半导体参数分析仪和自研的PCB测试板。PCB板通过探针卡与MoS2 CAM芯片连接，板上的多路复用器（MUX）和继电器由单片机控制，用于选通不同的行和列。
迭代式编程（ISPP）：
- 对阵列中每一个需要编程的单元，执行以下循环： a. 施加一个短脉冲（如100μs）的编程电压（Vpgm）到控制栅。 b. 立即读取该单元的阈值电压（定义为使漏电流达到10nA的栅压）。 c. 比较读取值与目标值。如果低于目标，则增加Vpgm的幅度（步进ΔVpgm，如50mV），重复a-b；如果达到或超过目标，则停止。
- 注意事项：编程过程会产生热电子注入，可能影响相邻单元（编程干扰）。我们的策略是，先编程所有阈值电压较低的单元，再编程阈值电压高的单元，并合理安排编程顺序以减少同一行/列的频繁切换。

5.3 步骤三：推理测试与验证

搭建测试环路：编写自动化测试脚本（Python + 仪器控制库），实现：读取一个测试样本 -> 归一化并转换为电压值 -> 通过单片机控制PCB板将电压施加到CAM阵列对应位线 -> 触发搜索时序 -> 通过B1500或示波器读取WTA输出 -> 记录结果。
执行批量推理：对全部测试集样本（Iris中是30个）运行上述流程。
结果分析：将硬件输出与软件模型（量化后）的仿真输出进行对比。计算硬件推理的准确率。在我们的实验中，Iris数据集达到了**96.7%**的准确率，与软件仿真结果（97%）高度吻合，仅有一个样本因器件轻微波动而误判。
性能测量：
- 延迟：从输入电压施加完成到WTA输出稳定的时间。我们实测约为13 ns。这包括了10ns的阵列搜索时间和3ns的WTA电路延迟。
- 能耗：主要消耗在ML的预充电和放电过程。我们通过测量平均工作电流和电压估算，单次推理能耗约为8.85 pJ（皮焦耳）。这个能量级别比在通用CPU上运行同等软树模型低了6个数量级。

6. 性能优化与鲁棒性增强技巧

把系统跑起来只是第一步，要让它稳定、可靠、高效，还需要不少优化技巧。

6.1 应对器件非理想性：从“对抗”到“利用”

所有模拟/存算硬件都逃不开器件波动（Variation）。MoS2器件虽然均匀性好，但依然存在固有的随机电报噪声（RTN）和循环耐久性引起的阈值漂移。我们的策略不是强行消除它，而是让算法模型去适应和容忍这种波动。

训练时注入噪声：在软件训练阶段，我们就在前向传播时，给每个节点的阈值t添加一个随机扰动δ，δ服从均值为0、标准差为σ的高斯分布。σ的大小根据我们实测的器件阈值电压分布来确定。这相当于做了数据增强，让模型在训练时就“见识”过各种不完美的硬件，从而学到更鲁棒的决策边界。
采用软决策树本身：这是最根本的一招。如Supplementary Fig. S10所示，我们对比了硬决策树（DT）和软决策树（SDT）在器件波动下的精度。随着器件阈值电压标准差σ从0V增加到0.3V，DT的准确率从~90%暴跌至~35%，而SDT仅从~97%缓慢下降到~92%。软边界本身就提供了强大的容错能力。
动态参考校准：在芯片中集成一些“哑元单元”或参考行。这些单元被编程到固定的已知阈值。在每次系统上电或定期自检时，测量这些参考单元的实际响应，并与理想值对比，计算出一个校正因子。将这个校正因子应用于后续的输入电压或输出解读中，可以补偿一部分系统性的漂移。

6.2 精度与速度的权衡：搜索时间`T_search`的调优

T_search是一个神奇的旋钮。它本质上是在控制模拟积分的“窗口”大小。

较短的T_search：ML电压尚未充分放电，所有行的电压值都较高且差异较小。这相当于Sigmoid函数的斜率k较小，决��边界非常“软”，模型更平滑，对噪声更鲁棒，但不同类别之间的区分度会下降，可能导致精度损失。
较长的T_search：ML电压充分放电，匹配度高的行电压很低，匹配度低的行电压相对较高，电压差拉大。这相当于Sigmoid斜率k变大，决策边界变“硬”，区分度好，精度可能更高，但对器件波动更敏感，且增加了延迟和能耗（因为预充电能量是固定的，放电时间越长，从电源抽取的能量越多）。

我们的调优方法：

在软件仿真中，建立一个包含器件噪声的CAM阵列模型。
对验证集，扫描不同的T_search值（例如从1ns到50ns）。
绘制T_search与推理准确率的关系曲线。
选择准确率进入平台区且尚未开始下降的那个T_search值作为硬件设置。对于Iris数据集，我们最终选定的T_search是10ns。

6.3 扩展性与多树支持：走向软随机森林

单个决策树能力有限。随机森林（RF）通过集成多个树，能大幅提升模型性能。我们的模拟CAM架构可以自然扩展支持随机森林。

方案一：时分复用。一个阵列依次执行多棵树的推理。这需要将多棵树的权重（阈值）预先编程到阵列的不同行组中，推理时通过行地址选择器切换。优点是硬件面积小，缺点是延迟随树的数量线性增加。

方案二：空间并行。使用多个并行的CAM子阵列，每个子阵列存储并执行一棵树的推理。所有子阵列共享输入特征总线。每个子阵列输出一个WTA结果（即该树的预测类别），最后需要一个数字逻辑模块（如多数投票器）来汇总所有树的预测，得到最终结果。这是我们更看好的方向，因为它能实现真正的并行推理，延迟与树的数量无关，只取决于单棵树的时间。虽然面积开销大，但在边缘端，对于几十到上百棵树的森林，仍然是可接受的。

我们在MNIST数据集上测试了软随机森林（SRF）。使用50棵深度为20的软决策树，在模拟CAM上实现的SRF达到了96.05%的准确率，与同等规模在CPU上运行的随机森林（96.47%）相差无几，但推理速度提升了数个数量级，能耗更是天壤之别。

7. 常见问题、故障排查与未来展望

7.1 实战中遇到的典型问题与解决方案

问题：编程后阈值电压漂移（Retention Loss）
- 现象：芯片编程后静置一段时间，或经过多次读写操作后，部分单元的阈值电压发生偏移，导致推理准确率下降。
- 排查：设计一个“黄金样本”测试模式，定期对已知阈值的测试单元进行读取，记录其Vth随时间或循环次数的变化曲线。
- 解决：
  - 工艺层面：优化MoS2与栅介质（如HfO2）的界面质量，减少电荷陷阱。
  - 电路层面：采用差分对结构。每个判决单元使用一对CAM单元，分别存储阈值t和t+Δ（或t-Δ）。最终匹配度由两者的电流差决定。这可以抵消共模的漂移。
  - 系统层面：实施更频繁的后台校准（Background Calibration）策略。
问题：WTA电路误判，特别是在两行电压接近时
- 现象：当两条匹配线的最终电压非常接近时，WTA电路可能输出错误的结果，或者输出振荡不定。
- 排查：用高精度示波器同时监测两条电压接近的ML线，观察WTA输入端的电压差是否稳定，以及WTA输出端的逻辑电平。
- 解决：
  - 提高WTA分辨率：优化WTA核心比较器的设计，增加前级增益，降低输入失调电压。
  - 引入滞后（Hysteresis）：在WTA的输出反馈中引入少量正反馈，形成一定的电压差滞回区间，防止在临界点附近振荡。
  - 软件容错：在最终投票时（对于随机森林），可以设置一个置信度阈值。如果WTA输出的最高电压与次高电压的差值小于某个阈值，则认为本次推理置信度低，可以丢弃或请求重新计算。
问题：输入电压范围与CAM单元线性区不匹配
- 现象：当输入特征电压接近归一化边界（如-1V或1V）时，推理误差显著增大。
- 排查：测量CAM单元在不同输入电压下的传输特性曲线（Id-Vg），确定其线性度良好的工作区间。
- 解决：
  - 调整归一化范围：不一定要用[-1,1]。可以根据器件特性，选择线性度最好的区间，例如[-0.8V, 0.8V]。
  - 使用输入缩放电路：在特征电压输入CAM阵列前，经过一个可编程增益放大器（PGA），将软件输出的归一化电压缩放到硬件最优区间。

7.2 性能基准对比

我们将本工作的性能与现有方案进行了对比（如Supplementary Table S4所示）：

与数字CPU/GPU对比：在SDT推理上，我们的方案（8.85 nJ/决策）比高端CPU（54 uJ/决策）能效高约600万倍，比高端GPU（6.1 uJ/决策）高约70万倍。延迟从微秒级降至纳秒级。
与其它存内计算方案对比：相比基于忆阻器模拟CAM的DT方案[8]（1.28 nJ/决策），我们的能效在同一量级，但实现了更复杂的SDT功能。相比数字TCAM方案[7]（0.74 nJ/决策），我们的能效稍高，但提供了概率输出和更强的鲁棒性，适用于更广泛的场景。

7.3 未来工作与挑战

工艺升级与集成度：当前基于200nm工艺的演示芯片面积较大。下一步是向更先进节点（如28nm）推进，利用FinFET或纳米片晶体管与MoS2进行单片三维集成，实现更高密度、更低功耗的宏阵列。
支持更复杂的模型：目前主要针对决策树/随机森林。如何映射支持向量机（SVM）的核函数、或者更通用的核方法，是一个有趣的挑战。这可能需要设计更灵活的模拟计算单元。
片上学习（On-Chip Training）：目前训练仍在云端进行。终极目标是实现边缘设备的在线学习和自适应。这需要硬件支持梯度计算和权重更新。MoS2闪存单元本身支持电导的多态调制，为本地训练提供了物理基础，但需要设计配套的模拟反向传播电路，挑战巨大。
系统级设计与工具链：需要开发一套完整的编译器工具链，能够自动将Scikit-learn或XGBoost训练出的树模型，编译成模拟CAM的配置比特流和驱动代码，降低开发者的使用门槛。

回过头看，这个项目最让我兴奋的点在于，它找到了一条将算法“柔软性”的需求与硬件“非理想性”的现实巧妙结合的路径。我们不再追求完美的、数字化的精确，而是利用模拟世界的连续性与不确定性，去实现一种更接近人脑直觉的、带概率的、鲁棒的计算。这或许就是未来边缘智能硬件的一个重要形态。

查看全文

http://www.jsqmd.com/news/882128/