当前位置：首页 > news >正文

基于4T2M TCAM的无损软PUF设计：硬件安全新范式

news 2026/5/27 12:15:11

1. 项目概述：当存储单元成为安全密钥

在物联网和嵌入式设备铺天盖地的今天，硬件安全已经从一个“加分项”变成了“必选项”。我们面临的挑战是双重的：一方面，设备需要轻量、高效、低成本；另一方面，它们又必须能抵御物理攻击、侧信道分析等日益复杂的威胁。传统的软件加密方案在资源受限的边缘节点上往往力不从心，而基于专用电路的硬件安全模块又会带来难以承受的面积和功耗开销。

正是在这种背景下，物理不可克隆函数（PUF）作为一种“天生”的硬件安全原语，走进了我们的视野。它的核心理念非常巧妙：与其费尽心思去生成一个完美的随机密钥，不如直接利用芯片在制造过程中产生的、无法复制的微观物理差异（比如晶体管阈值电压的微小偏差、导线宽度的随机波动）作为熵源。每一颗芯片的“指纹”都是独一无二的，理论上无法被克隆。这就像利用纸张的纤维纹理来防伪，而不是在纸上印刷一个复杂的图案。

然而，理想很丰满，现实却很骨感。传统的PUF实现，尤其是软PUF（即利用现有存储阵列兼作PUF的方案），面临一个根本性的矛盾。为了生成PUF响应，通常需要将阵列中存储的有效用户数据先“搬走”（迁移到外部缓冲区），清空阵列，激活PUF模式生成响应，最后再把数据“搬回来”。这个过程我们称之为“数据迁移”。它带来的问题显而易见：额外的缓冲存储器增加了面积和功耗；数据在迁移路径上暴露，容易遭受故障注入或时序分析攻击；更棘手的是，数据回写后可能残留之前的物理状态痕迹（数据残留效应），攻击者可以利用这些痕迹反推密钥信息。

我一直在思考，有没有一种方法，能让存储阵列“一心二用”，在不打扰其本职工作（存储数据）的前提下，悄无声息地“榨取”出它的物理指纹？直到深入研究三元内容可寻址存储器（TCAM）和磁阻随机存取存储器（MRAM）的特性，一个答案逐渐清晰。TCAM天生具备并行搜索和模式匹配的能力，而基于MRAM的TCAM（4T2M结构）单元内部，两个磁性隧道结（MTJ）的电阻值由于工艺偏差，天然就存在微小的、随机的失配。这种失配，不正是我们梦寐以求的、稳定且不可克隆的熵源吗？

于是，一个大胆的想法成型了：基于4T2M TCAM架构，设计一个无需数据迁移的无损软PUF。核心思路是，我们不再“清场”办活动，而是利用TCAM在执行一次特殊的“搜索”操作时，其匹配线（ML）电压的瞬态特性，这个特性由每个单元固有的电阻失配决定，从而直接量化出PUF响应。整个过程，阵列中存储的“0”、“1”、“X”（无关项）数据纹丝不动。这就像在不改变图书馆藏书排列的情况下，通过测量每本书籍因重量、纸张厚度差异导致书架产生的微小形变，来识别这个书架的独特“身份”。

本文将详细拆解这一方案的架构设计、核心电路、关键算法以及实测性能。你会发现，它不仅仅是一个学术构想，更是一个在65nm工艺下经过仿真验证，以仅3.4%的额外面积开销，实现了接近理论最优的随机性、唯一性和可靠性的实用方案。对于从事IoT安全、存储计算一体化和芯片设计的工程师来说，这或许能为你打开一扇新的窗。

2. 核心思路拆解：为何是4T2M TCAM？为何要“无损”？

在深入电路细节之前，我们必须先理清两个根本问题：为什么选择4T2M TCAM作为PUF的载体？以及，“无损”读出机制到底解决了什么痛点？这决定了整个方案的技术选型和价值所在。

2.1 传统软PUF的“阿喀琉斯之踵”：数据迁移

让我们先看看传统软PUF（以TCAM为例）的标准操作流程，我称之为“四步舞曲”，如图1所示。这个过程充满了妥协和风险：

数据卸载：在启动PUF模式前，必须将TCAM阵列中所有有效数据页面完整地读取出来，并传输到片外或专用的缓冲存储器中。这一步不仅需要精确的电压偏置和同步时钟域控制，更致命的是，在数据传输路径上，行间耦合噪声可能引发瞬态错误，而明文数据在总线上的传输，为侧信道攻击（如功耗分析、电磁辐射分析）和故障注入攻击敞开了大门。
阵列复位：清空TCAM阵列，通常通过一个全局复位信号将所有存储单元（如MTJ）置为一个已知的、统一的状态（例如低电阻态）。这是为了给PUF响应生成创造一个确定性的初始环境。
响应生成：阵列进入PUF模式。此时，制造过程中固有的、不可克隆的物理变化（如MTJ的随机电阻失配）被激活，并转换成一个原始的、带有噪声的PUF响应R。这个响应随后被送入一个密钥生成模块，通常包含纠错码（ECC）和密码学哈希函数，最终输出一个可作为信任根的密钥K。
数据恢复：这是最脆弱的一环。系统必须将暂存在缓冲区中的原始数据，重新精确地编程回TCAM阵列。磁存储器件的非理想开关特性意味着，单元可能无法被完全或精确地重写，会留下之前状态的残余磁化或电阻痕迹。攻击者可以利用精密的特征提取技术（例如机器学习辅助的微探测），部分甚至完全推断出之前存储的敏感信息或生成的PUF响应，这从根本上动摇了PUF的不可克隆性前提。

这个设计范式在追求安全的同时，引入了多维度的固有开销。硬件上，一个容量足以暂存整个TCAM工作集的缓冲存储器，其晶体管开销相对于核心阵列本身是显著的，直接转化为芯片面积和静态功耗的惩罚。安全上，它非但没有缩小，反而扩大了攻击面。可靠性上，在高速运行或恶劣环境条件下，偏置电压漂移、温度梯度引起的时序抖动以及电源噪声，都会严重劣化数据迁移路径的同步性，增加数据恢复失败的风险。

简而言之，传统方案陷入了一个“为了安全而引入复杂操作，复杂操作本身又成为新的性能瓶颈和安全风险源”的设计悖论。

2.2 破局之钥：4T2M TCAM的固有优势与无损读出

要打破这个僵局，我们必须寻找一个能“就地取材”、无需搬动数据的熵源。基于MRAM的4T2M TCAM单元恰好提供了这种可能性。

一个标准的4T2M TCAM单元包含两个NMOS晶体管（NC, NCB）和两个MTJ，结构对称。这种对称性减少了版图引入的失配，并为两条差分分支提供了可比的寄生条件，有利于在不同操作条件下保持稳定的存储和搜索行为。其核心价值在于：

固有的随机熵源：在制造过程中，两个MTJ的隧道势垒厚度、自由层形状等参数的微观随机波动，会导致它们的实际电阻值（即便是编程到同一逻辑状态）存在无法预测的微小差异。同样，两个NMOS晶体管的阈值电压、迁移率等参数也存在工艺偏差。这些微观的、芯片独有的物理差异，构成了稳定且不可克隆的熵源。
敏感的电压传感机制：TCAM的搜索操作本质是一个模拟电压比较过程。当施加搜索脉冲时，单元内部关键节点（NX）的充电速度，取决于存储数据与搜索数据是否匹配，更微观地说，取决于构成电流路径的晶体管和MTJ的实际电学参数。因此，节点NX的电压瞬态波形，会忠实地“记录”下该单元独有的物理特性。

我们的核心创新在于，将TCAM的一次特殊搜索操作，改造��一次对单元固有物理特性的“无损探针”。具体来说：

我们并不清空阵列数据，而是让阵列保持其原有的“0”、“1”、“X”状态。
设计一种特殊的搜索模式和时序控制，在搜索脉冲施加后的某个特定时刻，对匹配线（ML）的电压进行采样。
由于每个单元固有的电阻/阈值失配，即使存储逻辑值相同，不同单元的NX节点充电速度也不同，导致在同一采样时刻，不同行的ML电压存在微小差异。
通过一个高精度、低失调的电压比较器，将两条选定的ML之间的电压差放大并量化为一个比特的PUF响应（0或1）。

整个过程中，TCAM单元内存储的数据内容完全没有被改变、移动或擦除。我们只是“读取”了由它们物理特性所决定的、一次搜索操作下的电学行为。这彻底消除了对数据缓冲区的需求，也根除了因数据迁移和回写而引入的所有安全漏洞。这种“无损”特性，是本方案区别于以往所有软PUF设计的根本标志。

2.3 双模驱动：当PUF响应与存储数据动态绑定

传统的静态PUF有一个局限：其挑战-响应对（CRP）在芯片生命周期内通常是固定的。而在TCAM作为网络包过滤、规则匹配核心组件的应用场景中，其存储的内容（路由表、访问控制列表）是需要频繁、动态更新的。

我们的架构巧妙地将这一“缺点”转化为“优势”。我们提出了一种双模软PUF设计，其PUF响应与TCAM存储的数据是紧耦合的。一旦TCAM单元的数据被更新，PUF就会以修改后的存储值作为物理参考之一（结合固有的工艺偏差），生成一个新的响应。这意味着，TCAM存储数据的每一次变化，都会动态地扩展一组新的、唯一的CRP。

这种“数据更新-响应重构”的联动机制，赋予了PUF前所未有的灵活性。它不再是芯片上一个静态的、固定的指纹，而是一个能随着系统状态（存储内容）变化而动态演化的“活体”安全标识。这极大地增强了PUF在多场景复用时的安全性，因为攻击者即使获得了某个时间点的CRP，也无法推知数据更新后的新响应。

为了实现这种动态、高效的响应生成，我们需要一个快速算法，能从当前TCAM的数据布局中，智能地筛选出最适合生成PUF响应的行地址。这就是我们提出的双模汉明权重聚类（DM-HWC）算法的用武之地。它利用TCAM天然的并行搜索能力，在一次操作周期内完成两项任务：快速筛选出汉明权重（逻辑“1”的数量）符合目标值的行作为PUF响应生成的物理地址；并对这些行进行并行的全“1”或全“0”匹配操作，通过匹配线电压的变化提供比较信号，同样无需改变存储数据。

3. 架构与电路实现：从单元到系统

理解了“为什么”之后，我们进入“怎么做”的环节。这一部分将深入4T2M TCAM软PUF的电路架构核心，拆解其如何在不破坏数据的前提下，完成从物理失配到数字响应的神奇转换。

3.1 4T2M TCAM单元操作原理回顾

要理解PUF如何工作，必须先透彻理解载体本身。图2展示了4T2M TCAM单元的电路图及其写操作和搜索操作的时序。

写操作：通过字线（WL）电压选通目标单元，在数据线（DL）和互补数据线（DLB）上施加差分编程信号，从而对一对MTJ进行置位（Set，到低电阻平行态P）或复位（Reset，到高电阻反平行态AP）操作，以存储逻辑值“1”、“0”或“X”（通配符）。
搜索操作：这是PUF提取的关键。在搜索数据线（DSL）上施加一个标准幅度的脉冲V_DSL。单元内部节点NX的充电动态会因存储数据与搜索数据是否匹配而产生显著差异。
- 匹配情况：存储值与搜索值一致时，晶体管NC（或NCB）的导通特性会限制节点NX的充电速率，使其电压维持在较低水平。
- 失配情况：存储值与搜索值不一致时，节点NX会被快速充电至较高电压。
- 节点NX的电压会与NMOS晶体管NML的导通阈值V_TH,NML进行实时比较。当NX电压超过V_TH,NML时，NML导通，将匹配线（ML）拉低，表示“失配”；反之，NML关闭，ML保持高电平，表示“匹配”。

这个基于充电动态差异的电压比较机制，是TCAM实现模糊搜索的基础，也为我们提取微小的器件随机性提供了物理基础。

3.2 无损软PUF的整体架构与工作流程

图3展示了整个4T2M TCAM软PUF的系统架构，它由TCAM阵列、行/列译码器、时序控制模块以及核心的量化电路（电压比较器）构成。

其无损PUF响应生成的工作流程可以分解为以下步骤：

挑战映射与行激活：系统首先根据输入的PUF挑战（Challenge），通过DM-HWC算法计算或映射得到目标行地址。行译码器根据该地址激活TCAM阵列中的目标行（即打开该行的字线WL）。至关重要的是，此时阵列中所有单元存储的原始数据（0/1/X）保持原封不动。
差分预偏置：在施加DSL搜索脉冲之前，数据线DL和DLB会被预偏置到一个准备好的差分状态。这一步的目的是在整个阵列中建立一致的初始条件，确保后续搜索过程中观察到的变化主要源于器件本身的特性，而非不稳定的初始电位。
搜索脉冲施加与瞬态采样：DSL脉冲被施加。此时，阵列中所有被激活行的单元开始工作。由于每个单元中MTJ的电阻分布、晶体管阈值电压、迁移率等固有参数存在随机差异，节点NX的电压瞬态波形（上升沿形状、达到特定电平的时间）对每个单元而言都是独特的。时序控制模块会精确地定义在NX电压瞬态过程中的一个采样时刻。选择这个中间时刻很有讲究：太早，信号微弱易受噪声干扰；太晚，电压可能已饱和，失去区分微小差异的分辨率。
匹配线电压生成：在采样时刻，每一行会根据其所有单元的综合效应，产生一个模拟电压值，体现在匹配线ML上。由于工艺偏差，即使两行存储的逻辑内容完全相同，它们的ML电压也可能存在微小的、随机的差异。
行选择与电压比较：一个32选2（对于32x32阵列）的多路选择器，根据挑战到地址的映射，从所有ML中选出两条信号。这两条信号被送入一个交叉耦合锁存器比较器（见图3(b)）。这种比较器利用正反馈机制，能够将微小的输入电压差迅速放大并裁决为一个稳定的数字输出（0或1）。正是这个基于比较器的放大过程，确保了即使是由器件级随机性引起的微小ML偏差，也能被可靠地转换为稳定的数字响应。

整个评估过程中，TCAM中存储的所有内容保持不变，无需数据迁移、缓冲或重新编程。该架构通过利用受控搜索条件下节点NX的瞬态充电特性，结合对称单元设计、差分预置、基于瞬态的评价以及锁存放大，可重复地捕获器件变化。这种原位方法避免了额外的路由活动，减少了数据传输带来的动态能耗，同时将所有与PUF相关的操作保持在TCAM阵列内部，以最小化全局互连上的信号暴露，降低读出过程中泄漏的可能性。

3.3 量化电路：将模拟差异转化为数字比特

电压比较器是整个系统��“裁判官”，其性能直接决定了PUF响应的稳定性和可靠性。我们采用的是交叉耦合锁存器结构的比较器，它本质上是一个高增益、高速度的决策电路。

工作原理：当比较器使能时，正反馈回路迅速将两条输入ML（V1和V2）之间的微小电压差放大。电压稍高的一侧会迅速将输出拉向电源电压，而另一侧则被拉向地，最终输出一个确定的数字“1”或“0”。
设计考量：
- 失调电压：比较器自身的输入失调电压是主要的误差源。它可能淹没掉ML之间微小的、由工艺偏差引起的真实差异。因此，在电路设计中必须采用诸如共质心布局、差分对管尺寸优化等技术来最小化失调。
- 响应速度：PUF响应生成通常对速度有较高要求。锁存器比较器在达到亚稳态后能快速判决，适合这种应用。
- 功耗：由于PUF操作可能频繁进行，比较器的静态和动态功耗都需要精心优化。在我们的设计中，该量化电路仅引入了203个额外晶体管，占整个32x32 TCAM阵列及控制逻辑（总计约5958个晶体管）面积的3.4%，开销极低。

这个精巧的电路设计，使得将微观的物理随机性“放大”为宏观的、可用的数字密钥成为可能。

4. 双模汉明权重聚类（DM-HWC）算法详解

有了可靠的硬件基础，我们需要一个高效的“指挥官”来指挥这场无损的密钥提取行动。DM-HWC算法就是这个指挥官，它的任务是在TCAM存储数据动态变化的情况下，快速、准确地找到最适合生成PUF响应的行地址。

4.1 算法要解决的核心问题

在集成存储与匹配功能的环境中，PUF响应生成需要精确而灵活的地址选择。我们面临一个现实：TCAM的每一行存储的数据模式（0、1、X的分布）是不同的。PUF响应生成通常希望从具有特定“特征”的行中提取，例如，汉明权重（一行中“1”的数量）均匀或符合某种分布的行，能提供更稳定、随机性更好的响应源。

传统的做法是，每次需要时都遍历整个TCAM阵列，逐行计算汉明权重，时间复杂度为O(N^2)（对于NxN阵列）。这在需要实时生成密钥的应用（如每个网络包到达时的身份认证）中是不可接受的。

DM-HWC算法的核心思想是：用一次性的预处理开销，换取后续次次快速的O(1)查询。并且，它创新性地引入了“双模”概念来适应TCAM的三元特性。

4.2 算法原理与步骤拆解

算法分为两个阶段：预处理索引构建阶段和快速查询阶段。

第一阶段：预处理与索引构建这个阶段在TCAM数据写入或更新后执行一次。算法对MxN的TCAM矩阵进行单次遍历，同时维护两个计数器数组count_A和count_B，分别对应两种统计模式：

模式A (X→0)：仅统计明确的“1”。遇到“X”时，count_A不增加（视X为0）。
模式B (X→1)：仅统计明确的“0”。遇到“X”时，count_B不增加（视X为1）。

这样，同一份TCAM内容，通过一次扫描，就得到了两个并行的汉明权重分布图。扫描完一行后，该行的索引i会以count_A[i]和count_B[i]为键，分别插入到哈希表index_A和index_B中。完成此阶段后，我们就建立了从汉明权值到行索引列表的双向映射关系。

第二阶段：快速查询当PUF控制器需要筛选汉明权重等于目标值target的行时，只需根据当前选定的模式（A或B），调用查询函数Query(index_A, target)或Query(index_B, target)。该函数在对应的哈希表中进行一次O(1)复杂度的键值查找，立即返回所有符合条件的候选行索引列表。

算法伪代码示意：

# 输入：TCAM矩阵 (M行 x N列)，元素为 {“0”, “1”, “X”} # 输出：index_A (键: “1”的个数， 值: 行索引列表), index_B (键: “0”的个数， 值: 行索引列表) def DM_HWC_Preprocess(TCAM): count_A = [0] * M count_B = [0] * M index_A = {} index_B = {} for i in range(M): # 遍历每一行 for j in range(N): # 遍历该行每一列 if TCAM[i][j] == "1": count_A[i] += 1 elif TCAM[i][j] == "0": count_B[i] += 1 # 如果是"X"，两个计数器都不增加 # 将该行索引加入哈希表 index_A.setdefault(count_A[i], []).append(i) index_B.setdefault(count_B[i], []).append(i) return index_A, index_B def Query(index_map, target_weight): # O(1) 时间复杂度查询 return index_map.get(target_weight, []).copy()

4.3 性能优化与硬件友好性

为了进一步优化预处理延迟（特别是对于宽行），算法采用了分块查找表策略。将每一行划分为固定大小的块（例如8位），并使用预计算的popcount（人口计数）表。这样，核心的位计数操作从O(N)加速到接近O(N/字长)。例如，对于32位行，可以分成4个8位块，通过4次查表相加得到汉明权重，比32次逐位判断快得多。

该算法的优势非常明显：

高效率：通过单次数据扫描完成双模式统计，消除了对原始数据的冗余遍历。
极速查询：利用哈希表实现O(1)检索，远超传统的顺序或排序搜索方法。
非侵入性与动态更新支持：索引构建仅依赖于读取TCAM值，无需修改，当数据变化时，可以低成本地进行部分更新（只需重新计算受影响行的计数并更新哈希表）。
低开销：算法作为系统控制器上的软件例程运行，所有计数器和哈希表均实现为软件结构，不产生额外的硬件面积开销。

在我们的仿真中，对于一个32x32的TCAM阵列，DM-HWC算法仅需3.23×10⁻⁵秒即可完成地址聚类，相比传统逐位遍历算法所需的2.21×10⁻⁴秒，实现了6.86倍的加速。当阵列规模扩大到256x256时，加速比呈现超线性增长趋势，达到22.20倍。这充分证明了该算法满足TCAM-PUF系统严格的实时性要求。

5. 性能评估与结果分析：数据说话

任何硬件安全方案都不能停留在纸面，必须经受严格的仿真和测试。我们在Cadence Virtuoso平台上，采用65nm CMOS工艺和一个紧凑的STT-MRAM模型，对提出的4T2M TCAM软PUF架构进行了全面的蒙特卡洛仿真。MTJ的关键参数如表1所示。

5.1 随机性：通过最严苛的测试

随机性是PUF的基石。我们使用NIST SP 800-22测试套件对两种操作模式（Case1, Case2）下生成的PUF响应序列进行了严格验证。对于一个长度为25,600比特的响应序列，我们计算了10种不同统计测试的P值，要求显著性水平大于0.01且通过率符合标准。

结果：如表2所示，所有测试项目（包括频率测试、块频率测试、游程测试、非重叠模板匹配测试等）全部通过。这表明PUF的输出在统计上与真正的随机序列无法区分。

为了更直观地展示，我们将PUF响应映射为灰度位图（见图4）。生成的图像呈现出高度无序的视觉特征，没有任何可辨别的模式，从视觉上佐证了熵源的高度不确定性和不可预测性。

5.2 均匀性与自相关性：理想分布的体现

均匀性：高质量PUF要求响应比特中“0”和“1”的分布尽可能均衡，接近50%。如图5所示，我们的PUF响应在两种模式下，“0”和“1”的分布都极其接近50%（例如Case1平均约49.9%/50.1%），表明熵源得到了充分利用，没有明显的偏差。
自相关性：自相关性衡量随机序列在不同时间滞后下与自身的线性相关性。理想情况下，除了零滞后（完全相关），其他滞后的相关系数应接近0。如图6所示，对于25,600个PUF比特，其自相关系数被限制在±0.125%/±0.132%的极窄范围内，证明了PUF响应比特之间具有优异的独立性。

5.3 唯一性与可靠性：芯片的“身份证”与“稳定性”

唯一性和片内可靠性是评估PUF性能的两个核心指标。

唯一性：通过片间汉明��离（Inter-HD）衡量，理想值为50%。如图7所示，我们的设计在重配置前后分别达到了49.9%和50.1%的平均Inter-HD，最差值也达到44.92%/44.04%。这表明不同芯片实例之间具有高度的区分度。
可靠性：通过片内汉明距离（Intra-HD）衡量，理想值为0%。我们的设计在重配置前后的平均Intra-HD仅为0.82%和0.98%。值得注意的是，Inter-HD与Intra-HD的比值分别约为61倍和55倍，这表明设计同时具备了强大的唯一性和卓越的固有可靠性。

5.4 环境鲁棒性：应对温度与电压波动

在实际应用中，芯片需要在各种环境条件下稳定工作。我们进一步评估了PUF在环境变化下的可靠性，结果汇总于图8。

温度稳定性：在0°C到120°C的温度范围内进行测试。比特错误率（BER）随温度升高而增加，在120°C时，两种操作模式下的BER最大值分别为6.2%和4.9%。平均温度敏感性α（ΔBER/ΔT）约为每10°C变化0.71%和0.77% BER。120°C的测试范围覆盖了商业和扩展工业级操作环境的全频谱，这对于MTJ基架构尤为重要，因为120°C的高温会严重考验匹配线的传感裕度。结果表明，固有的电阻失配在整个宽温范围内仍可被检测并保持稳定。
电压稳定性：在0.9V到1.2V的电源电压范围内进行测试。BER表现出与电压的负相关关系，在最小电源电压0.9V时达到峰值7.6%和8.0%。相应的电压敏感性β（ΔBER/ΔV）平均为每0.1V变化4.96%和5.17% BER。

这些数据表明，该PUF设计在典型的工业和消费电子环境条件下具备良好的鲁棒性。对于更高要求的应用，可以结合轻量级的纠错码（ECC）来进一步降低环境波动引起的错误率。

5.5 与同类工作的比较

我们将本方案与近年来的其他代表性MRAM PUF工作进行了比较，如表3所示。

特性/指标	TCE’23 [22]	SCI REP’24 [23]	VLSI’19 [11]	DATE’15 [24]	TCAS-II’24 [25]	本工作
工艺节点	45 nm	28 nm	40 nm	65 nm	28 nm	65 nm
温度范围(℃)	-40~100	-25~100	-45~100	0~100	0~100	0~120
电压范围(V)	0.8~1.2	0.65~0.85	0.9~1.1	0.9~1.1	N/A	0.9~1.2
BER/10℃	1.37%	0.34%	0.40%	0.84%	0.09%	0.71%/0.77%
BER/0.1V	0.2%	1.75%	3.36%	5.92%	N/A	4.96%/5.17%
片间HD	49.99%	49.96%	50.20%	49.62%	49.87%	49.9%/50.1%
面积开销	N/A	N/A	3.9% (行级)	> 125%	>180%	3.4%
支持存储模式	No	No	Yes	Yes	Yes	Yes
需要缓冲存储	-	-	Yes	Yes	Yes	No

核心优势分析：

真正的无损与零缓冲区：本方案通过TCAM阵列内的非破坏性搜索操作直接生成响应，彻底消除了传统方案中必需的专用数据缓冲区。这是与[24], [11], [25]等方案最根本的区别。[24]因破坏性的全局“写1”初始化需要全阵列缓冲区和参考单元，导致>125%的开销；[11]报告了3.9%的逻辑开销，但若要在阵列级别实现非破坏性，则需要SRAM缓冲区，由于6T-SRAM与1T1M-MRAM的面积差异，总开销将飙升至>400%；[25]为保持64位核心单元数据，需要比特级的6T-SRAM缓冲区，导致>180%的开销。
优异的面积效率：在65nm工艺下，32x32实例的核心TCAM阵列和控制逻辑约5958个晶体管，而量化电路仅增加203个晶体管，对应3.4%的极低面积开销。响应生成仅依赖于低功耗的TCAM读操作，避免了缓冲区读写周期带来的动态能耗。
宽温高可靠性：测试范围覆盖0-120°C，优于多数对比工作（0-100°C），证明了其在极端高温压力下的卓越稳定性。同时，其片间汉明距离与专用PUF设计相当，证实了从TCAM单元固有电阻失配中有效提取高质量熵源的能力。
算法加速显著：DM-HWC算法为地址聚类带来了数量级的加速（6.86倍至22.20倍），使其能够满足大规模PUF系统实时密钥生成的需求。

6. 实操考量、潜在挑战与未来方向

尽管仿真结果令人鼓舞，但将这样一个架构从论文走向硅片，乃至最终集成到IoT设备中，还需要跨越不少工程鸿沟。结合我的经验，这里分享一些关键的实操考量和未来可能的研究方向。

6.1 设计实现中的关键考量点

比较器失调电压的校准：这是影响PUF输出稳定性的最关键电路非理想因素。片上工艺偏差会导致比较器固有的输入失调电压，可能高达几十毫伏，这可能会“淹没”掉ML之间由工艺随机性引起的微小差异（可能只有几毫伏）。在实际流片中，必须考虑集成失调校准技术，例如：
- 数字修调：在测试阶段测量并存储每个比较器的失调值，在正常操作时通过数模转换器（DAC）注入补偿电流或电压。
- 动态元件匹配：在系统级别，可以通过随机或轮换选择不同的行对进行比较，来平均化固定模式失调的影响。
- 采用自动归零或斩波稳定技术的比较器架构，但这可能会增加功耗和复杂度。
时序控制的精度与鲁棒性：采样时刻T_ML的选择至关重要。它需要在NX电压的线性上升区，且对工艺角（PVT）变化不敏感。设计时需要：
- 通过蒙特卡洛仿真确定T_ML的最佳窗口。
- 采用片上延迟锁相环（DLL）或数字可调延迟线来生成精确、稳定的采样时钟，以对抗电源电压和温度变化。
- 考虑引入一个参考单元或参考路径来产生自适应的采样时序。
电源噪声抑制：PUF响应生成是一个模拟敏感的电路操作。数字电路（如行/列译码器、控制逻辑）切换时产生的电源噪声，可能会通过衬底耦合或电源网络影响比较器的决策。必须采取严格的电源隔离和去耦措施：
- 为模拟比较器电路使用独立的LDO供电。
- 在芯片布局上，将敏感的模拟部分与嘈杂的数字部分物理隔离，并增加保护环。
- 放置充足的本地位去耦电容。
DM-HWC算法的硬件/软件协同：虽然算法描述为软件例程，但在对延迟极度敏感的应用中，可以考虑用硬件加速器实现其核心的预处理和查询逻辑。一个轻量级的协处理器，集成popcount计算单元和小型片上SRAM用于存储哈希表，可以进一步降低延迟和主处理器负载。

6.2 潜在的安全挑战与应对

机器学习建模攻击：PUF，特别是利用延迟、电压等模拟特性的PUF，可能面临基于机器学习的建模攻击。攻击者如果能够获取足够多的挑战-响应对（CRP），可能训练出一个模型来预测未知挑战的响应。我们的方案由于是“软”PUF且响应与动态存储数据绑定，CRP空间理论上随着TCAM数据更新而指数级扩大，这增加了建模攻击的难度。但仍需在理论上分析其抗建模攻击的能力。
侧信道攻击：尽管消除了数据迁移路径，但PUF响应生成过程中的功耗、电磁辐射或时序信息仍可能泄露秘密。需要确保整个PUF控制逻辑和比较器操作具有恒定的功耗和时序特性，例如采用恒定电流充电、平衡差分路径等设计技术。
老化与漂移：晶体管的阈值电压和MTJ的电阻会随着时间、温度应力和电应力发生漂移（老化）。这可能导致PUF响应随时间发生缓慢变化，影响长期可靠性。需要在设计阶段通过加速老化实验来表征其影响，并在系统层面设计定期的响应刷新或轻量级纠错机制。

6.3 应用扩展与未来方向

与存算一体架构融合：TCAM本身是存算一体（Computing-in-Memory）的重要载体。未来的工作可以探索将PUF响应生成与TCAM的搜索计算任务更深层次地融合。例如，在一次搜索操作中，同时完成模式匹配和身份认证密钥的生成。
多比特响应与密钥封装：目前方案主要生成单比特响应。可以通过同时比较多对ML，或采用更复杂的编码方案，来一次性生成多比特响应，提高吞吐量。生成的原始响应可以用于密钥封装（Key Enclave）协议，为上层应用提供加密服务。
更先进的工艺节点：本研究基于65nm工艺。在更先进的节点（如28nm, 16nm及以下），工艺变异可能更加显著，这或许有利于提高PUF的随机性，但同时也对模拟电路（比较器）的设计提出了更高挑战。探索在FinFET等新器件上的实现将是有价值的方向。
系统级集成与协议设计：最终，这个PUF需要作为一个IP集成到更大的SoC中，并与软件协议栈（如轻量级加密协议、设备认证协议）协同工作。研究如何安全地管理PUF产生的密钥，如何将其用于设备身份标识、安全启动、防克隆等具体安全功能，是走向实际应用的关键。

回过头看，这项工作的最大价值在于它提供了一种**“鱼与熊掌兼得”** 的思路：在不牺牲TCAM原有存储和搜索功能的前提下，以极低的硬件开销，无缝地嵌入了一个高安全性的硬件信任根。它打破了传统软PUF设计中“安全-效率”的权衡困局，为资源极度受限的物联网终端、边缘智能设备提供了一种切实可行的内生安全解决方案。在硬件安全日益成为系统设计基石的今天，这种将安全特性深度融入基础存储单元的设计哲学，或许代表着未来的一个重要趋势。

查看全文

http://www.jsqmd.com/news/896563/