当前位置：首页 > news >正文

DRAM内存计算技术PUDTune：原理、优化与应用

news 2026/7/18 12:16:34

在传统冯·诺依曼架构中，数据需要在处理器和内存之间频繁搬运，这种"内存墙"问题已成为制约计算性能提升的主要瓶颈。内存计算（In-Memory Computing）技术通过直接在存储介质中执行计算操作，有效减少了数据搬运开销。其中，基于DRAM的内存计算因其高密度、低成本特性而备受关注。

DRAM（动态随机存取存储器）作为现代计算机系统的主要内存，其基本存储单元由一个晶体管和一个电容组成。电容存储电荷代表数据位（1或0），而晶体管作为开关控制访问。DRAM的层级结构包括：

Processing-Using-DRAM（PUD）技术利用商用DRAM的模拟特性实现内存计算，无需硬件修改。其核心是三种基本操作：

多数表决（MAJX）是PUD的基础运算单元，用于判断X个输入中1或0占多数。以MAJ5（5输入多数表决）为例，其标准实现流程为：

这种运算可构建AND/OR逻辑门和全加器等基本计算单元，进而实现更复杂的矩阵运算。

DRAM感应放大器（Sense Amplifier）的阈值电压变异是导致计算误差的主要原因。理想情况下，感应放大器应在0.5VDD电压处判断1/0，但工艺变异会导致实际阈值偏移（如0.48VDD或0.53VDD）。

在标准DRAM读取中，30fF单元电容与270fF位线共享电荷产生的电压差（约0.55VDD）足以克服这种变异。但在PUD的MAJ5运算中，多单元电荷共享会使有效电压差降至约0.529VDD，处于误差敏感区间。

传统应对方案是仅使用无错误列进行计算，但这会显著降低吞吐量。实验数据显示，SK海力士DDR4模块中约50%的列对MAJ5运算敏感，导致计算吞吐量减半。

另一种思路是增加中性行数量以扩大电压差，但这会占用更多DRAM行资源，降低存储密度。在8行SiMRA配置下，仅有3行可用于中性数据，限制了调整空间。

PUDTune的创新在于利用Frac操作产生的多级电荷状态实现高精度校准。通过为每列配置特定的偏移模式，可补偿感应放大器的阈值电压变异。

关键技术突破点包括：

PUDTune采用迭代算法确定每列的最佳校准模式：

初始化所有列的校准数据为默认模式
对每个测试迭代：
- 将当前校准数据写入DRAM
- 执行MAJX采样测试（使用随机输入模式）
- 计算每列的输出偏差（1的比例）
- 对偏差超过阈值的列调整其Frac配置
经过约20次迭代后收敛到稳定解

该算法在实践中约需1分钟/子阵列的校准时间，校准数据可长期保存复用。

PUDTune的实际部署需要考虑以下组件：

PUDTune在时序控制方面做出以下改进：

实验数据显示，T2,1,0配置相比基线方案仅增加约15%的操作延迟，但带来显著的可靠性提升。

评估平台采用以下配置：

错误列比例（ECR）：
- 基线方案（B3,0,0）：46.6%
- PUDTune（T2,1,0）：3.3%
- 改进幅度：1.81倍
计算吞吐量：
- MAJ5运算：从0.89 TOPS提升至1.62 TOPS
- 8位加法：从50.2 GOPS提升至94.6 GOPS
- 8位乘法：从5.8 GOPS提升至11.0 GOPS