当前位置：首页 > news >正文

CADC技术：基于树突卷积的内存计算优化方案

news 2026/6/30 21:47:50

1. 交叉杆感知树突卷积（CADC）技术解析

在当今AI计算领域，内存计算（IMC）架构正成为突破传统冯·诺依曼瓶颈的关键技术。传统卷积神经网络（CNN）在基于交叉杆（Crossbar）的IMC架构上运行时，面临着一个根本性矛盾：现代CNN模型的卷积核尺寸越来越大，而物理交叉杆的尺寸却受制造工艺限制。这种矛盾导致大型卷积层必须被分割到多个交叉杆上计算，产生大量需要中间缓存和传输的部分和（psum），最终消耗了系统近一半的能耗。

1.1 传统IMC架构的psum困境

在标准SRAM IMC加速器上运行VGG8网络时，psum相关操作消耗了总能量的48%。这些开销主要来自三个方面：

频繁的缓冲读写操作（占psum能耗的52.1%）
跨交叉杆、缓冲区和累加器的数据传输（31.9%）
复杂的累加操作（14.6%）

以VGG8的第6个卷积层（8bit权重）为例，当使用256×256交叉杆时，psum数量比不分区情况增加144倍；使用64×64交叉杆时，这个数字更是达到惊人的567倍。这种指数级增长的psum直接导致了系统性能瓶颈。

1.2 生物神经元的启发

自然界中的生物神经元通过树突结构实现了高效的信息处理。与人工神经网络不同，生物神经元中：

树突会对输入信号进行非线性预处理
各树突分支独立处理局部感受野
只有经过筛选的信号才会传递到胞体（soma）

这种"先过滤后累积"的机制，使得生物神经网络在保持高效的同时，能够处理复杂信息。受此启发，香港城市大学团队提出了交叉杆感知树突卷积（CADC）技术，将生物树突的计算原理引入到IMC架构中。

2. CADC核心技术原理

2.1 基本架构设计

CADC的核心创新是在每个交叉杆的输出端嵌入一个非线性树突函数f()。这个函数会先将负值psum归零，再进行后续累加。从数学上看，传统卷积（vConv）的输出可表示为：

y[k] = \sum_s \sum_i (w_s[i,k] \cdot x_s[i])

而CADC将其改造为：

y[k] = \sum_s w_k[s] \cdot f\left(\sum_i (w_s[i,k] \cdot x_s[i])\right)

其中f()定义为：

f(x) = 0 （当x ≤ 0时）
f(x) = g(x) （当x > 0时）

g(x)可以是ReLU、tanh、平方根等非线性函数。实验表明，对于传统CNN，ReLU效果最佳；而对脉冲神经网络（SNN），平方根函数更优。

2.2 稀疏性创造机制

以一个64×3×3×64的卷积核为例，当使用64×64交叉杆时：

原始卷积需要9个交叉杆并行计算
每个交叉杆产生8bit psum
传统方法需要缓冲和传输所有9个psum（共72bit）
CADC通过f()将负值psum归零，平均保留3个非零psum
配合9bit的零值掩码，最终只需33bit存储（压缩率2.2×）
累加操作从8次减少到2次（效率提升4×）

这种设计在多个基准测试中表现出色：

LeNet-5（MNIST）：psum减少80%
ResNet-18（CIFAR-10）：psum减少54%
VGG-16（CIFAR-100）：psum减少66%
SNN（DVS Gesture）：psum减少88%

3. 硬件实现细节

3.1 双9T SRAM存储单元

CADC采用创新的双9T SRAM存储单元设计，关键特性包括：

面积仅3.6μm×1.9μm（65nm工艺）
支持三值权重存储（-1,0,+1）
解耦的读路径由6个NMOS晶体管组成
通过RWLN/RWLP实现有符号输入
差分读位线（RBLL/RBLR）输出乘法结果

存储状态与读操作关系：

权重状态	VL电压	VR电压	正输入效果	负输入效果
+1	高	低	RBLR放电	RBLL放电
0	低	低	无放电	无放电
-1	低	高	RBLL放电	RBLR放电

3.2 内存计算ADC设计

传统IMC架构需要额外的2^n个校准单元来生成ADC参考电压。CADC的创新之处在于：

利用双9T单元的负输入路径生成初始电压Vinit
正输入路径产生斜坡参考信号
当MAC输出≤0时，比较器自动输出0（实现ReLU）
可配置非线性模式支持√x、x²等函数

这种设计使ADC面积占比从常规的57%降至14.9%，同时支持1-5bit可配置精度。在65nm工艺下，整个256×256宏单元仅占0.5mm²，能效达725.4 TOPS/W。

4. 性能优势与实测结果

4.1 精度表现

在不同网络和交叉杆尺寸下，CADC展现出优异的精度保持能力：

网络	数据集	基线精度	CADC精度变化范围	最佳交叉杆尺寸
LeNet-5	MNIST	99.04%	+0.11% ~ +0.19%	128×128
ResNet-18	CIFAR-10	93.41%	-0.04% ~ -0.27%	256×256
VGG-16	CIFAR-100	72.28%	+0.99% ~ +1.60%	256×256
SNN	DVS Gesture	91.48%	-0.57% ~ +1.32%	128×128