当前位置：首页 > news >正文

RACAM架构解析：DRAM位串行计算突破内存墙

news 2026/6/15 2:47:05

1. RACAM架构设计解析：当DRAM遇上位串行计算

在传统冯·诺依曼架构中，数据搬运已成为制约AI计算性能的主要瓶颈。以GPT-3 175B模型为例，单次推理需要访问超过350GB的权重数据，导致90%以上的时间消耗在数据搬运而非实际计算上。RACAM架构的创新之处在于将计算单元直接嵌入DRAM存储层级，通过三大核心结构重构了内存计算范式：

1.1 位串行计算引擎设计

RACAM采用独特的位串行(bitserial)计算方案，每个处理单元(PE)由以下组件构成：

位并行乘法器：采用AND-OR逻辑树实现，支持1-bit输入的全组合运算
进位保留加法器：3:2压缩器结构，每周期可处理1-bit权重的部分积累加
动态精度控制单元：通过可配置时钟门控实现int2/int4/int8精度切换

与固定位宽设计相比，位串行架构在int4精度下能效比提升2.3倍，关键路径延迟降低40%。其计算过程遵循：

for (int b=0; b<bit_width; b++) { partial_sum += (weight[b] & input[b]) << b; }

1.2 三维层次化存储结构

RACAM在DRAM原有层级上新增了三层计算缓存：

Locality Buffer (LB)：每个子阵列配备16KB SRAM缓存，存储高频使用的权重位平面
Broadcast Unit (BU)：跨bank的数据广播网络，支持单周期128B数据分发
Popcount Reduction (PR)：列向归约单元，可在4周期内完成128x128矩阵的累加

这种设计使得在Llama3-70B的注意力计算中，权重复用距离从传统方案的32B提升至1024B，数据搬运能耗降低78%。

2. 关键技术创新点深度剖析

2.1 位级数据复用机制

传统PIM架构面临的主要挑战是DRAM行激活(PRE/ACT)的高延迟。RACAM通过LB实现：

行缓冲重用：将权重位平面缓存在LB中，避免重复激活同一DRAM行
滑动窗口计算：对输入数据采用stride-1的滑动窗口访问模式，最大化行缓冲利用率

实测数据显示，在2048x2048 GEMM运算中，LB将行激活次数从1.2M次降至48K次，动态功耗降低62%。

2.2 自适应精度计算流水线

RACAM的精度自适应机制包含两大创新：

动态时钟门控：int8模式下启用全部8个计算周期，int2模式仅需2个周期
混合精度调度：
- 注意力层使用int4计算
- 前馈网络层使用int8计算
- 激活函数采用int2近似

在GPT-3推理中，这种混合精度策略在保持模型准确率(±0.3%)的同时，吞吐量提升3.8倍。

3. 硬件实现与工艺优化

3.1 DRAM工艺改造要点

RACAM在标准DDR5接口基础上进行了三项关键改造：

温度稳定晶体管：采用High-k Metal Gate工艺，使计算单元在85℃下的漏电降低47%
行缓冲增强：将Sense Amplifier输出端增加锁存功能，扩展行缓冲保持时间至20ns
电源域隔离：为计算单元配置独立供电网络，峰值电流波动控制在±5%以内

3.2 面积与功耗分析

在TSMC 7nm工艺下，RACAM的硬件开销包括：

面积开销：4.2%的芯片面积增加（主要来自LB和PR单元）
功耗特性：
- 空闲功耗：1.2W（比标准DRAM高0.3W）
- 计算峰值功耗：8.7W（含DRAM基础功耗）

能效比达到58.3 TOPS/W（int4），是H100 GPU的12.6倍。

4. 软件栈与映射优化

4.1 自动映射框架设计

RACAM编译器采用分层映射策略：

全局分块：将大矩阵分解为1024x12288的子矩阵
数据布局优化：采用RNCMK（Row-Nibble-Column-Major-Keep）布局
- 权重矩阵：按列优先存储
- 输入矩阵：按行优先存储
指令调度：计算与数据预取重叠率达92%

映射算法在16核CPU上仅需2-3秒即可完成单GEMM核的最优配置搜索。

4.2 典型内核优化案例

以Llama3的注意力计算为例，优化后的计算流程：

// QK^T计算优化 for (int h=0; h<num_heads; h++) { pim_gemm(q[h], k_transpose[h], output, // 结果直接存回DRAM MAPPING_OPTIMIZED); // 使用预计算映射策略 pim_softmax(output, scaling_factor); }

通过BU单元实现Q矩阵的广播式分发，相比传统PIM架构减少89%的数据搬运。

5. 实测性能与对比分析

5.1 基准测试配置

测试平台参数：

RACAM原型：8通道DDR5-6400，每通道含256个计算子阵列
对比系统：NVIDIA H100 PCIe 80GB
测试模型：GPT-3 175B、Llama3 70B/8B

5.2 性能数据解读

在batch_size=1的推理场景下：

吞吐量对比：
模型 RACAM(tokens/s) H100(tokens/s) 加速比
GPT-3 175B 18.7 0.21 89×
Llama3 70B 42.3 2.7 15.6×
Llama3 8B 156.2 18.4 8.5×
能效比优势：
- int4精度下：46×优于GPU
- int2精度下：83×优于GPU