当前位置：首页 > news >正文

PRIMAL架构：存内计算助力大语言模型高效适配

news 2026/7/4 2:58:48

1. PRIMAL架构设计背景与核心创新

在当今大语言模型（LLM）应用爆发的时代，模型适配（Adaptation）已成为部署过程中的关键瓶颈。传统全参数微调需要消耗大量计算资源，而低秩适配（LoRA）技术通过引入可训练的低秩矩阵，仅需调整少量参数即可实现任务特定适配。然而，现有GPU架构在处理LoRA时面临两个根本性挑战：一是频繁的权重更新导致存储墙问题加剧，二是静态计算架构难以适应动态适配需求。

PRIMAL的创新之处在于采用存内计算（PIM）范式重构硬件架构。其核心设计包含三个关键突破：

异构存内计算单元协同：RRAM-ACIM（阻变存储器-模拟存内计算）用于存储冻结的预训练权重，利用RRAM的高密度和非易失特性；SRAM-DCIM（静态存储器-数字存内计算）专为LoRA矩阵设计，支持快速数字重配置。实测数据显示，这种异构组合相比纯数字方案可降低89%的静态功耗（见表IV）。
动态电源门控技术（SRPG）：LLM推理具有严格的层间顺序依赖性，当某层计算时其他层处于空闲状态。PRIMAL通过计算瓦片（CT）级的精细粒度电源管理，对空闲CT的RRAM和互连网络进行门控，仅保持SRAM供电以维持LoRA权重。这种设计使得系统功耗随模型规模呈次线性增长，在Llama-13B上实现80%的功耗节省。
数据流-计算映射协同优化：通过2D-Mesh互连网络（IPCN）实现计算与通信的解耦。如图4所示，权重矩阵采用启发式空间映射策略，将Q/K/V/O矩阵约束为列向矩形区域，中间数据则存放在对应PE的邻近暂存器中。这种协同定位策略使Llama-13B的通信开销降低至H100的1/7。

提示：存内计算架构特别适合处理LLM中的注意力机制，因为QKV投影和注意力得分计算都涉及大量矩阵-向量操作，而PIM可以直接在存储单元完成乘累加运算，避免数据搬运。

2. 硬件架构深度解析

2.1 计算瓦片（CT）组织结构

每个计算瓦片包含1024个处理单元（PE），以32×32的IPCN互连构成2D-Mesh网络。图2展示的PE采用"路由器+存储体"的紧耦合设计，关键组件包括：

RRAM-ACIM宏：采用256×256交叉阵列，通过模拟域电流叠加实现并行MAC运算。利用RRAM的阈值特性，每个单元可存储4-bit权重，模数转换器（ADC）采用逐次逼近型设计，在7nm工艺下实现120μW@1GHz的超低功耗（见表IV）。
SRAM-DCIM宏：设计为256×64的数字计算阵列，使用标准6T SRAM单元配合进位保留加法器树。虽然数字计算能效比低于模拟方案，但其支持周期精确的权重更新，LoRA矩阵重配置延迟仅需12个时钟周期。
计算路由器：集成6个AXI-Stream接口和16个DMAC单元，支持四种工作模式：
1. 广播模式：分发输入嵌入到所有PE
2. 归约模式：聚合部分和结果
3. 单播模式：执行Q·K^T点积
4. 配置模式：更新SRAM权重

2.2 低秩适配硬件支持机制

LoRA在硬件层面的实现面临动态性与精度平衡的挑战。PRIMAL采用分层设计策略：

精度保障：对预训练权重使用4-bit量化，LoRA增量则保持8-bit精度。通过实验发现，这种混合精度配置在Llama-13B上仅导致0.3%的准确率下降，却节省了63%的SRAM存储开销。
流水化更新：如图5所示，SRPG机制将LoRA重配置与计算操作流水化。当CT_n执行第n层计算时，CT_{n+1}的SRAM已在后台更新下一层的LoRA权重。时间测量显示，这种重叠操作使TTFT（首词延迟）缩短了42%。
稀疏化支持：IPCN指令集包含特殊的掩码寄存器，可跳过全零的LoRA块。实测中，约35%的LoRA增量矩阵稀疏度超过70%，利用此特性可提升17%的吞吐量。

3. 软件映射与性能优化

3.1 权重矩阵空间映射算法

PRIMAL的映射优化围绕三个维度展开（见图4）：

矩阵内形状：将W_Q/W_K/W_V矩阵划分为32×32的块，每个块正好匹配PE的RRAM阵列尺寸。通过遗传算法搜索最优分块，使通信跳数最小化。
矩阵间形状：约束Q/K/V矩阵在Mesh网络中的相对位置，确保注意力得分计算时的数据局部性。例如将W_Q和W_K映射到相邻列，使Q·K^T计算只需水平通信。
行列顺序：采用Z型曲线排列PE，使高频访问的中间结果（如注意力得分）始终位于网络中心位置。这种排列使Llama-13B的最大跳数从62降至41。

3.2 KV缓存管理策略

针对自回归生成的长上下文场景，PRIMAL采用分布式循环缓存方案：

预分配策略：在预填充阶段（Prefill）就将K/V向量均匀分布到所有CT的暂存器，每个CT负责固定长度的上下文片段。例如2048长度的上下文会被分成64个32-token的块。
动态更新机制：新生成的K/V通过环形缓冲区指针追加，当指针到达CT边界时自动回绕。指针信息由NMC（网络主控制器）集中维护，确保解码阶段各CT能同步更新。
冲突避免：采用Bank级交错存储，将相邻token的K/V值分散到不同存储体。实测显示，这种设计在2048长度上下文下可实现96%的存储带宽利用率。

4. 实测性能与对比分析

4.1 能效与吞吐量基准测试

在LoRA rank=8（Q,V）配置下，PRIMAL与H100的对比数据令人瞩目（见表II）：

能效比：Llama-13B达到9.85 tokens/J，是H100（0.4 tokens/J）的24.6倍。这主要得益于：1）存内计算消除数据搬运 2）SRPG节省空闲功耗 3）模拟计算的高能效特性。
吞吐量：在2048上下文长度下达到145.4 tokens/s，超出H100 1.5倍。值得注意的是，随着batch size增大，PRIMAL的优势更加明显——batch=8时优势扩大至2.3倍，说明其并行架构更具扩展性。
延迟特性：TTFT主要由首层计算决定（见图6），因为后续层的LoRA配置已被流水化隐藏。Llama-13B的TTFT为2.533秒，与H100相当，但ITL（词间延迟）优化更显著，从H100的15.2ms降至12.5ms。

4.2 硬件开销分析

表IV揭示了有趣的工程权衡：

面积分布：RRAM-ACIM占PE面积的65.2%，主要来自ADC/DAC和模拟布线。但相比纯数字方案，其单位面积算力密度提升8.7倍。
功耗特性：SRAM-DCIM虽然面积占比仅15.8%，却贡献了78.1%的功耗。这是因为数字逻辑的开关活动因子远高于模拟电路，这也解释了为什么需要激进的门控策略。
工艺缩放：在5nm节点下仿真显示，RRAM的模拟特性使其缩放优势更明显——能效比预计可再提升2.1倍，而SRAM部分受限于阈值电压只能提升1.3倍。

5. 实际部署考量与优化建议

在边缘设备部署PRIMAL时，我们总结了以下经验：

温度管理：RRAM的电阻态对温度敏感，实验显示温度每升高10°C，ADC偏移会增加0.3LSB。建议：
- 在attention层之后插入温度传感器
- 动态调整PE的激活数量以控制热密度
- 对关键路径的RRAM阵列采用局部散热片
LoRA切换优化：频繁的任务切换会导致SRAM重配置开销，实测发现：
- 预热缓存：提前加载下个任务的LoRA权重到空闲CT
- 权重压缩：对LoRA矩阵采用块稀疏编码，平均可减少29%的配置时间
- 上下文保存：将KV缓存与LoRA权重绑定存储，避免重复计算
混合精度策略：
- 对embeddings层保持FP16精度
- 中间层使用8-bit LoRA + 4-bit基模型
- 输出层恢复FP16避免累积误差这种配置在Llama-13B上实现了精度损失<1%的同时，能效再提升1.8倍。