当前位置：首页 > news >正文

视觉Transformer加速器的低功耗设计与优化策略

news 2026/6/9 6:19:29

1. 视觉Transformer加速器的低功耗设计挑战

视觉Transformer（ViT）近年来在计算机视觉领域展现出强大的特征提取能力，但其计算复杂度和内存需求成为在嵌入式设备中部署的主要障碍。传统ViT模型的计算瓶颈主要集中在自注意力机制（Self-Attention）上，因为其计算复杂度与输入序列长度的平方成正比。然而，在图像分类等视觉任务中，当输入图像被划分为固定数量的patch（如224×224图像被划分为197个16×16的patch）时，前馈网络（FFN）的计算量反而成为主要瓶颈。

通过对DeiT-Small模型的分析发现，FFN模块占据了总计算量的60%以上，其中FFN2（第二个全连接层）的权重存储量尤为庞大。这种计算分布特性使得传统仅优化自注意力机制的加速器设计无法充分提升ViT的整体执行效率。此外，ViT中广泛使用的GELU激活函数因其复杂的数学运算（包含tanh和三次方计算）在硬件实现时会产生显著的功耗和面积开销。

2. 算法-硬件协同设计方法论

2.1 动态令牌剪枝的硬件友好实现

令牌剪枝通过移除对分类贡献较小的图像patch对应的token来降低计算量。传统方法如动态令牌融合需要复杂的控制逻辑来合并不重要token，增加了硬件开销。我们提出基于类token注意力值的轻量级剪枝方案：

重要性评估：利用类token在各注意力头的注意力得分作为重要性指标。对于第h个注意力头，类token的注意力输出为：
```
A(cls)_h = SoftMax((q_cls · K^T)/√d) · V = a(cls)_h · V
```
其中q_cls是类token的查询向量，K是所有token的键矩阵，d是键维度。
全局排序：计算所有注意力头的平均注意力得分a(cls)，保留Top-K个token（K=⌈(N-1)×ρ⌉，N为总token数，ρ为保留比例）。与合并策略不同，我们直接丢弃非Top-K token，避免了融合计算的开销。
硬件优化：采用位操作优化的排序算法，通过索引缓冲器实现token重排序。当处理197个token（DeiT-S）时，该设计仅需K个周期即可完成剪枝决策，比完全并行的比特onic排序器节省75%的逻辑资源。

2.2 激活函数的硬件效率优化

GELU激活函数的硬件不友好性体现在两个方面：一是需要复杂的函数近似电路（LUT或多项式计算），二是产生的激活值稀疏度低。我们通过以下策略将GELU替换为ReLU：

渐进式微调：直接从头训练使用ReLU的模型会导致1.4%的准确率下降。采用分层替换策略：
- 保持预训练模型的GELU权重
- 逐层将GELU替换为ReLU
- 每替换一层后进行2-3个epoch的微调
- 总微调周期控制在35个epoch内
稀疏性提升：如图1所示，ReLU使FFN2层的激活稀疏度从15%提升至62%，大幅减少了后续矩阵乘法的有效计算量。同时，负值截断特性简化了激活电路设计，相比GELU实现节省了83%的功耗。

2.3 FFN2层的动态权重剪枝

FFN2层存在显著的权重冗余，通过分析各层的激活模式，我们提出维度级剪枝方案：

重要性度量：计算每个输出维度对应权重的累计激活值：
```
S_j = Σ_i |a_i · w_ij|
```
其中a_i是第i个输入激活，w_ij是连接第i个输入和第j个输出的权重。
动态阈值：根据网络深度设置分层阈值（浅层1.5，中层1.0，深层0.5），当S_j小于阈值时跳过该维度所有计算。如图2所示，深层网络的剪枝率可达97.6%。
硬件支持：在PE阵列中增加轻量级比较器（占面积<3%），通过全局索引计数器管理有效维度。当处理384维的FFN2层时，该方案减少59.3%的权重读取和对应计算。

3. 硬件架构设计与优化

3.1 整体架构概述

加速器采用层次化设计，主要组件包括：

计算阵列：8组PE（Processing Element）集群，每组包含8×8 MAC单元
存储层次：232KB SRAM分为权重缓冲（128KB）、令牌缓冲（64KB）和临时缓冲（40KB）
控制单元：动态剪枝决策模块和数据流调度器

关键参数：

工艺：TSMC 28nm CMOS
频率：1GHz
量化精度：INT8
峰值算力：1024 GOPS
能效：2.31 TOPS/W

3.2 数据流优化策略

3.2.1 行优先输出导向数据流

针对ViT中不同类型的矩阵乘法设计差异化数据流：

Q/KV生成：采用行优先输出，避免显式转置
- Q生成：输入令牌行优先读取，权重列优先广播
- KV生成：输入令牌列优先读取，权重行优先广播
自注意力计算：
- Q×K^T：将Q作为权重列广播，K行优先读取，输出行优先
- Attn×V：注意力得分行优先读取，V列优先广播
FFN交错计算：
- FFN1计算8列输出后立即进行ReLU和剪枝
- 加载对应8行FFN2权重进行部分和计算
- 循环该过程直到完成所有维度

3.2.2 存储访问优化

通过数据流优化实现：

令牌剪枝减少56.4%的外部内存读取
FFN2剪枝减少59.3%的权重读取
行优先布局消除转置操作，节省23%的SRAM写能耗

3.3 计算单元设计

PE集群采用输出站定架构（Output-Stationary），关键特性：

权重广播：同一列PE共享权重，减少权重读取能耗
并行累加：每周期处理8个输入令牌的8维计算（64权重）
动态剪枝支持：
- 令牌剪枝：通过索引重映射跳过无效token
- FFN2剪枝：比较器阵列实时屏蔽被剪枝维度

4. 实现结果与对比分析

4.1 算法优化效果

在ImageNet-1k上测试DeiT-S模型的优化效果：

优化方法	Top-1准确率	MAC减少	内存访问减少
基线模型	79.80%	-	-
+令牌剪枝(ρ=0.5)	78.50%	54%	56.4%
+ReLU替换	78.36%	3.2%	-
+FFN2剪枝	78.08%	7.6%	59.3%
合计	78.08%	61.5%	22.7%

4.2 硬件实现指标

在28nm工艺下的综合结果：

指标	本设计	FACT[6]	A3[2]
面积(mm²)	1.19	6.03	2.08
功耗(mW)	443.2	337.1	110.4
能效(TOPS/W)	2.31	1.52	1.99
面积效率(GOPS/mm²)	858.6	153.9	105.7
SRAM容量(KB)	232	512	80

4.3 关键创新点总结

计算瓶颈转移：首次系统论证了在短序列ViT中FFN而非自注意力是主要计算瓶颈
联合剪枝策略：动态令牌剪枝与FFN2权重剪枝的协同优化
硬件友好设计：
- 基于ReLU的高稀疏激活
- 无排序的阈值比较式FFN2剪枝
- 行优先数据流消除转置开销

5. 实际部署经验与技巧

在FPGA原型验证中积累的实战经验：

剪枝阈值校准：
- 使用5%验证集样本统计各层激活累积值分布
- 设置阈值使每层剪枝率与理论误差贡献成正比
- 实测表明第4-8层阈值设为1.0平衡效果最佳

数据流调试技巧：

// 行优先数据流的SRAM访问模式示例 always @(posedge clk) begin if (load_row) begin for (i=0; i<8; i=i+1) sram_rd_data[i] <= sram_bank[i][col_addr]; end end

使用8bank SRAM结构匹配PE阵列并行度
交错存储相邻行以避免bank冲突

功耗优化陷阱：
- 避免过度剪枝导致的负载不平衡（某些PE利用率<30%）
- 时钟门控粒度需与剪枝粒度匹配（建议8MAC一组）
- 权重SRAM采用电压域隔离，非活跃bank切至保持模式
精度恢复技巧：
- 对剪枝敏感层（如第1、12层）采用双倍微调epoch
- 保留5%的冗余维度作为剪枝缓冲
- 对Top-K边界token添加0.1的软保留权重