当前位置：首页 > news >正文

超低功耗语音识别加速器：SNN与硬件协同设计

news 2026/7/18 0:28:02

1. 项目概述

在边缘计算和物联网设备蓬勃发展的今天，超低功耗语音识别技术正成为人机交互的关键突破口。传统基于人工神经网络(ANN)的语音识别方案虽然性能优异，但其多比特乘加运算(MAC)带来的高功耗问题始终制约着在资源受限设备上的部署。这项研究通过算法与硬件的协同创新，提出了一种基于脉冲神经网络(SNN)的超低功耗语音识别加速器设计方案。

该设计的核心创新在于构建了一个仅需1-2个时间步的紧凑型递归脉冲神经网络(RSNN)架构。通过混合级剪枝和4位定点量化技术，将原始2.79MB的模型压缩96.42%至0.1MB；在硬件层面，采用并行时间步执行、权重共享、零跳过和脉冲合并等优化策略，将计算复杂度降低90.49%至13.86 MMAC/S。最终在TSMC 28nm工艺下实现71.2µW的超低功耗，支持100kHz实时语音处理，能效比达到28.41 TOPS/W。

提示：SNN与传统ANN的本质区别在于其采用脉冲信号传递信息，只有当膜电位超过阈值时才产生1比特的脉冲事件，这种事件驱动的特性天然具有极高的计算稀疏性。

2. 算法架构设计解析

2.1 递归脉冲神经网络模型

研究团队设计的RSNN模型包含两个递归层和一个全连接层，其核心数学表达基于泄漏积分发放(LIF)神经元模型。与传统RNN的连续值计算不同，RSNN的隐藏状态h[t][ts]由以下方程决定：

h[t][ts] = LIF(x[t][ts]Wx + h[t-1][ts]Wh)

其中LIF操作包含三个关键步骤：

膜电位更新：U[t][ts] = 输入刺激 + β×U[t][ts-1]×(1-脉冲输出)
阈值比较：若U[t][ts] ≥ Vth则输出脉冲1，否则为0
膜电位重置：发放脉冲后膜电位归零

这种脉冲编码方式带来两大优势：

单比特脉冲计算：将多比特MAC运算简化为1比特逻辑运算
事件驱动特性：仅当输入足够强时才触发计算，平均激活率可低至30-40%

2.2 模型压缩技术

为实现极致的能效比，研究团队采用了三级模型压缩策略：

2.2.1 混合级剪枝

结构化剪枝：通过通道宽度缩减，将递归层维度从256降至128
- 采用渐进式剪枝策略，每次减少20%通道直至目标尺寸
- 保持全连接层维度不变(1920)以确保解码精度
非结构化剪枝：对全连接层进行细粒度权重剪枝
- 使用幅度剪枝法，移除绝对值最小的40%权重
- 采用迭代剪枝-微调流程，共进行5轮剪枝

2.2.2 4位定点量化

权重量化：采用对称均匀量化，动态范围[-1,1]
激活量化：脉冲信号天然1比特，膜电位采用8位表示
训练技巧：使用直通估计器(STE)解决量化梯度传播问题

表1展示了压缩前后模型参数对比：

压缩阶段	参数量	存储需求	PER(%)
原始模型	698K	2.79MB	22.2
结构化剪枝	300K	1.20MB	22.4
非结构化剪枝	202K	0.81MB	22.5
4位量化	202K	0.10MB	22.6

2.3 时间步优化

传统SNN需要数十个时间步来保证精度，本研究通过两项创新将时间步缩减至1-2个：

可学习参数：将阈值Vth和衰减因子β设为可训练参数
固有时间训练：先训练高时间步(如8步)模型，再逐步蒸馏到低时间步

实验显示，从8步降到2步仅使PER增加0.3%，而计算复杂度降低75%。这种优化对边缘设备至关重要，因为时间步数与功耗呈线性关系。

3. 硬件架构创新

3.1 整体架构设计

加速器采用如图1所示的并行处理架构，核心组件包括：

双PE阵列：2组128并行PE，支持时间步并行
层次化存储：150KB SRAM分布为：
- 输入缓冲(48×8b)
- 递归层权重缓冲(48×512b + 2×192×512b)
- FC层权重缓冲(2×960×512b)
可重构数据通路：支持四种运算模式

3.2 关键优化技术

3.2.1 并行时间步执行

权重共享机制：相同权重仅需读取一次，供两个时间步PE阵列共用
数据依赖处理：通过专用寄存器保存中间膜电位状态
能效提升：实测权重访问能耗降低53%

3.2.2 脉冲合并技术

针对全连接层的创新设计：

对两个时间步的脉冲输入进行位与(AND)和位或(OR)操作
OR结果决定是否跳过零计算
AND结果控制权重左移(×2)或保持原值

// 硬件实现示例 assign merge_spike = spike_ts1 | spike_ts2; assign shift_en = spike_ts1 & spike_ts2; always @(posedge clk) begin if(merge_spike != 0) begin acc <= acc + (shift_en ? weight<<1 : weight); end end