可重构空间阵列:5G/6G无线通信的算力革新
1. 可重构空间阵列:下一代无线通信的算力引擎
在5G向6G演进的过程中,大规模MIMO(Massive MIMO)技术正面临两个看似矛盾的核心需求:一方面需要支持1024天线以上的超大规模阵列以提升频谱效率,另一方面又需要硬件具备动态频谱共享、干扰消除等敏捷的频谱适应能力。传统ASIC专用芯片虽然能效优异但缺乏灵活性,而通用处理器又难以满足实时性要求。纽约大学研究团队提出的可重构空间阵列架构,通过创新的脉动阵列设计,在32nm工艺下实现了127GOPS的吞吐性能,同时支持FIR滤波、矩阵运算等六类无线核心算法。
这种架构的核心在于将机器学习加速器中成熟的脉动阵列概念进行领域适配改造。每个处理单元(PE)包含乘法器、加法器和寄存器缓冲,支持累加和逐元素两种工作模式。通过精心设计的数据流控制,同一硬件可以像乐高积木一样重组为不同计算形态。实测数据显示,在矩阵乘法等计算密集型任务中,其能效比甚至超过专用HLS实现,而面积开销仅增加约15%。这为基站设备商提供了极具吸引力的折衷方案。
2. 架构设计精要:当脉动阵列遇见无线信号处理
2.1 基础结构:三维数据流的艺术
该空间阵列采用8×8的PE矩阵布局,每个PE包含:
- 16位定点乘法器(支持复数运算)
- 32位累加器
- 64字节寄存器文件(可缓存4个权重块)
- 多路数据选择器
创新的"重量静止"数据流设计允许权重通过顶部SRAM预加载到PE阵列,而输入数据则从左侧SRAM流入。这种安排特别适合无线处理中的重复权重场景(如波束成形权重)。输出结果从底部流出时,专门的累加器行完成最终聚合。图1所示的SRAM连接拓扑支持从上下左右四个方向注入数据,为不同算法提供灵活的数据供给路径。
2.2 两种关键工作模式解析
累加模式: 典型应用于FIR滤波和矩阵乘法。PE将输入数据与存储的权重相乘后,结果沿对角线传播并逐级累加。例如在1024阶FIR滤波中,每个时钟周期可以完成64个抽头的并行计算,通过时间复用处理全部抽头。
逐元素模式: 用于向量幅度平方等逐点运算。PE直接输出乘法结果,通过寄存器网络实现数据路由。实测在1024点复数向量幅度计算中仅需128个周期,吞吐量达64GOPS。
关键洞见:复数运算反而展现出更高效率。因为复数乘需要4个实数乘加操作,给数据路由留出了更多时钟余量,意外缓解了内存带宽瓶颈。
3. 核心算法映射实战
3.1 矩阵运算的极致优化
对于1024×16与16×16的复数矩阵乘法:
- 将大矩阵分解为16×16的块
- 权重块从顶部SRAM加载到PE寄存器
- 输入块从左SRAM流式输入
- 每个PE同时计算1个输出元素的部分和
- 通过6级流水实现96%的利用率
实测性能达到127.28GOPS,比等效HLS实现快2.4倍。这得益于阵列内部高达64个乘法器的完全并行,以及权重数据的智能复用。
3.2 FIR滤波的时空调度
32抽头实数FIR的硬件映射策略:
PE[0,0]计算h[0]*x[n], PE[1,0]计算h[1]*x[n-1]... PE[0,1]计算h[0]*x[n+64], PE[1,1]计算h[1]*x[n+63]...通过空间展开和时间流水,每个周期能完成64个乘加操作。虽然理论峰值利用率仅48.27%,但通过重叠数据传输与计算,实际吞吐仍达61.79GOPS。
4. 性能对比与工程启示
4.1 与专用硬件的关键指标对比(32nm工艺)
| 指标 | 空间阵列 | HLS专用核 | 优势场景 |
|---|---|---|---|
| 矩阵乘吞吐 | 127GOPS | 32GOPS | >16天线MIMO |
| FIR滤波时延 | 464周期 | 2150周期 | 短突发数据 |
| 面积效率 | 125GOPS/mm² | 158GOPS/mm² | 轻量级运算 |
| 功耗效率 | 0.66GOPS/mW | 0.85GOPS/mW | 能效敏感场景 |
4.2 实际部署的工程考量
内存带宽规划: 顶部SRAM需配置双端口(2读/周期),左侧单端口(1读/周期)。对于1024天线16流配置,建议最小带宽为256GB/s。
功耗管理技巧:
- 空闲PE时钟门控
- 动态电压频率调节(DVFS)应对突发流量
- 按需激活阵列子区域
混合架构建议: 将空间阵列与少量专用核(如FFT处理器)集成,对95%的典型任务用可重构阵列处理,剩余5%特殊操作交给专用单元。
5. 常见问题与调试实录
5.1 典型性能瓶颈排查
现象:实测吞吐仅为理论值30%
- 检查点1:SRAM访问冲突计数器
- 检查点2:PE利用率热力图
- 解决方案:重构数据流,将权重预加载周期与计算周期重叠
现象:复数运算结果异常
- 调试步骤:
- 验证实数模式下的基础功能
- 检查复数乘法器的进位链时序
- 测试IQ通道的交叉干扰
5.2 设计迭代中的经验教训
- 教训1:初期未考虑寄存器文件深度,导致权重重复加载开销过大。最终将寄存器容量从32字节扩展到64字节,使矩阵乘性能提升23%。
- 教训2:原始设计仅支持累加模式,后增加逐元素路由网络,使向量运算效率提升4倍。
- 技巧:在RTL中嵌入性能计数器,实时监测PE利用率、SRAM冲突等关键指标。
6. 未来演进方向
虽然当前架构在1024天线场景已展现优势,但面向6G的万级天线需求还需突破:
- 层次化扩展:采用"芯片内阵列+芯片间互连"的模块化设计
- 近似计算:针对信道估计等容错场景引入可配置精度乘法器
- 3D集成:通过硅通孔(TSV)实现存储与计算的垂直堆叠
实测数据显示,当处理外积等内存密集型运算时,现有架构仍受限于片外带宽。我们正在探索将HBM2E内存与计算阵列直接集成的解决方案,初步仿真显示可将256×256复数外积的时延从65,572周期降低到16,384周期。
这种可重构架构的真正价值在于其"未来验证"能力——通过软件重新配置而非硬件改造,就能适应尚未标准化的6G物理层算法。当我们在原型系统上成功运行了正在标准化的RIS(智能反射面)控制算法时,验证了这种灵活性的实际价值。对于基站开发商而言,这意味着可以用同一硬件平台支持多代通信标准,大幅降低产品迭代成本。
