当前位置：首页 > news >正文

存内计算加速3D点云处理：PC2IM架构解析

news 2026/5/10 13:57:51

1. PC2IM：当存内计算遇上3D点云处理

在自动驾驶汽车通过激光雷达感知周围环境时，每秒钟会产生数十万个三维坐标点。这些海量的点云数据（Point Cloud）需要实时处理，但传统GPU方案功耗高达上百瓦，根本无法在车载边缘设备上部署。这正是我们团队设计PC2IM加速器的初衷——通过存内计算（Computing-in-Memory, CIM）技术彻底重构点云神经网络的处理流程。

存内计算的核心思想是将计算单元嵌入存储阵列，打破传统冯·诺依曼架构中"存储-计算"分离带来的数据搬运瓶颈。SRAM-CIM作为当前最成熟的存内计算实现方式，在40nm工艺下就能实现2.5TOPS/W的能效，这比传统数字逻辑电路高出1-2个数量级。但现有SRAM-CIM方案在处理3D点云时面临两大挑战：

点云预处理阶段（如最远点采样）需要频繁访问片上缓存，占整体能耗的41%
特征计算阶段的多层感知机（MLP）需要16bit高精度计算，导致传统位串行CIM的延迟激增

2. 架构设计：从算法近似到硬件协同

2.1 近似距离计算的硬件实现

传统点云网络使用欧式距离（L2）进行最远点采样，其计算公式为：

L2 = \sqrt{(x-x_r)^2 + (y-y_r)^2 + (z-z_r)^2}

这需要三个乘法器和一个开方运算，在硬件实现时会产生两大问题：

乘法操作会扩展数据位宽（如16bit坐标经平方后变为32bit）
动态中间结果需要暂存，增加临时存储开销

我们提出用曼哈顿距离（L1）近似替代：

L1 = |x-x_r| + |y-y_r| + |z-z_r|

在ModelNet40数据集上的实验表明，当查询半径缩放1.6倍时，准确率损失小于2%。对应的硬件实现采用图1所示的APD-CIM阵列：

该阵列包含4个点群（PTG），每个PTG包含：

16个点簇（PTC），每个PTC集成：
- 标准6T SRAM单元（存储32个点坐标）
- 动态逻辑感放（Dynamic Logic Sense Amplifier）
- 近内存计算单元（Near-Memory Unit）
绝对值累加器（ABSAcc）

工作时，参考点坐标通过字线（WL）并行读取到寄存器，查询点坐标通过位线（BL）输入。动态逻辑感放将减法运算转换为NAND/OR操作，近内存单元完成累加，最终输出19bit的L1距离。相比传统数字电路实现，能效提升8.9倍。

2.2 两级乒乓MAX-CAM设计

最远点采样需要持续更新并比较点集距离，传统实现方式如图2(a)所示：

从片上缓存读取临时距离（TD）
数字比较器找出最大值
更新TD寄存器
重复直到遍历所有点

这种方案导致大量片上数据搬运，占预处理阶段58%的能耗。我们创新的Ping-Pong-MAX CAM结构（图2b）将比较操作移至存储体内完成：

关键技术突破：

单元级乒乓：每个CAM单元存储一对距离值（Upper/Lower TD），通过本地选择器动态配置比较模式
波纹比较：预充电的比较线（LL）从首单元传播到尾单元，自动标记最大值位置
阵列级乒乓：双CAM阵列交替执行加载和搜索操作，实现流水线并行

实测显示，该结构将临时距离更新的能耗降低97%，使整个预处理模块能效提升3.7倍。

3. 分块拼接式特征计算引擎

3.1 高精度MLP的存内计算困境

传统位串行SRAM-CIM（BS-CIM）每个周期处理1bit输入，完成16bit乘法需要16个周期。若改用位并行方案，又会导致：

乘法器面积增加16倍
加法器位宽从16bit扩展到32bit
布线拥塞加剧

3.2 SC-CIM的创新设计

我们的解决方案（图3）包含三大关键技术：

输入交错拆分：
- 将16bit输入拆分为4个4bit簇（如输入1011 1101 1111 0000 → 簇1:1_1_1_0, 簇2:0_1_1_0,...）
- 相邻簇位权相差2⁴（而非2¹），减少进位传播
权重块拆分：
- 每组64个4bit权重块共享加法树
- 相邻块A/B通过融合加法器（FuA）预计算A+B
稀疏-稠密混合累加：
- 稠密部分：17bit（16+符号位）常规累加
- 稀疏部分：4bit进位专用通路

这种结构在40nm工艺下实现：