当前位置：首页 > news >正文

【论文精读（十三）】点云中卷积的“诸神之战”——大总结

news 2026/3/26 20:59:33

点云中的卷积大总结：PointCNN, PointConv, RSCNN, PAConv, KPConv, KPConvX

博主导读：
关于点云卷积具体论文的讲解在本专栏其他博客中已基本完成，现做一个总结。
本文将带你盘点点云卷积领域的六大里程碑，并一览各种流派的优劣。

1. 为什么点云卷积这么难？

2D 卷积之所以好用，是因为图像像素排列在规则的网格（Grid）上。左上角的像素一定对应卷积核的W 0 , 0 W_{0,0}W0,0。

但 3D 点云具备以下特性，使得卷积定义变得异常困难：

无序性 (Unordered)：点的存储顺序不代表空间位置，输入[ A , B , C ] [A, B, C][A,B,C]和[ C , A , B ] [C, A, B][C,A,B]应当代表同一个物体。
非均匀性 (Irregular)：有的地方密（如激光雷达近处），有的地方疏（如远处），密度不一致。
非结构化 (Unstructured)：没有固定的网格邻居。

因此，所有点云卷积的核心使命，就是找到一种方法，把离散、无序的邻居点，映射到固定的卷积核权重上。

2. 五大经典卷积流派详解

① PointCNN：试图把“无序”变为“有序”

核心痛点：点云没有顺序，导致卷积核没法对号入座。
解决方案 (X-Transform)：
PointCNN 并没有去适应点云的无序，而是试图改变它。它设计了一个X-Conv算子，通过一个 MLP 从邻居点的坐标中学习一个K × K K \times KK×K的X XX变换矩阵。
这个矩阵有两个关键作用：
1. 对特征进行加权（Weighting）。
2. 重排列 (Permutation)：试图将无序的邻居点“整理”成一种潜在的规范顺序 (Canonical Order)。
一句话评价：思路非常大胆，试图强行制造秩序，但X XX矩阵的可解释性较弱，且计算代价较高。

② PointConv：连续权重的离散化逼近

核心痛点：点云分布不均匀，直接卷积会导致密集区域权重过大。
解决方案 (Continuous Function)：
它认为卷积本质上是 3D 空间的连续积分。既然不能像 2D 那样存固定的权重矩阵，那就用一个MLP来拟合连续的权重函数W ( x , y , z ) W(x, y, z)W(x,y,z)。
同时，它引入了逆密度加权 (Inverse Density Scale)，根据局部点的疏密程度动态调整权重，保证了对稀疏和密集区域的一视同仁。
一句话评价：数学理论最严谨，完美推广了 2D 卷积定义，对非均匀采样非常鲁棒。

③ RSCNN：从几何关系中学习

核心痛点：只看相对坐标不够，点与点之间的几何关系（拓扑）才是形状的关键。
解决方案 (Geometric Priors)：
RSCNN (Relation-Shape CNN) 的卷积权重不是直接学习的参数，而是由几何先验生成的。
它提取中心点和邻居之间的几何关系向量h i j h_{ij}hij（如欧氏距离、法线夹角等），然后通过一个映射函数M \mathcal{M}M生成卷积权重。
一句话评价：归纳偏置 (Inductive Bias) 很强，显式利用几何关系让它收敛更快，鲁棒性更好。

④ PAConv：动态核组装 (CVPR 2021)

核心痛点：直接预测大卷积核参数量太大（如 PointConv），容易过拟合且慢。
解决方案 (Weight Bank)：
采用**“乐高积木”思想。预先定义一组固定的基础权重矩阵（Weight Bank），对于每个位置，只需要预测一组简单的组合系数 (Score)**。最终的核是这些基础矩阵的线性组合。
一句话评价：效率与灵活性的平衡大师，模块化设计使得它可以作为即插即用的模块嵌入现有网络。

⑤ KPConv：空间中的锚点 (ICCV 2019)

核心痛点：上述方法都要依赖输入点，能不能像 2D 卷积核一样定义在固定的空间位置？
解决方案 (Kernel Points)：
KPConv 在空间中撒了一把**“核点”**（Kernel Points，带权重的锚点）。
对于任意邻居点，计算它离哪个核点近（线性插值），就受哪个核点的影响。
它还推出了Deformable版本，让核点学会“跑”到几何特征明显的地方（如墙角、边缘）。
一句话评价：大场景分割的王者，完全脱离点云排列，仅依赖欧氏空间位置，稳定性极佳。

3. 巅峰对决：KPConvX 的现代化改造 (CVPR 2024)

随着 Point Transformer 和 PointNeXt 的崛起，传统 KPConv 显得“又重又慢”。
CVPR 2024 的KPConvX对 KPConv 进行了彻底的现代化改造，使其重回 SOTA。

瘦身 (Depthwise)：将全通道卷积改为深度可分离卷积，参数量指数级下降。
加速 (Nearest Strategy)：放弃复杂的插值，邻居点只找最近的一个核点 (k ∗ k^*k∗)，计算速度起飞。
附魔 (Kernel Attention)：
引入了基于几何的注意力机制。核心公式如下：
( F ∗ g ) ( x ) = ∑ i < H h i k ∗ ( m k ∗ ⏟ 动态意图 ⊗ w k ∗ ⏟ 静态技能 ) ⊙ f i (\mathcal{F}*g)(x) = \sum_{i<H} h_{ik^*} (\underbrace{m_{k^*}}_{\text{动态意图}} \otimes \underbrace{w_{k^*}}_{\text{静态技能}}) \odot f_i(F∗g)(x)=i<H∑hik∗(动态意图mk∗⊗静态技能wk∗)⊙fi
- w ww(静态权重)：网络学到的固定技能（如提取边缘）。
- m mm(动态注意力)：中心点根据自身特征，现场决定关注哪个方位的核点。
结果：在 ScanNetv2 上超越了 Point Transformer V2，证明了显式几何结构依然是点云处理的王道。

4. 总结：核心方法横向对比表

📋 点云卷积方法的深度横向评测

方法 (Method)	核心机制 (Strategy)	数理原理 (Principle)	优缺点深度评价 (Pros & Cons)
PointCNN (NeurIPS 2018)	学习无序到有序的变换认为点云难处理是因为没顺序，所以试图学习一个X XX变换矩阵，把乱序的点“排列”成潜在的规范顺序。	X-Conv 算子 F = Conv ( K , X × P ) F = \text{Conv}(K, X \times P)F=Conv(K,X×P) 先用 MLP 从坐标学出X XX矩阵，对邻居特征P PP进行加权和重排，再卷积。	🟢 优点：通用性强，不依赖特定的几何先验。 🔴 缺点：X XX矩阵难以解释（黑盒），且计算量大；缺乏明确的几何归纳偏置，收敛较慢。
PointConv (CVPR 2019)	连续函数的蒙特卡洛逼近将卷积视为 3D 连续积分。既然不能存离散核，就用 MLP 拟合连续权重函数，并引入密度校正。	密度重加权连续卷积 W ( x ) = MLP ( Δ x , Δ y ) W(x) = \text{MLP}(\Delta x, \Delta y)W(x)=MLP(Δx,Δy) F = ∑ W ( x ) ⋅ 1 density ⋅ P F = \sum W(x) \cdot \frac{1}{\text{density}} \cdot PF=∑W(x)⋅density1⋅P 权重由相对坐标生成，并除以局部密度。	🟢 优点：数学理论最严谨（扩展了 2D 卷积定义）；对非均匀采样（疏密不均）极具鲁棒性。 🔴 缺点：内存占用巨大（每个点都要存一个生成的核），推理速度较慢。
RSCNN (CVPR 2019)	几何先验驱动认为“相对坐标”不足以描述形状，必须显式利用点与点的几何关系（如距离、角度）来生成权重。	RS-Conv 算子 w i j = M ( h i j ) w_{ij} = \mathcal{M}(h_{ij})wij=M(hij) h i j h_{ij}hij是预定义的几何向量（距离、法线夹角等），M \mathcal{M}M是映射函数。	🟢 优点：归纳偏置 (Inductive Bias) 极强，对旋转和刚体变换有很好的鲁棒性；捕捉形状能力强。 🔴 缺点：过分依赖手工设计的几何关系h i j h_{ij}hij，可能限制了网络的上限。
PAConv (CVPR 2021)	动态权重组装 (积木思想) 拒绝直接预测大矩阵，改为预定义一组基础矩阵 (Weight Bank)，只预测组合系数。	ScoreNet + WeightBank K = ∑ Score ( x ) ⋅ B i K = \sum \text{Score}(x) \cdot B_iK=∑Score(x)⋅Bi 核 =∑ \sum∑(位置系数× \times×基础矩阵)。	🟢 优点：效率之王。参数量极低，计算速度快；模块化设计，可无缝插入现有网络。 🔴 缺点：需要精细调节 Weight Bank 的大小和 Softmax 温度，否则容易产生冗余。
KPConv (ICCV 2019)	空间核点插值完全脱离输入点的依赖，在欧氏空间中撒一组带权重的“核点” (Kernel Points)，通过距离插值定义卷积。	线性相关度插值 g ( x ) = ∑ h i k W k g(x) = \sum h_{ik} W_kg(x)=∑hikWk 邻居点离哪个核点近，就受哪个W k W_kWk影响。支持可变形 (Deformable)。	🟢 优点：稳定性标杆。解耦了卷积核位置和点云分布；Deformable 版本在大场景分割中表现统治级。 🔴 缺点：计算量偏大（全通道卷积），插值过程繁琐。
KPConvX (CVPR 2024)	几何注意力机制引入 Depthwise 卷积瘦身，并增加 Kernel Attention，让中心点动态决定关注哪个方位的核点。	最近邻 + 几何注意力 F = ∑ ( m k ∗ ⊗ w k ∗ ) ⊙ f i F = \sum (m_{k^} \otimes w_{k^}) \odot f_iF=∑(mk∗⊗wk∗)⊙fi 只找最近核点k ∗ k^*k∗，并用动态系数m mm缩放静态权重w ww。	🟢 优点：SOTA 方案。兼顾了速度（最近邻策略）和精度（注意力机制）；解决了老版 KPConv 重和慢的问题。 🔴 缺点：最近邻策略在极度稀疏的点云上可能不如插值平滑（但通过多层堆叠可缓解）。