当前位置: 首页 > news >正文

【论文精读(十三)】点云中卷积的“诸神之战”——大总结

点云中的卷积大总结:PointCNN, PointConv, RSCNN, PAConv, KPConv, KPConvX

博主导读
关于点云卷积具体论文的讲解在本专栏其他博客中已基本完成,现做一个总结。
本文将带你盘点点云卷积领域的六大里程碑,并一览各种流派的优劣。


1. 为什么点云卷积这么难?

2D 卷积之所以好用,是因为图像像素排列在规则的网格(Grid)上。左上角的像素一定对应卷积核的W 0 , 0 W_{0,0}W0,0

但 3D 点云具备以下特性,使得卷积定义变得异常困难:

  1. 无序性 (Unordered):点的存储顺序不代表空间位置,输入[ A , B , C ] [A, B, C][A,B,C][ C , A , B ] [C, A, B][C,A,B]应当代表同一个物体。
  2. 非均匀性 (Irregular):有的地方密(如激光雷达近处),有的地方疏(如远处),密度不一致。
  3. 非结构化 (Unstructured):没有固定的网格邻居。

因此,所有点云卷积的核心使命,就是找到一种方法,把离散、无序的邻居点,映射到固定的卷积核权重上。


2. 五大经典卷积流派详解

① PointCNN:试图把“无序”变为“有序”

  • 核心痛点:点云没有顺序,导致卷积核没法对号入座。
  • 解决方案 (X-Transform)
    PointCNN 并没有去适应点云的无序,而是试图改变它。它设计了一个X-Conv算子,通过一个 MLP 从邻居点的坐标中学习一个K × K K \times KK×KX XX变换矩阵
    这个矩阵有两个关键作用:
    1. 对特征进行加权(Weighting)。
    2. 重排列 (Permutation):试图将无序的邻居点“整理”成一种潜在的规范顺序 (Canonical Order)。
  • 一句话评价:思路非常大胆,试图强行制造秩序,但X XX矩阵的可解释性较弱,且计算代价较高。

② PointConv:连续权重的离散化逼近

  • 核心痛点:点云分布不均匀,直接卷积会导致密集区域权重过大。
  • 解决方案 (Continuous Function)
    它认为卷积本质上是 3D 空间的连续积分。既然不能像 2D 那样存固定的权重矩阵,那就用一个MLP来拟合连续的权重函数W ( x , y , z ) W(x, y, z)W(x,y,z)
    同时,它引入了逆密度加权 (Inverse Density Scale),根据局部点的疏密程度动态调整权重,保证了对稀疏和密集区域的一视同仁。
  • 一句话评价:数学理论最严谨,完美推广了 2D 卷积定义,对非均匀采样非常鲁棒。

③ RSCNN:从几何关系中学习

  • 核心痛点:只看相对坐标不够,点与点之间的几何关系(拓扑)才是形状的关键。
  • 解决方案 (Geometric Priors)
    RSCNN (Relation-Shape CNN) 的卷积权重不是直接学习的参数,而是由几何先验生成的。
    它提取中心点和邻居之间的几何关系向量h i j h_{ij}hij(如欧氏距离、法线夹角等),然后通过一个映射函数M \mathcal{M}M生成卷积权重。
  • 一句话评价:归纳偏置 (Inductive Bias) 很强,显式利用几何关系让它收敛更快,鲁棒性更好。

④ PAConv:动态核组装 (CVPR 2021)

  • 核心痛点:直接预测大卷积核参数量太大(如 PointConv),容易过拟合且慢。
  • 解决方案 (Weight Bank)
    采用**“乐高积木”思想。预先定义一组固定的基础权重矩阵(Weight Bank),对于每个位置,只需要预测一组简单的组合系数 (Score)**。最终的核是这些基础矩阵的线性组合。
  • 一句话评价:效率与灵活性的平衡大师,模块化设计使得它可以作为即插即用的模块嵌入现有网络。

⑤ KPConv:空间中的锚点 (ICCV 2019)

  • 核心痛点:上述方法都要依赖输入点,能不能像 2D 卷积核一样定义在固定的空间位置?
  • 解决方案 (Kernel Points)
    KPConv 在空间中撒了一把**“核点”**(Kernel Points,带权重的锚点)。
    对于任意邻居点,计算它离哪个核点近(线性插值),就受哪个核点的影响。
    它还推出了Deformable版本,让核点学会“跑”到几何特征明显的地方(如墙角、边缘)。
  • 一句话评价:大场景分割的王者,完全脱离点云排列,仅依赖欧氏空间位置,稳定性极佳。

3. 巅峰对决:KPConvX 的现代化改造 (CVPR 2024)

随着 Point Transformer 和 PointNeXt 的崛起,传统 KPConv 显得“又重又慢”。
CVPR 2024 的KPConvX对 KPConv 进行了彻底的现代化改造,使其重回 SOTA。

  • 瘦身 (Depthwise):将全通道卷积改为深度可分离卷积,参数量指数级下降。
  • 加速 (Nearest Strategy):放弃复杂的插值,邻居点只找最近的一个核点 (k ∗ k^*k),计算速度起飞。
  • 附魔 (Kernel Attention)
    引入了基于几何的注意力机制。核心公式如下:
    ( F ∗ g ) ( x ) = ∑ i < H h i k ∗ ( m k ∗ ⏟ 动态意图 ⊗ w k ∗ ⏟ 静态技能 ) ⊙ f i (\mathcal{F}*g)(x) = \sum_{i<H} h_{ik^*} (\underbrace{m_{k^*}}_{\text{动态意图}} \otimes \underbrace{w_{k^*}}_{\text{静态技能}}) \odot f_i(Fg)(x)=i<Hhik(动态意图mk静态技能wk)fi
    • w ww(静态权重):网络学到的固定技能(如提取边缘)。
    • m mm(动态注意力):中心点根据自身特征,现场决定关注哪个方位的核点。
  • 结果:在 ScanNetv2 上超越了 Point Transformer V2,证明了显式几何结构依然是点云处理的王道。

4. 总结:核心方法横向对比表

📋 点云卷积方法的深度横向评测

方法 (Method)核心机制 (Strategy)数理原理 (Principle)优缺点深度评价 (Pros & Cons)
PointCNN
(NeurIPS 2018)
学习无序到有序的变换
认为点云难处理是因为没顺序,所以试图学习一个X XX变换矩阵,把乱序的点“排列”成潜在的规范顺序。
X-Conv 算子
F = Conv ( K , X × P ) F = \text{Conv}(K, X \times P)F=Conv(K,X×P)
先用 MLP 从坐标学出X XX矩阵,对邻居特征P PP进行加权和重排,再卷积。
🟢 优点:通用性强,不依赖特定的几何先验。
🔴 缺点X XX矩阵难以解释(黑盒),且计算量大;缺乏明确的几何归纳偏置,收敛较慢。
PointConv
(CVPR 2019)
连续函数的蒙特卡洛逼近
将卷积视为 3D 连续积分。既然不能存离散核,就用 MLP 拟合连续权重函数,并引入密度校正。
密度重加权连续卷积
W ( x ) = MLP ( Δ x , Δ y ) W(x) = \text{MLP}(\Delta x, \Delta y)W(x)=MLP(Δx,Δy)
F = ∑ W ( x ) ⋅ 1 density ⋅ P F = \sum W(x) \cdot \frac{1}{\text{density}} \cdot PF=W(x)density1P
权重由相对坐标生成,并除以局部密度。
🟢 优点:数学理论最严谨(扩展了 2D 卷积定义);对非均匀采样(疏密不均)极具鲁棒性。
🔴 缺点:内存占用巨大(每个点都要存一个生成的核),推理速度较慢。
RSCNN
(CVPR 2019)
几何先验驱动
认为“相对坐标”不足以描述形状,必须显式利用点与点的几何关系(如距离、角度)来生成权重。
RS-Conv 算子
w i j = M ( h i j ) w_{ij} = \mathcal{M}(h_{ij})wij=M(hij)
h i j h_{ij}hij是预定义的几何向量(距离、法线夹角等),M \mathcal{M}M是映射函数。
🟢 优点:归纳偏置 (Inductive Bias) 极强,对旋转和刚体变换有很好的鲁棒性;捕捉形状能力强。
🔴 缺点:过分依赖手工设计的几何关系h i j h_{ij}hij,可能限制了网络的上限。
PAConv
(CVPR 2021)
动态权重组装 (积木思想)
拒绝直接预测大矩阵,改为预定义一组基础矩阵 (Weight Bank),只预测组合系数。
ScoreNet + WeightBank
K = ∑ Score ( x ) ⋅ B i K = \sum \text{Score}(x) \cdot B_iK=Score(x)Bi
核 =∑ \sum(位置系数× \times×基础矩阵)。
🟢 优点效率之王。参数量极低,计算速度快;模块化设计,可无缝插入现有网络。
🔴 缺点:需要精细调节 Weight Bank 的大小和 Softmax 温度,否则容易产生冗余。
KPConv
(ICCV 2019)
空间核点插值
完全脱离输入点的依赖,在欧氏空间中撒一组带权重的“核点” (Kernel Points),通过距离插值定义卷积。
线性相关度插值
g ( x ) = ∑ h i k W k g(x) = \sum h_{ik} W_kg(x)=hikWk
邻居点离哪个核点近,就受哪个W k W_kWk影响。支持可变形 (Deformable)
🟢 优点稳定性标杆。解耦了卷积核位置和点云分布;Deformable 版本在大场景分割中表现统治级。
🔴 缺点:计算量偏大(全通道卷积),插值过程繁琐。
KPConvX
(CVPR 2024)
几何注意力机制
引入 Depthwise 卷积瘦身,并增加 Kernel Attention,让中心点动态决定关注哪个方位的核点。
最近邻 + 几何注意力
F = ∑ ( m k ∗ ⊗ w k ∗ ) ⊙ f i F = \sum (m_{k^*} \otimes w_{k^*}) \odot f_iF=(mkwk)fi
只找最近核点k ∗ k^*k,并用动态系数m mm缩放静态权重w ww
🟢 优点SOTA 方案。兼顾了速度(最近邻策略)和精度(注意力机制);解决了老版 KPConv 重和慢的问题。
🔴 缺点:最近邻策略在极度稀疏的点云上可能不如插值平滑(但通过多层堆叠可缓解)。

博主后记
点云卷积的发展史,本质上就是一部**“如何更高效、更优雅地利用几何信息”的历史。
从 PointCNN 的强行排序,到 KPConv 的空间锚点,再到 KPConvX 的几何注意力,我们看到
显式的几何结构**(Explicit Geometry)始终是点云处理的灵魂。


📚 附录:点云网络系列导航

本专栏致力于用“人话”解读 3D 点云领域的硬核论文,从原理到代码逐行拆解。

🔥欢迎订阅专栏:【点云特征分析_顶会论文代码硬核拆解】持续更新中…


本文为 CSDN 专栏【点云特征分析_顶会论文代码硬核拆解】原创内容,转载请注明出处。

http://www.jsqmd.com/news/146266/

相关文章:

  • 如何用免费工具彻底解决演讲超时困扰?
  • SD-PPP终极指南:Photoshop与AI绘图的无缝融合方案
  • 利用ESP32搭建AI语音交互项目应用
  • PaddlePaddle镜像支持AR增强现实吗?实时姿态估计实战
  • 终极解决方案:如何用OBS插件实现多平台一键直播
  • BrainWorkshop 5:开源大脑训练软件的终极指南
  • 新手教程:如何安全高效地进行ESP32固件库下载
  • 城通网盘直连解析:告别蜗牛速度的终极方案
  • PaddlePaddle镜像能否用于法律合同审查?条款比对自动化
  • Defender Control终极指南:如何快速禁用Windows Defender
  • 微信小程序二维码生成终极指南:weapp-qrcode快速实现方案
  • 利用树莓派课程设计小项目搭建物联网网关深度剖析
  • 基于Arduino IDE优化ESP32-CAM视频传输性能方法
  • 番茄小说下载器新手入门:3步轻松下载你喜爱的小说
  • 继电器模块电路图在Arduino项目中的应用详解
  • PaddlePaddle镜像支持声纹识别吗?i-vector/x-vector实战
  • VLAC:革新机器人学习的多模态AI评论家模型
  • PaddlePaddle镜像如何实现模型在线学习与参数动态更新?
  • 城通网盘解析终极指南:简单三步实现下载加速
  • STL文件预览革命:stl-thumb让3D模型管理从此直观高效
  • PaddlePaddle镜像能否用于公共交通调度优化?时空预测模型
  • STL缩略图生成器:让3D文件管理变得直观高效的终极解决方案
  • 意义共生:岐金兰AI元人文构想的理论证成与文明拓界
  • 一文说清51单片机串口通信实验如何接入智能家居网络
  • UAssetGUI完全指南:5步快速掌握Unreal Engine资产编辑
  • PaddlePaddle镜像能否对接区块链存证?AI结果溯源方案
  • SOCD清洁器终极指南:告别游戏操作冲突的完整解决方案
  • 快速上手:碧蓝航线Live2D模型一键提取完整指南
  • 艾尔登法环性能优化终极指南:彻底告别60FPS限制
  • 艾尔登法环性能优化终极指南:解锁高帧率畅玩体验