当前位置：首页 > news >正文

3D数据集剪枝：解决长尾分布与嵌入几何优化

news 2026/6/16 4:03:14

在3D视觉任务中，数据集剪枝面临着比2D图像更复杂的挑战。由于3D数据通常通过CAD建模或真实扫描获取，其类别分布天然呈现长尾特性。以ShapeNet55数据集为例，头部类别（如"椅子"）样本量是尾部类别（如"喷壶"）的153倍。这种不平衡性导致两个关键问题：

评估指标的内在冲突：整体准确率(OA)反映自然分布下的实用性能，而平均类别准确率(mAcc)衡量模型在所有类别上的均衡表现。当测试集本身呈现长尾分布时，OA实际上是真实使用场景下的性能估计，而mAcc则评估模型对所有概念的识别能力。
剪枝策略的敏感性：传统基于标量指标（如损失值、梯度范数）的剪枝方法会放大类别不平衡。如图1所示，使用EL2N分数选择样本时，头部类别的选择数量达到尾部类别的40倍，严重损害模型对尾部类别的识别能力。

关键发现：在ShapeNet55数据集上，基于分类器标量信号的剪枝方法会导致尾部类别样本被系统性忽略，而基于嵌入几何的方法选择分布更均衡，类别间不平衡比仅为1.88倍。

我们将数据集剪枝形式化为总体风险的数值积分近似问题。给定目标分布p和由权重w加权的子集S，定义离散测度qS,w，则剪枝可表示为：

$$ \hat{L}{S,w}(\theta) = \mathbb{E}{x\sim q_{S,w}}[\ell_\theta(x)] = \sum_{i\in S} w_i \ell_\theta(x_i) $$

通过引理3.1，可将泛化差距上界表示为积分概率度量(IPM)：

$$ L(\hat{\theta}) - L(\theta^*) \leq 2 \mathcal{D}\mathcal{G}(p, q{S,w}) $$

进一步地，将误差分解为两类关键成分：

反映每个类别内子集对真实分布的近似质量。对于类别y，给定my个样本时，近似误差服从幂律衰减：

$$ \mathcal{E}_y(m_y) \propto \frac{c_y}{m_y^\gamma} + \text{BiasTerm}_y $$

其中cy表征类别复杂度，γ取决于选择策略（随机采样通常γ=1/2）。最优预算分配应满足：

$$ m_y \propto (\pi_y^{\text{tar}} c_y)^k, \quad k=\frac{1}{1+\gamma} $$

源于子集诱导的类别权重ρ与目标先验πtar之间的差异。通过TV距离量化：

$$ 2B |\pi^{\text{tar}} - \rho|_{\text{TV}} $$

该误差可通过类别重加权完全消除，使ρy = πy^tar。

为降低Term B的影响，我们提出基于知识蒸馏的结构解耦策略。关键观察是：分类器的后验概率可分解为：

$$ \log p(y|x) = \underbrace{\log p(x|y)}{\text{结构似然}} + \underbrace{\log p(y)}{\text{类别先验}} + C(x) $$

校准软标签(CSL)：

冻结预训练编码器ϕT
使用类别平衡目标重训练分类头(WT, bT)： $$ \min_{W,b} \mathbb{E}{p{\text{train}}}[\alpha_y \text{CE}(\delta_y, \sigma(W\phi_T(x)+b))] $$
生成校准后的教师预测$T(y|x)=\sigma(W_T\phi_T(x)+b_T)$

嵌入几何蒸馏(EGD)：通过关系知识蒸馏(RKD)保持样本间几何关系：

距离损失：$\mathcal{L}D = \sum{\mathcal{B}^2} \ell_\delta(\psi_D^T, \psi_D^S)$
角度损失：$\mathcal{L}A = \sum{\mathcal{B}^3} \ell_\delta(\psi_A^T, \psi_A^S)$
总目标：$\mathcal{L}_{\text{RKD}} = \lambda_d\mathcal{L}_D + \lambda_a\mathcal{L}_A$

表1对比了不同监督方式的性能差异：

监督类型	OA (%)	mAcc (%)	ΔOA	ΔmAcc
硬标签	79.10	60.47	-	-
+CSL	81.82	64.24	+2.72	+3.77
+CSL+EGD	82.09	64.56	+2.99	+4.09

针对Term A，我们提出基于几何信号的混合选择策略：

种子全局选择(SGS)算法：

种子阶段：为每个类别分配基础配额$b=\lfloor K \cdot B/|C|\rfloor$
- 使用FL-RBF在嵌入空间选择最具代表性的b个样本
全局阶段：在剩余预算$B-K|C|$上运行全局选择
- 基于嵌入空间的覆盖度选择样本
合并与补充：若并集不足B，补充选择高覆盖样本

图2展示了K值对性能的影响：

在ModelNet40、ScanObjectNN和ShapeNet55上的实验结果（PointNet++骨干）：

方法	ModelNet40 (OA/mAcc)	ScanObjectNN (OA/mAcc)	ShapeNet55 (OA/mAcc)
EL2N	88.41/82.83	63.98/62.90	65.81/24.97
K-Center	90.80/88.08	54.19/53.89	80.14/75.07
FL-RBF	92.13/89.22	67.41/63.09	88.77/78.32
3D-Pruner (K=0.4)	91.89/89.42 (+0.20)	69.18/64.96 (+1.87)	88.72/81.61 (+3.29)