当前位置：首页 > news >正文

DeFM：专为机器人设计的深度视觉基础模型

news 2026/6/12 6:31:31

1. 深度视觉基础模型DeFM：机器人感知的通用解决方案

深度传感器已成为现代机器人系统的标配硬件，从工业机械臂到四足机器人，深度数据因其对光照、纹理和颜色变化的不变性，在sim-to-real迁移中展现出独特优势。然而与RGB领域成熟的视觉基础模型(VFM)相比，深度模态的预训练研究长期处于空白状态。当前方案要么粗暴地将RGB预训练模型迁移到深度数据（导致几何信息损失），要么为每个任务从头训练专用编码器（牺牲泛化能力）。

我们提出的DeFM(Depth Foundation Model)首次构建了专为机器人任务设计的深度视觉基础模型。通过自监督学习框架在6000万深度图像上预训练，DeFM学习到的表征具有以下核心特性：

几何感知：保持精确的度量尺度信息，从毫米级操作到百米级导航均可适用
语义理解：即使缺乏纹理和颜色，仍能提取物体功能部件等高层语义
传感器无关：兼容LiDAR、立体视觉、ToF等不同原理的深度传感器
任务通用：支持分类、分割、导航、操作等多种下游任务零样本迁移

关键创新：传统方法处理深度数据时通常简单进行min-max归一化，而DeFM提出的三通道对数压缩策略（全局相对深度+中距绝对深度+远距绝对深度）首次实现了跨尺度度量保持，这对机器人同时处理近场操作和远场导航至关重要。

2. 核心架构与训练方法论

2.1 自蒸馏学习框架

DeFM采用改进的DINOv2自蒸馏框架，其核心是通过教师-学生网络的结构不对称性避免表征坍塌。如图1所示，系统包含三个关键组件：

多裁剪策略：输入深度图生成2个全局裁剪(224×224)和8个局部裁剪(98×98)，分别加入不同的几何与光度增强
双目标函数：
- 图像级DINO损失：对齐全局裁剪的[CLS]标记特征
- 块级iBOT损失：预测被masked图像块的特征
动量教师：学生网络通过梯度下降更新，教师网络是其参数的指数移动平均(EMA)

这种设计使得学生网络必须学习到具有几何一致性和语义一致性的特征，才能在不同裁剪视角和遮挡情况下预测教师的输出分布。

2.2 深度专用数据集构建

为训练通用的深度表征，我们构建了包含18个子集的6000万深度图像数据集，涵盖三种数据来源：

数据类型	代表数据集	特点	数据量
单目深度估计	ImageNet-21k, SA-1B	丰富物体类别	25M
合成数据	Replica, TartanAir	干净度量深度，多域泛化	12M
真实传感器数据	HM3D, GraspNet-1B	包含实际噪声和缺失数据	23M

这种混合策略确保了模型既能学习到精确的几何特性，又能适应真实传感器的噪声特性。特别值得注意的是，我们通过现成的单目深度估计网络将ImageNet-21k等RGB数据集转化为深度数据，这显著提升了模型对日常物体的语义理解能力。

2.3 度量感知的输入归一化

深度图像的特殊性在于其数值直接对应真实世界的物理距离。传统归一化方法会破坏这种度量关系，为此我们设计了三通道对数压缩表示：

全局相对深度：对当前图像做log1p变换后min-max归一化
```
C1 = (log(1+D) - log(1+D_min)) / (log(1+D_max) - log(1+D_min))
```
中距绝对深度：以10米为基准的对数归一化
```
C2 = log(1+D) / log(11) # 强调0.1-10米范围
```
远距绝对深度：以100米为基准的对数归一化
```
C3 = log(1+D) / log(101) # 处理10-100米范围
```

这种表示既保持了近场细节的敏感性（如机械臂操作需要毫米级精度），又避免了远场数值的指数级差异（如无人机导航）。如图2所示，相比传统归一化方法，我们的三通道表示在不同距离范围都保持了良好的梯度特性。

3. 模型蒸馏与效率优化

3.1 跨架构知识蒸馏

为适应资源受限的机器人平台，我们将307M参数的DeFM-ViT-L蒸馏到多种轻量架构：

CNN架构：ResNet(18/34/50)、RegNetY、EfficientNet
轻量ViT：ViT-S/14(22M参数)
关键改进：
- 添加BiFPN模块增强空间特征金字塔
- 学生网络输入调整为256×256以对齐教师特征图
- 使用多学生联合蒸馏提升训练效率

蒸馏过程中，CNN骨干网络提取的特征通过BiFPN与教师ViT的patch tokens对齐，而全局池化特征则与[CLS] token对齐。这种设计使得CNN学生也能获得ViT教师的空间感知能力。

3.2 推理效率对比

各模型在典型硬件平台上的性能表现：

模型	参数量	RTX4090延迟(ms)	Jetson Orin延迟(ms)
ViT-L/14	307M	625	73
ViT-S/14	22M	64	12
ResNet-18	11.7M	21	8.7
EfficientNet-B0	3M	29	21

实测表明，4M参数的RegNetY-400MF在分类任务上已超越22M参数的ViT-S基线，而11M的ResNet-18在Jetson Orin上可实现8.7ms的实时推理（115FPS），满足绝大多数机器人应用的实时性需求。

4. 机器人任务实证研究

4.1 导航任务：室内点目标导航

在Habitat仿真环境中测试PointGoal导航任务，使用DD-PPO训练策略网络：

观测空间：160×120深度图
动作空间：前进、转向等离散动作
对比方案：
- 从头训练的ResNet-50
- 冻结的DINOv2/DINOv3/Theia

结果（SPL指标）：

模型	Gibson Val	MP3D Val
ResNet-50(scratch)	0.899	0.780
DeFM-ResNet50	0.888	0.759
DeFM-ViT-S	0.884	0.751
DINOv3-ViT-S	0.880	0.743

尽管使用冻结特征，DeFM系列模型性能接近从头训练的专用编码器，且显著优于RGB预训练模型的迁移效果。这表明DeFM确实学习到了导航任务所需的几何和语义先验。

4.2 操作任务：灵巧手抓取

在DexTRAH框架下测试KUKA-Allegro机械臂的抓取任务：

训练设置：
- 教师策略：使用物体状态等特权信息
- 学生策略：仅接收64×64深度图和本体感知
- 数据增强：添加斑点噪声、像素丢失等传感器噪声
结果对比（成功率%）：

编码器	训练噪声	Kinect噪声
ImageNet预训练	65.8	0.4
DINOv3蒸馏	65.3	20.8
DeFM(冻结)	80.9	48.6
DeFM(微调)	89.4	87.6

值得注意的是，即使冻结DeFM编码器，其性能也远超其他冻结方案。微调后DeFM在Kinect噪声下的优异表现，证明其学习到的特征既具有通用性又可针对特定任务优化。

4.3 运动任务：四足机器人爬梯

在ANYmal机器人上测试 ladder climbing 任务：

观测空间：4个深度相机+本体感知
策略架构：CNN编码器+RNN策略网络
结果：
- 专用编码器：90.45%成功率
- DeFM-RegNetX：90.14%成功率

虽然两者性能相当，但DeFM方案无需从头训练，节省约80%的计算资源。图3展示了DeFM特征对梯子结构的稳定识别能力，即使在实际部署中存在严重的传感器噪声。

5. 实践部署建议

基于我们的实验经验，为不同机器人任务推荐以下部署方案：

高精度需求（手术机器人等）：
- 模型：ViT-S/14
- 部署：NVIDIA Jetson AGX Orin
- 技巧：使用TensorRT加速，量化到FP16
实时控制需求（无人机避障等）：
- 模型：ResNet-18
- 部署：Intel NUC+Myriad X
- 技巧：采用半精度推理，输入分辨率降至128×128
资源受限场景（教育机器人等）：
- 模型：EfficientNet-B0
- 部署：Raspberry Pi 5
- 技巧：使用OpenVINO优化，固定批处理大小为1