当前位置：首页 > news >正文

自动驾驶自监督世界模型：LiDAR与JEPA的创新结合

news 2026/6/12 3:11:58

1. 自动驾驶中的自监督世界模型：从理论到实践

在自动驾驶领域，构建能够准确预测环境时空演化的世界模型是实现安全导航的核心挑战。传统方法通常依赖大量人工标注数据，这不仅成本高昂，也难以覆盖现实世界中的长尾场景。近年来，自监督学习（Self-Supervised Learning）通过利用未标注数据学习表征，为这一难题提供了创新解决方案。

联合嵌入预测架构（Joint-Embedding Predictive Architecture, JEPA）作为自监督学习的前沿范式，通过在潜在空间预测未来状态，避免了生成式模型常见的计算冗余和物理不合理性问题。当这一技术与LiDAR感知相结合时，能够构建出既高效又可靠的环境理解系统。我们团队开发的AD-LiST-JEPA框架，正是这一技术路线的典型代表。

2. 技术背景与核心挑战

2.1 自动驾驶世界模型的演进

自动驾驶系统本质上是在物理世界中运行的智能体，其核心能力在于构建能够捕捉环境时空演化的世界模型。传统方法主要沿着两个方向发展：

生成式世界模型：直接预测未来帧的像素级细节，如Gaia-1等模型。这类方法虽然能提供直观的可视化结果，但存在两个固有缺陷：训练计算成本极高（通常需要数百GPU小时），且容易产生物理上不合理的"幻觉"预测。
潜在空间预测模型：如LAW和World4Drive等方案，在特征空间而非像素空间进行预测。虽然计算效率显著提升，但面临"表征坍缩"（Representation Collapse）的挑战——即所有输入都被映射为相似的常量特征，导致预测失效。

2.2 LiDAR感知的特殊性

LiDAR作为自动驾驶的核心传感器，其数据具有独特的性质：

稀疏性：典型64线LiDAR在50米距离处点云密度不足1点/平方厘米
非均匀采样：受限于射线投射（ray casting）物理机制
动态遮挡：移动物体导致时序上的观测不连续

这些特性使得直接预测原始点云面临巨大挑战。为此，业界发展出占用预测（Occupancy Forecasting）技术，将环境离散化为固定范围的鸟瞰图（BEV）网格或3D体素空间，大幅提升了预测的稳定性。

3. AD-LiST-JEPA框架设计

3.1 整体架构

我们的框架包含两个关键阶段：

自监督预训练阶段：通过设计的掩码预测任务学习时空表征
监督微调阶段：在占用完成与预测（OCF）任务上评估模型性能

这种设计实现了"预训练-微调"的范式迁移，使模型能够从海量未标注数据中学习通用表征，再针对特定任务进行适配。

3.2 创新性技术方案

3.2.1 分组BEV引导掩码策略

传统单帧掩码方法直接扩展到多帧时会出现信息泄露问题。我们提出创新的分组掩码策略：

坐标系归一化：将所有帧的点云变换到t=0时刻的坐标系：
```
p'_j = R^T p_j + c
```
其中R为旋转矩阵，c为平移向量
分组判定：跨帧聚合空间网格状态，定义：
- 组非空网格：任一帧在该位置有观测
- 组空网格：所有帧均无观测
掩码传播：将组级掩码状态传播到各独立帧，解决动态遮挡导致的观测不一致问题

3.2.2 网络架构设计

基于计算效率考量，我们采用单帧编码器+时序聚合的轻量级设计：

编码器：改进的稀疏3D卷积网络，处理多帧点云输入
预测器：简单的3D卷积结构，预测未来BEV表征
损失函数：组合式设计
```
L = L_jepa + λ_reg L_reg
```
其中：
- L_jepa：基于余弦相似度的嵌入预测损失
- L_reg：方差正则化或SIGReg正则化

4. 关键实现细节

4.1 数据预处理流程

4.1.1 LiDAR序列变换

通过奇异值分解（SVD）求解正交Procrustes问题，实现跨帧实例对齐：

移除"幽灵物体"（仅在前后帧出现的对象）

对持续存在的物体，计算最优刚体变换：

def svd_align(source, target): # 中心化点云 src_centered = source - source.mean(0) tgt_centered = target - target.mean(0) # SVD分解 H = src_centered.T @ tgt_centered U, _, Vt = np.linalg.svd(H) # 计算旋转 R = Vt.T @ U.T if np.linalg.det(R) < 0: Vt[-1,:] *= -1 R = Vt.T @ U.T # 计算平移 t = target.mean(0) - R @ source.mean(0) return R, t