当前位置：首页 > news >正文

深入理解3D数据集格式：从Nuscenes到KITTI的坐标系差异与统一实践

news 2026/4/24 12:28:15

深入理解3D数据集格式：从Nuscenes到KITTI的坐标系差异与统一实践

在自动驾驶和3D感知领域，数据集是算法研发的基石。Nuscenes和KITTI作为两大主流3D数据集，各自采用不同的坐标系定义和标注规范，这给跨数据集研究和算法部署带来了不小的挑战。本文将系统性地剖析这两种数据集在坐标系设计上的根本差异，并分享实用的转换方法，帮助开发者构建统一的数据处理流程。

1. 坐标系基础：理解3D感知的数据表达

在3D感知任务中，坐标系定义是数据理解的起点。一个完整的3D系统通常包含以下坐标系层级：

世界坐标系(World Coordinate System)：全局参考系，所有物体和传感器的位置都以此为基准
传感器坐标系(Sensor Coordinate System)：以特定传感器（如激光雷达、相机）为中心的局部坐标系
物体坐标系(Object Coordinate System)：以检测物体自身为中心的坐标系

右手定则是3D坐标系的基础规则：

伸出右手，拇指指向x轴正方向
食指指向y轴正方向
中指指向z轴正方向

常见传感器坐标系定义对比：

传感器类型	x轴方向	y轴方向	z轴方向	典型应用
常规激光雷达	前进方向	左侧方向	上方方向	KITTI, Waymo
Nuscenes激光雷达	右侧方向	前方方向	上方方向	Nuscenes数据集
相机坐标系	右侧方向	下方方向	前方方向	多数视觉系统

2. Nuscenes与KITTI的坐标系差异解析

2.1 Nuscenes的坐标系设计

Nuscenes采用独特的坐标系定义：

激光雷达系：右手系，x向右，y向前，z向上
相机系：从图像平面看，x向右，y向下，z向前
标注框：初始基于世界坐标系，通过API转换为当前传感器坐标系

标注框参数表达：

# Nuscenes标注框7维参数 [x, y, z, dx, dy, dz, yaw]

其中：

(x,y,z)：框中心在世界坐标系中的位置
(dx,dy,dz)：框的尺寸（注意顺序为宽、长、高）
yaw：框的运动方向与y轴负方向的水平夹角

2.2 KITTI的坐标系规范

KITTI采用更传统的自动驾驶坐标系：

激光雷达系：右手系，x向前，y向左，z向上
相机系：y轴正方向朝下
标注框：直接基于相机坐标系

KITTI的15维标注格式：

类型 截断度 遮挡度 alpha 2D边界框 3D尺寸(h,w,l) 3D位置(x,y,z) rotation_y 得分

关键差异对比表：

特性	Nuscenes	KITTI	统一约定
激光雷达x轴	右侧	前方	前方
标注坐标系	世界系	相机系	激光雷达系
尺寸顺序	(w,l,h)	(h,w,l)	(l,w,h)
yaw参考	y轴负方向	y轴正方向	x轴方向
框原点	几何中心	底面中心	几何中心

3. 坐标系统一的核心转换技术

3.1 从Nuscenes到标准激光雷达系

转换的核心是-90度绕z轴旋转：

import numpy as np def nus_to_common(box): """将Nuscenes框转换到标准激光雷达坐标系""" # 提取原始参数 x, y, z, dx, dy, dz, yaw = box # 构建旋转矩阵 theta = np.radians(-90) rot_z = np.array([ [np.cos(theta), -np.sin(theta), 0], [np.sin(theta), np.cos(theta), 0], [0, 0, 1] ]) # 旋转位置和朝向 new_pos = rot_z @ np.array([x, y, z]) new_yaw = yaw + np.pi/2 # 角度调整 return (*new_pos, dx, dy, dz, new_yaw)

转换步骤说明：

位置旋转：将框中心坐标从Nuscenes系转到标准系
朝向调整：yaw角增加90度（逆时针）
尺寸保持：框的自身尺寸不变

3.2 从标准系到KITTI相机系

这一转换更为复杂，涉及多个步骤：

def common_to_kitti(box, T_cam_lidar): """ 将标准激光雷达系下的框转换到KITTI相机系 :param box: (x,y,z,dx,dy,dz,yaw) :param T_cam_lidar: 4x4相机到激光雷达的变换矩阵 :return: KITTI格式的15维标注 """ # 提取参数 x, y, z, dx, dy, dz, yaw = box # 1. 转换到相机坐标系 pos_lidar = np.array([x, y, z, 1]) pos_cam = T_cam_lidar @ pos_lidar # 2. 调整到底面中心 pos_cam[1] += dz/2 # y坐标下移半个高度 # 3. 调整yaw角定义 kitti_yaw = -yaw # 4. 尺寸顺序转换 h, w, l = dz, dy, dx return [0, 0, 0, 0] + [0]*4 + [h, w, l] + pos_cam[:3].tolist() + [kitti_yaw, 0]

关键注意点：

KITTI使用底面中心作为框原点，需要做y轴偏移
相机系的y轴朝下，导致yaw角定义相反
尺寸顺序变为高度、宽度、长度

4. 实践中的常见问题与解决方案

4.1 传感器标定参数处理

在坐标系转换中，外参矩阵的正确处理至关重要。Nuscenes提供各传感器之间的标定参数，但需要注意：

转换后的标定参数应反映新的坐标系关系
旋转矩阵需要与坐标系转换同步调整

典型的外参转换代码：

# 原始Nuscenes的相机到激光雷达外参 T_cam_lidar_nus = nusc.get("calibrated_sensor", sensor_token)["translation"] # 转换为标准激光雷达系后的外参 R_nus_to_common = np.array([[0, -1, 0], [1, 0, 0], [0, 0, 1]]) # -90度z旋转 T_cam_lidar_common = R_nus_to_common @ T_cam_lidar_nus

4.2 BEV感知中的特殊考量

鸟瞰图(BEV)感知算法对坐标系一致性尤为敏感：

多数BEV算法假设x轴为前进方向
不一致的坐标系会导致特征图方向错误
解决方案：
- 在数据加载阶段统一坐标系
- 在模型内部进行坐标系适配

4.3 多模态对齐挑战

当同时使用激光雷达和相机数据时：

确保两种数据在统一坐标系下
注意相机系y轴朝下的特性
投影操作需要考虑坐标变换

示例投影代码：

def lidar_to_image(points, T_cam_lidar, K): """ 将激光雷达点投影到图像平面 :param points: Nx3矩阵，标准激光雷达系下的点 :param T_cam_lidar: 4x4变换矩阵 :param K: 3x3相机内参 :return: 图像坐标 """ # 齐次坐标 points_h = np.hstack([points, np.ones((len(points), 1))]) # 转换到相机系 points_cam = (T_cam_lidar @ points_h.T).T[:, :3] # 投影到图像平面 points_img = (K @ points_cam.T).T points_img = points_img[:, :2] / points_img[:, 2:] return points_img

5. 工程实践建议

在实际项目中处理多数据集时，推荐以下最佳实践：

中间统一格式：设计内部统一的数据表示，所有外部数据集先转换为此格式
转换脚本验证：通过可视化验证关键样本的转换正确性
坐标系文档：团队内部明确文档记录所有坐标系定义
测试用例：为转换代码编写单元测试，特别是边界情况

可视化检查的RViz配置示例：

<rviz> <Display type="LaserScan"> <Topic>/points</Topic> <Color>255,0,0</Color> </Display> <Display type="BoundingBoxArray"> <Topic>/boxes</Topic> <Color>0,255,0</Color> </Display> </rviz>

对于大规模数据处理，建议构建如下pipeline：