当前位置：首页 > news >正文

FUSE-Bike平台：自行车载多模态感知与VRU行为识别

news 2026/4/30 5:20:49

1. 项目概述：FUSE-Bike平台与BikeActions数据集

在自动驾驶和移动机器人领域，准确理解弱势道路使用者（VRU）的行为意图是确保安全交互的核心挑战。当前研究主要关注车辆视角下的行人过街行为，而忽略了自行车道、人行道等密集共享空间中的复杂交互场景。这种视角局限性导致现有系统难以捕捉骑行者与行人之间的近距离非语言信号（如手势、身体姿态等），而这些恰恰是预测危险动作的关键线索。

FUSE-Bike平台的诞生正是为了解决这一根本性问题。作为首个完全开源的自行车载感知平台，它通过精心设计的硬件配置实现了汽车级的多模态数据采集标准。其创新性体现在三个维度：

视角独特性：以骑行者第一人称视角捕捉数据，填补了传统车载传感器在高程和距离上的盲区
传感器同步性：采用硬件级PTP时间同步协议，确保LiDAR、相机、GNSS数据的时间对齐精度达微秒级
场景覆盖度：专门针对城市共享空间设计，记录交叉路口、狭窄自行车道等高风险场景下的自然交互

配套发布的BikeActions数据集包含46,180帧同步数据（每传感器），从中提取852个精细标注的动作样本，覆盖5类核心行为：

行人行走（Walking）
行人站立（Standing）
自行车骑行（Cycling）
左转手势（Cycling: Left）
右转手势（Cycling: Right）

关键设计原则：每个动作样本必须包含至少10帧连续数据且目标完全可见，确保时序建模的可行性。例如，一个完整的"骑行→左转手势→骑行"序列会被拆分为三个独立标注段。

2. 硬件架构与技术实现

2.1 传感器配置与集成方案

FUSE-Bike的硬件设计遵循"模块化+车规级"理念，其传感器组合经过严格的工程验证：

传感器类型	型号参数	性能指标	安装位置
长距LiDAR	Ouster OS2-128	200m@10%反射率，10Hz，128线	前叉顶部
近距LiDAR	Ouster OS0-128	35m@10%反射率，10Hz，±45°垂直FOV	长距LiDAR下方
全局快门相机	Basler Ace2 pro	2200×1200@10Hz，12bit RGGB	LiDAR塔侧面
RTK-GNSS	Septentrio AsteRx-m3 Pro+	10mm定位精度，0.1°航向精度	后货架

该配置的创新点在于：

垂直LiDAR堆叠：OS2负责远距离障碍物检测（最远200m），OS0覆盖车头近场盲区（35m），两者互补形成无死角3D感知
主动冷却系统：后置电子仓配备温控风扇，确保Jetson AGX Orin在长时间户外运行时维持稳定性能
机械加固设计：所有传感器通过CNC加工支架刚性连接，避免骑行振动导致的标定偏移

2.2 多传感器标定流程

精确的空间对齐是数据融合的前提，FUSE-Bike采用三级标定策略：

相机内参标定
使用棋盘格标定板计算相机矩阵K（式1），其中(fx,fy)为焦距，(cx,cy)为主点坐标，s为倾斜系数：
```
K = [[fx, s, cx], [ 0, fy, cy], [ 0, 0, 1]]
```
LiDAR-相机外参标定
采用LiDARTag标记法估计OS2到相机的变换矩阵T_cam←os2。具体步骤：
- 在场景中布置多个LiDARTag
- 同步采集LiDAR点云和相机图像
- 通过PnP算法求解最优刚体变换
LiDAR间标定
使用基于平面匹配的算法计算OS0到OS2的变换T_os0←os2：
- 提取两LiDAR数据中的共视平面（如墙面、地面）
- 通过ICP迭代优化变换参数
- 最终重投影误差控制在<3cm

标定结果通过ROS2 TF2树管理，支持任意传感器数据的空间变换。例如将OS0点云投影到图像平面的公式为：

λp = K [I|0] T_cam←os2 (T_os0←os2)^-1 P_os0

2.3 时间同步机制

微秒级时间同步通过精密时钟网络实现：

主时钟源：Septentrio GNSS作为PTPv2主时钟，输出GPS同步的1PPS信号
时钟分发：通过2.5G以太网交换机向所有传感器广播同步时钟
硬件触发：相机和LiDAR采用硬件触发模式，由Jetson发送同步脉冲
延迟补偿：测量各设备时钟偏移并在软件层校正

该方案使得跨模态数据的时间偏差<100μs，满足高速运动场景的融合需求。图3所示的系统架构中，紫色线即为同步信号路径。

3. 数据集构建与标注规范

3.1 数据采集策略

BikeActions的数据采集在德国慕尼黑城区完成，遵循"自然主义+目标跟随"双模式：

自然骑行：骑行者按日常习惯导航，记录真实交通流中的自发行为
定向跟随：对特定VRU保持3-5m安全距离，获取连续动作序列

为确保数据多样性，覆盖以下场景：

光照条件：晴天/阴天（避免极端天气）
道路类型：自行车专用道、混合车道、人行横道
交互对象：单人/多人、骑行者/行人

3.2 半自动化标注流程

原始数据经过五步处理 pipeline：

序列分割：将长视频切分为20秒片段（200帧）
VRU检测：使用YOLOv8+StrongSORT实现2D检测与跟踪
3D姿态估计：基于LiDAR的点云配准算法生成初始骨架
可视化预览：生成带2D/3D骨架叠加的审阅视频
人工校验：通过定制工具修正跟踪错误和姿态误差

标注规范的关键约束：

动作连续性：同一动作必须持续至少10帧（1秒）
可视性要求：关键关节（手、头）必须可见
类间边界：动作变化时强制分割样本（如stand→walk）

3.3 数据集统计分析

BikeActions最终包含12个序列（1.3小时），统计特征如下：

类别	样本数	平均长度(帧)	主要场景
Walking	330	26.5	人行横道, 路边
Standing	122	27.0	公交站, 红绿灯
Cycling	271	54.8	自行车道, 混合道路
Cycling: Left	62	31.1	路口转向, 变道
Cycling: Right	67	30.4	路口转向, 避障