FUSE-Bike平台:自行车载多模态感知与VRU行为识别
1. 项目概述:FUSE-Bike平台与BikeActions数据集
在自动驾驶和移动机器人领域,准确理解弱势道路使用者(VRU)的行为意图是确保安全交互的核心挑战。当前研究主要关注车辆视角下的行人过街行为,而忽略了自行车道、人行道等密集共享空间中的复杂交互场景。这种视角局限性导致现有系统难以捕捉骑行者与行人之间的近距离非语言信号(如手势、身体姿态等),而这些恰恰是预测危险动作的关键线索。
FUSE-Bike平台的诞生正是为了解决这一根本性问题。作为首个完全开源的自行车载感知平台,它通过精心设计的硬件配置实现了汽车级的多模态数据采集标准。其创新性体现在三个维度:
- 视角独特性:以骑行者第一人称视角捕捉数据,填补了传统车载传感器在高程和距离上的盲区
- 传感器同步性:采用硬件级PTP时间同步协议,确保LiDAR、相机、GNSS数据的时间对齐精度达微秒级
- 场景覆盖度:专门针对城市共享空间设计,记录交叉路口、狭窄自行车道等高风险场景下的自然交互
配套发布的BikeActions数据集包含46,180帧同步数据(每传感器),从中提取852个精细标注的动作样本,覆盖5类核心行为:
- 行人行走(Walking)
- 行人站立(Standing)
- 自行车骑行(Cycling)
- 左转手势(Cycling: Left)
- 右转手势(Cycling: Right)
关键设计原则:每个动作样本必须包含至少10帧连续数据且目标完全可见,确保时序建模的可行性。例如,一个完整的"骑行→左转手势→骑行"序列会被拆分为三个独立标注段。
2. 硬件架构与技术实现
2.1 传感器配置与集成方案
FUSE-Bike的硬件设计遵循"模块化+车规级"理念,其传感器组合经过严格的工程验证:
| 传感器类型 | 型号参数 | 性能指标 | 安装位置 |
|---|---|---|---|
| 长距LiDAR | Ouster OS2-128 | 200m@10%反射率,10Hz,128线 | 前叉顶部 |
| 近距LiDAR | Ouster OS0-128 | 35m@10%反射率,10Hz,±45°垂直FOV | 长距LiDAR下方 |
| 全局快门相机 | Basler Ace2 pro | 2200×1200@10Hz,12bit RGGB | LiDAR塔侧面 |
| RTK-GNSS | Septentrio AsteRx-m3 Pro+ | 10mm定位精度,0.1°航向精度 | 后货架 |
该配置的创新点在于:
- 垂直LiDAR堆叠:OS2负责远距离障碍物检测(最远200m),OS0覆盖车头近场盲区(35m),两者互补形成无死角3D感知
- 主动冷却系统:后置电子仓配备温控风扇,确保Jetson AGX Orin在长时间户外运行时维持稳定性能
- 机械加固设计:所有传感器通过CNC加工支架刚性连接,避免骑行振动导致的标定偏移
2.2 多传感器标定流程
精确的空间对齐是数据融合的前提,FUSE-Bike采用三级标定策略:
相机内参标定
使用棋盘格标定板计算相机矩阵K(式1),其中(fx,fy)为焦距,(cx,cy)为主点坐标,s为倾斜系数:K = [[fx, s, cx], [ 0, fy, cy], [ 0, 0, 1]]LiDAR-相机外参标定
采用LiDARTag标记法估计OS2到相机的变换矩阵T_cam←os2。具体步骤:- 在场景中布置多个LiDARTag
- 同步采集LiDAR点云和相机图像
- 通过PnP算法求解最优刚体变换
LiDAR间标定
使用基于平面匹配的算法计算OS0到OS2的变换T_os0←os2:- 提取两LiDAR数据中的共视平面(如墙面、地面)
- 通过ICP迭代优化变换参数
- 最终重投影误差控制在<3cm
标定结果通过ROS2 TF2树管理,支持任意传感器数据的空间变换。例如将OS0点云投影到图像平面的公式为:
λp = K [I|0] T_cam←os2 (T_os0←os2)^-1 P_os02.3 时间同步机制
微秒级时间同步通过精密时钟网络实现:
- 主时钟源:Septentrio GNSS作为PTPv2主时钟,输出GPS同步的1PPS信号
- 时钟分发:通过2.5G以太网交换机向所有传感器广播同步时钟
- 硬件触发:相机和LiDAR采用硬件触发模式,由Jetson发送同步脉冲
- 延迟补偿:测量各设备时钟偏移并在软件层校正
该方案使得跨模态数据的时间偏差<100μs,满足高速运动场景的融合需求。图3所示的系统架构中,紫色线即为同步信号路径。
3. 数据集构建与标注规范
3.1 数据采集策略
BikeActions的数据采集在德国慕尼黑城区完成,遵循"自然主义+目标跟随"双模式:
- 自然骑行:骑行者按日常习惯导航,记录真实交通流中的自发行为
- 定向跟随:对特定VRU保持3-5m安全距离,获取连续动作序列
为确保数据多样性,覆盖以下场景:
- 光照条件:晴天/阴天(避免极端天气)
- 道路类型:自行车专用道、混合车道、人行横道
- 交互对象:单人/多人、骑行者/行人
3.2 半自动化标注流程
原始数据经过五步处理 pipeline:
- 序列分割:将长视频切分为20秒片段(200帧)
- VRU检测:使用YOLOv8+StrongSORT实现2D检测与跟踪
- 3D姿态估计:基于LiDAR的点云配准算法生成初始骨架
- 可视化预览:生成带2D/3D骨架叠加的审阅视频
- 人工校验:通过定制工具修正跟踪错误和姿态误差
标注规范的关键约束:
- 动作连续性:同一动作必须持续至少10帧(1秒)
- 可视性要求:关键关节(手、头)必须可见
- 类间边界:动作变化时强制分割样本(如stand→walk)
3.3 数据集统计分析
BikeActions最终包含12个序列(1.3小时),统计特征如下:
| 类别 | 样本数 | 平均长度(帧) | 主要场景 |
|---|---|---|---|
| Walking | 330 | 26.5 | 人行横道, 路边 |
| Standing | 122 | 27.0 | 公交站, 红绿灯 |
| Cycling | 271 | 54.8 | 自行车道, 混合道路 |
| Cycling: Left | 62 | 31.1 | 路口转向, 变道 |
| Cycling: Right | 67 | 30.4 | 路口转向, 避障 |
数据分布呈现两个显著特点:
- 长尾效应:转向手势样本仅占总量15%,反映真实场景中的稀疏性
- 时序紧凑:75%样本长度<50帧,符合原子动作的短时特性
图4b的时长直方图显示,大多数动作可在2秒内完成识别,这对模型的计算效率提出要求。
4. 动作识别基准测试
4.1 模型选型与改进
基于骨骼数据的动作识别主要分为四类方法,本研究选择当前最优的两类进行基准测试:
1. 图卷积网络(GCN)变体
- HD-GCN:通过层次化关节分解捕获局部-全局特征
- CTR-GCN:动态调整拓扑关系的通道敏感模型
- Koopman:将动力学系统理论引入时空建模
2. Transformer架构
- Hyperformer:超图注意力机制建模关节间高阶关系
- Skateformer:专为连续动作设计的滑窗时序编码器
为适配自行车视角数据,进行三项关键改进:
- 镜像增强:水平翻转左右转向样本,缓解数据不平衡
- 骨骼模态:除关节坐标外,增加骨骼向量作为输入特征
- 时序对齐:统一裁剪或填充至64帧,保持输入尺寸一致
4.2 实验设置与评估
训练配置:
- 硬件:NVIDIA RTX 4090 GPU
- 优化器:AdamW (lr=0.001, weight_decay=0.05)
- 正则化:Dropout=0.3, Label Smoothing=0.1
- 训练周期:100 epochs (早停patience=15)
评估指标:
- 分类准确率(主指标)
- 混淆矩阵(分析类间混淆)
- 推理延迟(实测RTX 4090上的单样本处理时间)
4.3 结果分析与洞见
表4所示的基准结果揭示以下发现:
| 模型 | 关节准确率 | 骨骼准确率 | 推理延迟(ms) |
|---|---|---|---|
| HD-GCN | 66.92% | 90.77% | 8.2 |
| CTR-GCN | 93.08% | 89.23% | 11.5 |
| Koopman | 92.31% | 92.31% | 9.8 |
| Hyperformer | 96.15% | 94.62% | 13.7 |
| Skateformer | 95.38% | 93.85% | 12.1 |
关键结论:
- 骨骼模态优势:除HD-GCN外,骨骼输入普遍提升1-3%准确率,因其显式编码肢体运动学约束
- Transformer统治力:Hyperformer在关节数据上达到96.15%准确率,得益于其对远距离关节关系的建模能力
- 实时性达标:所有模型推理时间<15ms,满足10Hz实时处理需求
图6的混淆矩阵显示,主要错误发生在"Left/Right"转向手势的相互混淆(约5%),而跨大类的误判(如Walking判为Cycling)仅占1.2%,证明骨架特征对动作本质的强表征能力。
5. 应用展望与改进方向
5.1 在自动驾驶系统中的落地价值
BikeActions数据集对提升VRU安全具有三重意义:
- 意图预测:通过早期手势识别,车辆可提前3-5秒预判骑行者转向
- 风险评估:站立行人的突然行走(stand→walk)触发紧急制动阈值调整
- 路径规划:识别密集区域的骑行模式,生成更安全的超车轨迹
实际部署时建议采用两级架构:
- 轻量级GCN模型(如CTR-GCN)作为实时前置过滤器
- Hyperformer作为高精度后处理器,处理复杂边缘案例
5.2 未来演进路径
基于当前局限,提出四个改进方向:
- 长尾增强:开发基于4D高斯泼溅的合成数据生成工具,扩充罕见动作样本
- 多模态融合:联合利用RGB外观特征与LiDAR几何特征,提升低光条件下的鲁棒性
- 在线学习:通过车载增量学习适应地域性骑行习惯差异
- 扩展类别:新增"突然刹车"、"避障摆动"等关键危险动作
FUSE-Bike的开放硬件设计允许研究社区持续贡献数据,共同推动微移动场景下的行为理解边界。我们特别期待在以下场景看到突破:共享单车与配送机器人的共道导航、儿童骑行者的异常行为检测、弱势群体(如老年骑行者)的特殊交互模式建模。
