当前位置：首页 > news >正文

DefVINS：可变形场景下的视觉-惯性里程计技术解析

news 2026/7/23 21:13:31

1. DefVINS技术背景与核心挑战

在机器人导航和增强现实领域，视觉-惯性里程计（VIO）技术通过融合相机图像和惯性测量单元（IMU）数据，实现了比单一传感器更鲁棒的位姿估计。传统VIO系统如VINS-Mono、ORB-SLAM3等都基于一个关键假设：观测环境是刚性的。这个假设在大多数结构化场景中表现良好，但当遇到可变形物体（如布料、生物组织）或非刚性场景（如风吹动的植被）时，系统性能会显著下降。

刚性假设的局限性主要体现在三个方面：首先，特征点匹配会因为物体形变而产生误差；其次，IMU预测的刚体运动与视觉观测的非刚性形变会产生矛盾；最后，传统的捆集调整（Bundle Adjustment）无法处理持续变化的场景几何。这些问题导致现有系统在医疗内窥镜导航、柔性物体操作等应用场景中难以实用化。

DefVINS的创新之处在于提出了"粘弹性正则化"（visco-elastic regularization）方法，将状态估计问题解耦为两个部分：

IMU锚定的刚性主体运动（6自由度位姿）
渐进激活的非刚性形变参数（形变场表示）

这种解耦设计使得系统既能保持IMU的高频运动追踪优势，又能通过形变场捕捉局部几何变化。实验数据显示，在合成数据集Drunkard's Odometry上，DefVINS的轨迹误差比传统VIO降低了62%，在真实曼陀罗形变场景中则保持了亚厘米级的定位精度。

2. 系统架构与关键技术实现

2.1 传感器数据预处理管道

DefVINS的输入管道需要处理两种异步数据流：单目/双目图像和IMU测量值。对于视觉数据，系统采用改进的FAST特征检测器，在提取特征点时加入了形变敏感度评分：

// 伪代码：形变敏感特征检测 for (每个图像金字塔层级): FAST角点检测(contrast_threshold=0.05) 计算每个特征点的形变敏感度： score = Σ|I(x+Δx,y+Δy) - I(x,y)| / N (Δx,Δy∈3×3邻域) 保留score > threshold的特征点

IMU数据处理则采用经典的预积分技术，但增加了形变补偿项：

ω_meas = ω_true + b_gyro + n_gyro + D·δ (D:形变耦合矩阵) a_meas = R^T(a_true - g) + b_acc + n_acc + E·δ (E:形变雅可比)

其中δ表示当前帧的形变参数，这个设计使得IMU测量能反映局部形变的影响。

2.2 粘弹性正则化模型

DefVINS的核心创新是引入了连续介质力学中的Kelvin-Voigt模型来描述场景形变：

σ(t) + τ·dσ/dt = E·ε(t) + η·dε/dt

其中σ为应力，ε为应变，E是弹性模量，η是粘性系数，τ为松弛时间常数。在离散实现中，这个模型转化为能量项：

E_reg = λ1||Δδ||² + λ2||δ(t)-δ(t-1)||²

第一项惩罚空间上的剧烈形变（弹性项），第二项约束时间上的突变（粘性项）。λ1和λ2通过网格搜索优化设置为0.3和0.7。

实际实现时，系统采用八叉树管理形变场：

基础分辨率设为5cm（可配置）
在特征密集区域自动细分到1cm
每个节点存储3D位移向量δ∈R³
形变查询使用三线性插值

2.3 两阶段优化框架

系统采用关键帧策略，每10帧选一个关键帧进行全局优化。优化问题分为两个阶段：

阶段一：刚性-形变解耦

min┬(X,δ)〖∑▒〖ρ(‖r_imu‖²)〗+∑▒〖ρ(‖r_visual(X,δ)‖²)〗+E_reg(δ)〗

其中X包含相机位姿、速度、IMU偏置等传统状态量，δ是形变参数。使用DogLeg算法求解。

阶段二：联合精细优化在阶段一结果的基础上，增加边缘化先验和惯性约束，构建完整的因子图：

Factor Graph包含： - IMU预积分因子 - 重投影误差因子 - 形变正则化因子 - 边缘化先验因子

使用iSAM2进行增量式优化，实时性达到20Hz（i7-11800H处理器）。

3. 实验验证与性能分析

3.1 基准测试配置

为填补可变形场景VIO评估的空白，团队构建了两个基准：

合成数据集：

基于Drunkard's Odometry数据生成虚拟IMU读数
6种形变模式（拉伸、剪切、扭转等）
轨迹长度30-100米，形变幅度5-40cm
添加了IMU噪声（陀螺：0.01 rad/s/√Hz，加速度计：0.1 m/s²/√Hz）

真实数据集：

使用Intel RealSense D455采集曼陀罗布料形变序列
人工标记了312个地面控制点
包含缓慢形变（<1cm/s）和快速抖动（>10cm/s）
同步记录IMU数据（BMI085，200Hz）

3.2 量化结果对比

在绝对轨迹误差（ATE）指标上，DefVINS显著优于基线方法：

方法	合成数据ATE(m)	真实数据ATE(m)	形变区域误差(cm)
VINS-Mono	0.38	0.29	12.7
ORB-SLAM3	0.41	0.33	15.2
DynaVINS	0.27	0.21	8.3
DefVINS(本文)	0.15	0.09	3.8

特别值得注意的是，在剧烈形变区域（如布料褶皱处），DefVINS仍能保持定位精度，而传统方法会出现明显的轨迹漂移。

3.3 计算效率分析

系统在Ubuntu 20.04上测试，各模块耗时占比：

前端特征跟踪：15ms（25%）
IMU预积分：3ms（5%）
刚性-形变解耦：22ms（37%）
联合优化：20ms（33%）

内存消耗方面，形变场表示平均占用78MB，比密集点云地图节省62%内存。通过八叉树的惰性更新策略，形变更新操作仅增加8%的CPU负载。

4. 工程实践与调优建议

4.1 参数配置经验

在实际部署中，我们总结出以下调优经验：

形变敏感度阈值：
- 室内场景：0.15-0.2
- 医疗场景（软组织）：0.05-0.1
- 工业场景（橡胶/布料）：0.1-0.15
正则化权重：
- λ1控制形变平滑度，建议从0.3开始调整
- λ2影响形变惯性，动态场景设为0.7-1.0
- 可通过观察重投影误差分布来微调
关键帧策略：
- 形变速度<5cm/s时，关键帧间隔10-15帧
- 快速形变时缩短到5-8帧
- 使用熵值法自动判断关键帧必要性

4.2 常见问题排查

问题1：剧烈形变时轨迹跳变

检查IMU-相机时间同步（误差应<1ms）
增大粘性项系数λ2
验证IMU噪声参数是否准确

问题2：形变区域出现伪影

降低特征点形变敏感度阈值
增加弹性项系数λ1
检查相机标定参数，特别是畸变模型

问题3：系统实时性不足

降低八叉树最大深度（建议5-6层）
启用Schur补加速求解
将前端特征提取移到专用线程

4.3 典型应用场景

医疗内窥镜导航：
- 在猪心实验中，DefVINS实现了1.2mm的定位精度
- 能适应心跳和器械接触导致的组织形变
- 集成到达芬奇手术系统测试中表现稳定
柔性物体抓取：
- 配合机械臂操作布料时，位姿误差<3mm
- 可实时更新被抓取物体的形变状态
- 比纯视觉方法抗遮挡能力更强
增强现实应用：
- 在动态服装试衣AR系统中，虚拟服装能自然贴合
- 支持多人互动时的实时形变建模
- 功耗比RGB-D方案降低40%