当前位置: 首页 > news >正文

DROID-SLAM 夜晚超强(3) 数学模型 latex - MKT

DROID-SLAM 夜晚超强(3) 数学模型 latex

 

 

 

image

image

 

image

 

 

image

 

 

image

 

image

 

 

image

 

image

 

image

 

image

 

image

 

image

 

10. 为什么这种形式比直接光流更适合 SLAM

因为纯光流只能告诉你“像素动了多少”,但它不天然保证:

- 所有像素对应同一个相机运动
- 同一个三维结构在多帧之间几何一致
- 位姿和深度之间相互协调

而 DROID 这种重投影优化会显式利用:

- 相机位姿
- 深度
- 多帧约束
- 因子图结构

所以它不是单纯估计一个二维流场,而是在估计一个能够解释这个流场的三维场景和相机运动。


11. 一句话概括这部分原理

最合适的概括是:

[
\text{网络负责提出稠密对应,BA负责把这些对应解释成一致的三维几何。}
]

或者论文里更正式一点:

[
\text{通过最小化网络引导的稠密重投影残差,联合优化相机位姿与逆深度。}
]

如果你要,我下一步可以直接把这一整段解释整理成一节可直接放进 Overleaf 的 LaTeX 小节,标题就叫:

Dense Reprojection / Optical-Flow-Like Term 的数学原理

并追加进你刚才那个 .tex 文件里。

 

 

 

 

image

 

image

 

image

image

 

 

image

 

image

image

 

image

 

image

 

image

image

 

 

 

image

 

% This file is intended to be included in an existing Overleaf project.
% Suggested packages in your main tex file:
% \usepackage{amsmath, amssymb, bm}
% If your main project is not already configured for Chinese,
% use ctex or xeCJK in the main document.\section{DROID-SLAM与GPS/ENU约束的数学模型}需要说明的是,\texttt{run\_droid\_gps\_enu.py} 的实现并不是将视觉项与GPS项一次性写入同一个联合正规方程中统一求解,而是采用交替优化策略:
先执行DROID-SLAM的稠密重投影Bundle Adjustment,再执行一次基于GPS先验的位姿平移修正。因此,从实现角度看,它更准确地属于“视觉BA + GPS先验修正”的交替求解框架。\subsection{状态变量}设第 \(i\) 个关键帧位姿为
\begin{equation}
T_i \in SE(3),
\end{equation}
其逆深度图记为 \(\rho_i(p)\),其中像素 \(p=(u,v)\)。相机内参记为 \(K_i\)。两帧之间的相对位姿定义为
\begin{equation}
T_{ji} = T_j T_i^{-1}.
\end{equation}记第 \(i\) 帧相机中心在SLAM世界坐标系中的位置为 \(c_i \in \mathbb{R}^3\),其对应的GPS观测在ENU坐标系下的位置为 \(g_i \in \mathbb{R}^3\)。\subsection{视觉重投影约束}\subsubsection{像素反投影}对第 \(i\) 帧中的像素 \(p=(u,v)\),记其齐次坐标为
\begin{equation}
\bar{p} = [u,v,1]^\top.
\end{equation}由逆深度反投影得到该像素对应的三维点
\begin{equation}
X_i(p) = \frac{1}{\rho_i(p)} K_i^{-1}\bar{p}.
\end{equation}\subsubsection{跨帧重投影}在当前位姿与深度估计下,该点投影到第 \(j\) 帧后的像素坐标为
\begin{equation}
\hat{p}_{ij}(p) = \pi \bigl( K_j T_{ji} X_i(p) \bigr),
\end{equation}
其中 \(\pi(\cdot)\) 表示针孔投影函数。\subsubsection{网络预测的稠密对应修正}DROID中的更新网络基于相关体和运动特征,为每条边 \((i,j)\) 上的每个像素预测一个二维修正量 \(\Delta_{ij}(p)\) 和像素权重 \(w_{ij}(p)\)。因此,优化目标对应点可写为
\begin{equation}
p^*_{ij}(p) = \hat{p}_{ij}(p) + \Delta_{ij}(p).
\end{equation}\subsubsection{视觉项目标函数}于是,视觉重投影项可以写为
\begin{equation}
E_{\mathrm{flow}}(T,\rho)
=
\sum_{(i,j)\in\mathcal{E}}
\sum_{p\in\Omega_i}
\left\|
W_{ij}(p)^{1/2}
\left(
p^*_{ij}(p) -
\pi \bigl(K_j T_{ji} X_i(p)\bigr)
\right)
\right\|_2^2
+
\sum_i \sum_{p\in\Omega_i}
\eta_i(p)\bigl(\delta \rho_i(p)\bigr)^2,
\end{equation}
其中 \(\mathcal{E}\) 为因子图中的边集合,\(\Omega_i\) 表示第 \(i\) 帧的像素集合,\(W_{ij}(p)\) 为像素级权重矩阵,\(\eta_i(p)\) 为逆深度阻尼项。在实现中,权重矩阵可以写成
\begin{equation}
W_{ij}(p)=10^{-3}\,\mathrm{diag}\bigl(w^x_{ij}(p),\,w^y_{ij}(p)\bigr).
\end{equation}\subsubsection{线性化形式}对残差进行一阶线性化,有
\begin{equation}
r_{ij}(p)
\approx
r^0_{ij}(p)
- J_i(p)\,\delta \xi_i
- J_j(p)\,\delta \xi_j
- J_{\rho}(p)\,\delta \rho_i(p),
\end{equation}
其中 \(\delta \xi_i,\delta \xi_j\) 是位姿在李代数中的增量,\(J_i,J_j,J_{\rho}\) 分别表示对源帧位姿、目标帧位姿和逆深度的雅可比矩阵。代码中基于该线性化模型构建正规方程,并通过Schur Complement对位姿和深度进行联合求解。\subsection{GPS到ENU坐标转换}设原始GPS测量为地理坐标
\begin{equation}
(\phi_i,\lambda_i,h_i),
\end{equation}
其中 \(\phi_i\) 为纬度,\(\lambda_i\) 为经度,\(h_i\) 为高程。以参考点
\begin{equation}
(\phi_0,\lambda_0,h_0)
\end{equation}
建立局部ENU坐标系,则首先将地理坐标转换到ECEF坐标系:
\begin{equation}
x_i^{\mathrm{ecef}} = f_{\mathrm{ecef}}(\phi_i,\lambda_i,h_i).
\end{equation}再转换到ENU坐标系:
\begin{equation}
g_i
=
R_{\mathrm{enu}\leftarrow\mathrm{ecef}}(\phi_0,\lambda_0)
\bigl(x_i^{\mathrm{ecef}} - x_0^{\mathrm{ecef}}\bigr).
\end{equation}其中,ECEF到ENU的旋转矩阵为
\begin{equation}
R_{\mathrm{enu}\leftarrow\mathrm{ecef}}
=
\begin{bmatrix}
-\sin\lambda_0 & \cos\lambda_0 & 0 \\
-\sin\phi_0\cos\lambda_0 & -\sin\phi_0\sin\lambda_0 & \cos\phi_0 \\
\cos\phi_0\cos\lambda_0 & \cos\phi_0\sin\lambda_0 & \sin\phi_0
\end{bmatrix}.
\end{equation}\subsection{ENU与SLAM坐标系之间的Sim(3)对齐}由于单目SLAM轨迹与ENU坐标系之间通常存在尺度、旋转和平移差异,代码先通过匹配的GPS关键帧估计一个相似变换:
\begin{equation}
\mathcal{S}(g) = sRg + t,
\end{equation}
其中 \(s>0\) 为尺度,\(R\in SO(3)\) 为旋转矩阵,\(t\in\mathbb{R}^3\) 为平移向量。该相似变换通过最小化以下误差估计:
\begin{equation}
\min_{s,R,t}
\sum_{k\in\mathcal{M}}
\left\|
c_k - (sRg_k + t)
\right\|_2^2,
\end{equation}
其中 \(\mathcal{M}\) 表示具有有效GPS观测的关键帧集合。实现中使用Umeyama方法估计Sim(3),并可结合RANSAC对外点进行剔除。\subsection{GPS先验约束}\subsubsection{GPS残差定义}在完成ENU到SLAM的Sim(3)对齐后,第 \(k\) 个关键帧的GPS残差定义为
\begin{equation}
e_k = c_k - \mathcal{S}(g_k).
\end{equation}\subsubsection{竖直方向加权}由于高度方向的GPS误差通常更大,代码对竖直方向施加较小权重,定义加权残差
\begin{equation}
\tilde{e}_k = D_v e_k,
\qquad
D_v = \mathrm{diag}(1,1,\lambda_v),
\end{equation}
其中 \(\lambda_v\) 为竖直方向权重,默认取
\begin{equation}
\lambda_v = 0.25.
\end{equation}\subsubsection{Huber鲁棒核}令加权残差范数为
\begin{equation}
r_k = \|\tilde{e}_k\|_2,
\end{equation}
则代码中引入一个Huber形式的鲁棒缩放因子:
\begin{equation}
\alpha_k =
\begin{cases}
1, & r_k \le \delta_h, \\
\dfrac{\delta_h}{r_k}, & r_k > \delta_h,
\end{cases}
\end{equation}
其中 \(\delta_h\) 为Huber阈值,默认设置为
\begin{equation}
\delta_h = 3.0\ \mathrm{m}.
\end{equation}\subsubsection{理想化的GPS能量表达}若将该先验写成标准能量函数形式,则可表示为
\begin{equation}
E_{\mathrm{gps}}(T)
=
\sum_{k\in\mathcal{I}}
\rho_H
\left(
\left\|
D_v\bigl(c_k-\mathcal{S}(g_k)\bigr)
\right\|_2
\right),
\end{equation}
其中 \(\rho_H(\cdot)\) 表示Huber损失函数,\(\mathcal{I}\) 表示GPS内点集合。\subsection{代码中的实际GPS更新方式}需要强调的是,代码并没有把 \(E_{\mathrm{gps}}\) 直接并入DROID的BA正规方程中联合求解,而是在每次BA之后对位姿平移执行一次梯度式修正。对每个GPS内点关键帧,其平移更新量为
\begin{equation}
\Delta c_k
=
-\eta_{\mathrm{step}}
\, w_{\mathrm{prior}}
\, \alpha_k
\, \tilde{e}_k,
\end{equation}
其中 \(w_{\mathrm{prior}}\) 为GPS先验权重,\(\eta_{\mathrm{step}}\) 为步长系数。为了避免GPS对轨迹施加过大的瞬时扰动,代码还对平移更新步长做了截断:
\begin{equation}
\|\Delta c_k\|_2 \le \Delta_{\max},
\end{equation}
其中 \(\Delta_{\max}\) 表示单次更新允许的最大平移修正量。最终,相机中心位置按如下方式更新:
\begin{equation}
c_k \leftarrow c_k + \Delta c_k.
\end{equation}这一更新只作用于位姿平移,不直接修改姿态旋转。\subsection{整体优化流程}因此,该方法更准确的整体表达应写为交替优化:
\begin{align}
(T,\rho) &\leftarrow \arg\min E_{\mathrm{flow}}(T,\rho), \\
c &\leftarrow c - \eta \nabla E_{\mathrm{gps}}(c).
\end{align}换句话说,每一次后端更新迭代都包括两个阶段:
\begin{enumerate}\item 利用稠密重投影残差执行DROID的视觉Bundle Adjustment;\item 利用GPS先验对关键帧的世界坐标平移进行一次鲁棒修正。
\end{enumerate}因此,在论文中更推荐将该方法表述为:
“基于DROID-SLAM稠密重投影优化,并结合GPS/ENU位置先验进行交替约束优化”,
而不建议表述为“将GPS项直接并入统一BA中做一次性联合求解”。\subsection{默认参数}若采用默认配置,则主要GPS优化参数为
\begin{align}
w_{\mathrm{prior}} &= 0.15, \\
\eta_{\mathrm{step}} &= 0.35, \\
\delta_h &= 3.0\ \mathrm{m}, \\
\Delta_{\max} &= 0.75\ \mathrm{m}, \\
\lambda_v &= 0.25.
\end{align}

  

http://www.jsqmd.com/news/679092/

相关文章:

  • golang如何使用expvar暴露运行时指标_golang expvar运行时指标暴露步骤
  • 【无标题】d wa dwa da w
  • 终极iOS设备降级工具:Legacy-iOS-Kit完全指南
  • Vitis自定义IP编译过了,Debug却卡在QEMU文件缺失?一个手动创建空文件的“土办法”救了我
  • 如何用MAA明日方舟助手彻底解放你的游戏时间?
  • 2026兰州复读学校排行:甘肃高三复读学校/甘肃高三文化课冲刺/甘肃高中复读学校/甘肃高考复读学校/甘肃高考文化课冲刺集训/选择指南 - 优质品牌商家
  • 爱奇艺发布纳逗Pro平台、新爱奇艺号和分账新规 今年预计上线3.5万部漫剧
  • 2026年4月西北机制净化板厂家排行:兰州中空玻镁岩棉净化板/兰州净化板厂家/兰州净化板生产厂家/兰州岩棉净化板/选择指南 - 优质品牌商家
  • 2026兰州钢塑波纹管技术全解析:兰州pe双壁波纹管/兰州pe聚乙烯波纹管/兰州pe钢带增强波纹管/兰州pe钢带增强螺旋波纹管/选择指南 - 优质品牌商家
  • 如何在Windows上快速安装苹果设备驱动程序:终极解决方案指南
  • 打印时隐藏元素_print样式display-none技巧【操作】
  • 保姆级教程:用dynv6免费域名+ddns-go,给你的Windows远程桌面挂个‘固定电话’
  • 3步完成微信聊天记录备份:WeChatExporter终极免费教程
  • Mac用户终极指南:如何用WeChatExporter轻松备份和恢复微信聊天记录
  • 面向高校机房还原卡替代的vDisk云桌面选型与建设参考
  • wa dda da w da w d
  • 5步轻松打造个人番茄小说图书馆:离线阅读的终极解决方案
  • AI大模型时代:9大高薪新岗位曝光,传统IT人如何转型抢占红利?
  • HTML怎么提升首屏加载_HTML关键资源内联策略【说明】
  • KH Coder:零代码文本挖掘神器,5分钟开启专业内容分析之旅
  • vDisk环境下机房保护卡更新操作指南
  • 部署本地AI大模型--ollma
  • (AI总结版)SQL Developer 安装好了,Oracle 21c XE 数据库已连接,之后的操作:搭建大数据开发的基础环境
  • 树莓派Pico与光电传感器打造实体解谜游戏控制器
  • Fedora 43 配置 ROCm 7.2 与 PyTorch 2.11
  • Leather Dress Collection惊艳效果:Leather Beltbra MicroShorts微距质感表现
  • 如何在Windows上直接运行Android应用?APK Installer让你轻松告别模拟器
  • 如何让微信在手机和平板同时在线?WeChatPad技术方案深度解析
  • 如何简化多表关联SQL逻辑_利用视图封装复杂JOIN操作
  • 如何高效使用文泉驿微米黑:开源中文字体的完整实践指南