当前位置: 首页 > news >正文

语义slam Kimera - MKT

好的,我们来详细解析 ​​Kimera​​。这是一个在机器人领域非常有影响力的开源项目,它提供了一个完整、鲁棒且实时的​​空间感知​​系统。Kimera 的核心思想非常优雅:​​将 SLAM 的几何重建与语义理解紧密融合在一个统一的、轻量度的度量-语义(Metric-Semantic) 3D 地图中。​

 

image

 

二、Kimera 的核心思想:分层混合估计

Kimera 的名字源自希腊神话中的怪物 ​​Chimera​​,它由不同动物的部分组成。这隐喻了 Kimera 系统将不同的组件(快速视觉惯性里程计、3D网格重建、语义标注)融合成一个强大的整体。其核心是构建一个包含四个层次的​​度量-语义地图​​:

层次一:度量层——精确的几何与位姿

  • ​​目标​​:实时估计精确的机器人轨迹和环境的稠密几何。
  • ​​实现​​:
    1. ​​Kimera-VIO​​:一个​​快速、鲁棒的视觉惯性里程计​​模块。它融合相机图像和IMU数据,以高频输出机器人精确的位姿估计。这是整个系统的基础。
    2. ​​Kimera-Mesher​​:利用 VIO 的位姿和相机图像,实时构建一个​​轻量度的 3D 网格​​。与庞大的点云不同,网格明确表示了表面,更轻量且更具物理意义(例如,可用于避障和路径规划)。

 

层次二:语义层——为几何赋予意义

  • ​​目标​​:识别环境中的语义实体(如房间、物体、结构)。
  • ​​实现​​:
    1. ​​Kimera-Semantics​​:这是 Kimera 的灵魂。它采用一种​​2D-3D 联合推理​​的方法:
      • ​​步骤A(2D语义分割)​​:对每一帧输入的 2D 图像,使用一个轻量级的深度学习模型(如 PSPNet)进行像素级语义分割(例如,将像素分类为“地板”、“墙壁”、“椅子”等)。
      • ​​步骤B(3D语义融合)​​:将这些 2D 语义标签​​反向投影​​并融合到 Kimera-Mesher 生成的 3D 网格中。具体来说,它使用一个​​3D语义卷​​,每个体素不仅存储几何信息(如 TSDF 值),还存储一个​​语义概率分布​​(即,这个体素是“椅子”的概率是 0.9,是“桌子”的概率是 0.1)。
      • ​​结果​​:最终,3D 网格的​​每个面片都被赋予了一个语义标签​​。于是,你得到的不再是一个灰色的网格,而是一个带有颜色的网格,其中颜色代表了语义类别(例如,墙壁是蓝色的,地板是绿色的)。

 

 

层次三:实例层——区分不同物体

  • ​​目标​​:不仅知道“这是一把椅子”,还要知道“这是三把不同的椅子”。
  • ​​实现​​:通过几何分割算法(如连接组件分析)将属于同一语义类别且空间上相连的面片分组,形成不同的物体实例。例如,将四堵墙和一块地板分组为一个“房间”实例。

层次四:场景图层——描述实体关系(高级抽象)

  • ​​目标​​:描述实例之间的高层关系,支持符号推理。
  • ​​实现​​:构建一个​​场景图​​。
    • ​​节点​​:代表度量-语义地图中的实体(如“房间101”、“桌子1”、“门_2”)。
    • ​​边​​:代表实体之间的关系(如 桌子_1​​位于​​ 房间_101门_2​​连接​​ 房间_101和 走廊)。

三、Kimera 的工作流程

  1. ​​输入​​:单目/立体相机图像流 + IMU 数据。
  2. ​​VIO 里程计​​:Kimera-VIO 实时计算高频、精确的相机位姿。
  3. ​​网格重建​​:Kimera-Mesher 利用位姿和图像,增量式地构建和优化 3D 网格。
  4. ​​语义融合​​:并行地,Kimera-Semantics 将 2D 图像的语义分割结果融合到 3D 语义体中,并将最终的语义标签投射到网格上。
  5. ​​输出​​:实时生成一个​​轻量度的、带语义标签的 3D 网格​​。后处理步骤可以进一步生成实例信息和场景图。

 

image

 

image

 

image

 

image

 

image

 

http://www.jsqmd.com/news/25101/

相关文章:

  • 高效CLI应用质量检测工具
  • ICPC2025成都 游记
  • 应用安全 --- vmp流程
  • 语言-地图slam ConceptGraphs: Open-vocabulary 3D scene graphs for perception and planning, - MKT
  • 语义slam Fusion++ - MKT
  • 特征提取器 PointNet++ - MKT
  • 点云配准 GeoTransformer - MKT
  • 点云配准 Deep closest point: Learning representations for point cloud registration, - MKT
  • tryhackme-网络安全基础-命令行- Linux Shells-23
  • 开发Minecraft Forge模组遇到的问题记录
  • 【ESP32 在线语音】 待写 TTS
  • Fusion++ 语义实例分割​​与​​稠密SLAM重建​​在TSDF子图层面进行了深度融合 - MKT
  • tryhackme-网络安全基础-命令行- Windows PowerShell-22
  • XCPC英语学习day2
  • 2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体阀门专业制造商,精选PFA/四氟阀门优质品牌解析
  • 2025年PFA隔膜阀厂家权威推荐榜:耐腐蚀高纯流体专用阀门,PTFE/FEP/PFA材质隔膜阀源头企业综合评测
  • 【ESP32 在线语音】音频接收的缓存机制
  • 我在iOS/Swift工程中成功编译了HarfBuzz!
  • Python access mysql and insert data batch by batch
  • CodeForces-2153D Not Alone
  • Codeforces Round 1062 (Div. 4)
  • 一文吃透银行账务打通体系闭环 - 智慧园区
  • uups 逻辑合约也增加了升级函数,那总体不是也费gas吗?
  • 【URP】Unity[纹理压缩]算法多平台对比
  • AI元人文构想:三值纠缠模型
  • EDK2环境搭建以及HelloWorld编译实现
  • 谁生?谁死?从引用计数到可达性分析,洞悉GC的决策逻辑
  • P1561 [USACO12JAN] Mountain Climbing S
  • 六、阅读笔记六:保障软件可靠性的防线
  • 五、阅读笔记五 应对复杂系统的挑战