当前位置: 首页 > news >正文

NeurIPS 2025 | 港中文提出COS3D:多模态融合语言与分割,创造开放词汇3D分割新范式! - 详解

一、导读

近年来,随着辐射场(radiance field)与三维高斯泼溅(3D Gaussian Splatting, 3D-GS)等三维表示方法的发展,基于二维视觉-语言模型(VLM)的开放词汇三维分割方法逐渐成为研究热点。

现有方法重要分为两类:语言场方法与分割后选择途径。语言场方法如 LangSplat、LEGaussians 等,通过可微分渲染将 CLIP 特征蒸馏至三维语言场中,达成对语言查询的响应,但其语言特征表达能力有限,导致分割边界模糊。分割后选择方法如 OpenGaussian、InstanceGaussian,先进行类无关三维分割,再应用语言模型进行匹配,但分割误差会进一步累积,影响最终性能。

本文指出,现有方法的根本问题在于未能充分利用语言与分割信息之间的互补性:分割信息具有判别性强、边界清晰的特性,而语言信息则提供高层语义理解。

为此,COS3D 提出协同场(collaborative field)概念,将实例场与语言场有机结合,利用双向映射机制在训练与推理阶段实现两者的协同优化,从而在分割质量与训练效率上均取得显著提升。

二、论文基本信息

  • 论文标题:COS3D: Collaborative Open-Vocabulary 3D Segmentation

  • 作者:Runsong Zhu, Ka-Hei Hui, Zhengzhe Liu, Qianyi Wu, Weiliang Tang, Shi Qiu, Pheng-Ann Heng, Chi-Wing Fu

  • 单位:香港中文大学、Autodesk AI Lab、岭南大学、莫纳什大学

  • 会议/期刊:NeurIPS 2025

  • 代码链接:https://github.com/Runsong123/COS3D

点击原文,查看更多NeurIPS 2025论文精读

三、主要贡献与创新

  1. 提出 COS3D 框架,首次在开放词汇三维分割任务中引入协同场结构,实现语言与分割信息的深度融合。

  2. 设计了一种两阶段训练策略,包括实例场学习与实例到语言(Ins2Lang)映射学习,有效构建语义一致的语言场。

  3. 提出自适应语言到实例(Lang2Ins)提示优化机制,在推理阶段利用语言场的三维相关性图引导实例场进行边界感知的分割优化。

  4. 在 LeRF 与 ScanNetv2 信息集上取得最优性能,mIoU 分别达到 50.76 与 44.32,显著优于现有方法。

  5. 展示了技巧在图像引导分割、层次化查询与机器人抓取等实际任务中的广泛应用潜力。

四、研究手段与原理

COS3D 的核心思路是利用构建实例场与语言场之间的双向映射,实现语言与分割信息的协同优化。

在三维高斯泼溅表示基础上,每个高斯点 囊括位置 、尺度 、旋转 、透明度 与颜色 。协同场由实例场 与语言场 组成,分别赋予每个高斯点实例特征 与语言特征 。

训练阶段采用两阶段策略:首先通过对比学习优化实例场,其损失函数为:

其中 为余弦相似度, 为实例 的特征均值。随后,基于实例特征与 CLIP 语言特征构建映射函数 ,可采用浅层 MLP 或核回归实现。

推理阶段,给定文本查询 ,首先通过语言场生成三维相关性图 ,计算公式为:

随后,通过 Lang2Ins 提示优化机制,基于实例特征的相似性进行局部区域聚合与过滤,最终输出高质量的三维分割结果。

五、实验设计与结果分析

结果在 LeRF 数据集上
在 LeRF 数据集上,COS3D 在 mIoU 与 mAcc 上均显著优于 LangSplat、LEGaussians、OpenGaussian 等基线途径。具体而言,采用核回归版本的 COS3D 在整体 mIoU 上达到 50.76,优于最佳基线 Dr.Splat 的 43.58。在场景如ficuskitchen中,mIoU 分别达到 60.03 与 42.10,显示出较强的场景适应能力。

结果在 ScanNetv2 数据集上
在 ScanNetv2 的 10 类查询任务中,COS3D 的 mIoU 达到 44.32,优于 OpenGaussian 的 38.29。在 19 类与 15 类设置下也分别取得 32.47 与 35.95 的 mIoU,进一步验证了其泛化能力。

消融研究
消融实验表明,两阶段训练策略在性能与效率上均优于联合训练与并行训练。Lang2Ins 推理机制相比仅使用语言场或实例场,在 mIoU 上提升约 2–6 个百分点,且仅增加 0.1 秒的推理时间。此外,使用 SAM2 与 SigLIP 等更先进的二维基础模型可进一步提升性能。

应用展示
COS3D 在图像引导分割、层次化查询与机器人抓取等任务中均表现出色。例如,在机器人抓取任务中,其准确的三维分割结果为机械臂供应了可靠的物体定位信息,成功达成抓取操作。

六、论文结论与评价

COS3D 通过构建实例场与语言场的协同机制,在开放词汇三维分割任务中实现了显著的性能提升。其在 LeRF 与 ScanNetv2 数据集上的实验结果表明,该途径在分割质量、训练效率与泛化能力方面均优于现有方法。此外,该办法在图像引导分割、层次化理解与机器人操作等实际任务中展现出广泛的应用前景。

然而,COS3D 仍存在一定局限性:其语言场在处理复杂关系查询或多物体组合语义时表现有限,且目前仅支持离线场景。未来可探索引入更强的关系推理机制,并研究在线学习策略以适用于动态环境。总体而言,COS3D 为三维场景理解提供了一种有效的协同建模范式,具有要紧的理论价值与实际意义。

点击原文,查看更多NeurIPS 2025论文精读

http://www.jsqmd.com/news/57377/

相关文章:

  • 沈阳铁西婚礼酒店哪家好?这份本地热门场地参考值得看
  • 花,草,还有世界
  • 东城区婚姻律师事务所推荐:聚焦家事法律服务的专业选择
  • 无人机培训考证哪家费用优惠?国内机构选择参考
  • arm 架构 CentOS 7 安装 MySQL 5.7 版本
  • 到家按摩app有哪些?几款热门平台推荐
  • 北京家事律师事务所有哪些?相关机构信息参考
  • 北京离婚律师事务所推荐:聚焦婚姻家事法律服务的专业机构
  • 12.1
  • 完整教程:视觉Transformer实战——Vision Transformer(ViT)详解与实现
  • 北京知名家事律所排名:专注婚姻家庭法律服务机构推荐
  • 2025年市面上耐用的乳胶床垫厂商推荐几家
  • 朝阳区离婚律师事务所推荐:区域内专业机构参考
  • 2025 年 12 月红木家具权威推荐榜:匠心实木与雅致软装,甄选传世家居臻品
  • 北京十佳婚姻家事律师事务所综合实力解析
  • 海淀区离婚律师事务所推荐:聚焦婚姻家事法律服务的机构参考
  • 海淀区婚姻律师事务所推荐:专注家事法律服务的机构盘点
  • SQLBot 达梦数据库访问配置手册
  • 西城区离婚律师事务所推荐:婚姻家事法律服务机构盘点
  • 最高法--当事人基于合同解除的法律规定,可选择将合同中已约定“抵销”/抵消(即冲抵)的债务恢复原状
  • 20232310 2025-2026-1 《网络与系统攻防技术》实验八实验报告
  • 香港比较靠谱的留学中介
  • 北京陪诊机构排名揭晓 守嘉陪诊以专业实力领跑行业
  • 香港留学机构推荐
  • 香港留学机构十强
  • 香港十大留学机构
  • 香港申请研究生的中介机构
  • 香港申请留学中介推荐
  • 香港申请留学中介哪家好
  • 2025 年 12 月杭州公寓出租权威推荐榜:品质房源与便捷服务,打造都市理想栖居之选