当前位置: 首页 > news >正文

NeurlPS2025!香港大学等联合推出Concerto框架 突破单模态局限,为三维场景理解注入新范式

论文标题:Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

作者团队:香港大学、香港中文大学、哈尔滨工业大学(深圳)

发布时间:2025年10月28日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心问题

当前多模态视觉学习存在四大关键痛点

  1. 单模态局限:现有研究多聚焦二维图像或三维点云单一模态,缺乏跨模态协同,无法像人类多感官那样形成完整知识结构;
  2. 浅层融合缺陷:简单拼接二、三维特征未挖掘模态间潜在交互,导致空间表征能力受限;
  3. 效率瓶颈:传统模型对参数和标注数据依赖度高,在低资源场景下性能骤降;
  4. 开放世界适配缺失:现有自监督表征难以与人类语言对齐,无法支撑开放词汇的概念接地任务。

针对上述问题,提出Concerto框架:以“模内自蒸馏”优化单模态表征,以“跨模态嵌入预测”关联二、三维数据,二者协同形成更优空间表征,同时通过线性探针设计提升参数与数据效率,引入语言映射模块实现开放世界感知。

⭐研究亮点

研究亮点聚焦“创新+性能+实用”三维价值,成果显著:

  1. 框架创新:首次将“模内自蒸馏”与“跨模态嵌入预测”结合,模仿人类认知机制,突破传统单模态与浅层融合范式;2. 性能顶尖:在ScanNet、S3DIS等基准上刷新纪录,如ScanNet200语义分割达80.7% mIoU,实例分割性能超全量微调模型,尤其擅长细粒度语义几何信息捕获;
  2. 效率突出:参数量较小时仍优于监督学习模型,仅用1%-5%标注数据,通过线性探针即可实现优于解码器微调的效果,降低低资源场景应用门槛;
  3. 拓展性强:引入线性投影翻译器实现表征与CLIP语言空间对齐,支持开放世界任务,还推出视频适配变体,提升框架通用性。
http://www.jsqmd.com/news/54060/

相关文章:

  • 03.修改网站并再次使用Git
  • 2025厦门的留学机构有哪些地方好
  • 2025青岛十大正规留学机构
  • 2025留学中介哪家强都有哪些特色
  • 2025广州知名留学中介机构有哪些
  • 2025北京靠谱的留学中介机构
  • XLog debug 开启打印日志,release 关闭打印日志
  • 处理开机瞬间灯光抖动问题——开机后延时PWM的初始化
  • 2025年数控刀片自动化磨刃设备选型指南:核心技术与品牌解析
  • 2025年云南十大职业技能培训学校推荐:云南新华轨道交通
  • 2025 年 11 月人力资源管理咨询公司权威推荐榜:组织效能提升与人才战略规划专业服务深度解析
  • 2025年国内评价高的云南臭豆腐销售企业推荐
  • 2025草莓分拣柔性夹爪专业选型指南及优质供应商推荐
  • 2025年箱型H型钢结构厂家最新推荐:山东鲁建,厂房仓库钢结构、电厂钢结构、桥梁钢结构、农牧业钢结构、多场景定制解决方案标杆
  • 2025 年 11 月集成供应链咨询公司权威推荐榜:高效协同与智能优化解决方案深度解析
  • 2025青岛办理出国留学机构
  • 2025留学中介哪家好一点的
  • 2025广州知名留学中介机构排名
  • 2025北京靠谱的留学中介
  • 2025年度最佳游戏键盘终极选购指南
  • 习题解析之:约瑟夫环问题
  • 2025 年 11 月企业管理咨询公司权威推荐榜:战略规划、组织优化与数字化转型实战专家深度解析
  • 宁波送子鸟医院怎么样?
  • git submodule update
  • 2025年苏州直线光轴配套产品十大优质供应商排行榜,高精度定
  • 2025年智能导光轴品牌排行榜,靠谱导光轴品牌供应商新测评推
  • 2025 年 11 月企业管理咨询公司权威推荐榜:战略规划与组织优化,专业实力与客户口碑深度解析的优选伙伴
  • 油头必藏!2025年实测优质的控油蓬松洗发水,清爽不贴头
  • openEuler 22.03 LTS安装Atlas 300I Pro驱动
  • 2025 年 11 月geo优化哪个公司做得好:最新的权威geo优化公司推荐榜!