当前位置：首页 > news >正文

2025_NIPS_EA3D: Online Open-World 3D Object Extraction from Streaming Videos

news 2026/6/13 8:00:12

EA3D 文章总结与核心内容翻译

一、文章主要内容

本文提出了一种名为 ExtractAnything3D（EA3D）的统一在线框架，用于开放世界的3D物体提取，实现了几何重建与整体场景理解的同步进行。该框架以流式视频为输入，无需预先构建的3D几何结构、相机姿态信息或标注数据，通过视觉语言模型（VLMs）和2D视觉基础编码器动态解析每帧图像，提取物体级知识并嵌入高斯特征图中。

EA3D 核心包含三大模块：

知识提取与整合：利用 VLMs 识别物体类别和物理属性，结合多级别视觉基础模型（VFMs）提取特征，构建动态更新的知识整合特征图；
在线3D物体提取：通过在线视觉里程计估计相机姿态，结合在线高斯更新策略，增量式重建物体几何结构并传递知识；
循环联合优化：融合当前观测与历史特征，持续更新3D物体表示，同时优化几何重建和语义理解。

该框架支持多种下游任务，包括照片级真实感渲染、语义分割与实例分割、3D边界框构建、语义占用估计和3D网格生成，在 ScanNet、LERF 等基准数据集上表现出优异性能。

二、创新点

提出了统一的在线开放世界3D物体提取框架，无需几何或姿态先验，实现了在线重建与场景理解的同步进行；
充分利用历史知识指导当前观测的3D物体提取，通过在线联合更新整合特征，兼顾高质量几何重建与高效场景理解；
支持多种3D感

http://www.jsqmd.com/news/696787/

相关文章：

3分钟搭建自己的电话号码定位系统：免费开源解决方案完全指南

GTE-Pro入门必看：GTE-Large训练目标与对比学习损失函数解析

如何构建灵活稳定的Android插件架构：RePlugin的完整实践指南

Oumuamua-7b-RP多场景：跨境电商客服质检、日语配音脚本生成、字幕润色

Qwen3-TTS-Tokenizer-12Hz保姆级教程：Web界面上传失败的5种排查方案

如何快速解决Blender与3D打印机兼容问题：完整Blender3mfFormat使用指南

代码块 —— 外在定义及主要作用

Qwen3-ASR-0.6B实战案例：为盲人用户开发语音笔记助手（含方言支持）

机器学习算法核心六问：从原理到实践

Node.js项目快速搭建终极指南：Koa-Generator实战手册

YOLOv11改进 | Neck篇 | CVPR最新低照度图像增强模块HVI改进YOLOv11（有效涨点）

【高届数机械工程会议】第十二届机械工程、材料和自动化技术国际学术会议（MMEAT 2026）

Phi-3.5-Mini-Instruct Streamlit部署优化：模型预加载+缓存加速方案

Qianfan-OCR快速上手指南：JPG/PNG/WEBP多格式文档图片解析三分钟搞定

别再死磕PID了！用Python+MPC给机械臂做个‘未来视’控制器（附ROS2实战代码）

Qwen3.5-4B-AWQ代码实例：Python调用API+WebUI交互+日志排查全流程

Real Anime Z开源价值解读：Z-Image底座+Real Anime Z微调的协同优势

神经网络常见层Numpy封装参考（4）：优化器

LM多场景落地案例：婚纱摄影公司AI试衣间原型系统构建过程

ARGO：开源本地优先AI智能体平台部署与应用全指南

FLUX.1-Krea-Extracted-LoRA部署教程：CUDA12.4+PyTorch2.5.0环境兼容性验证

Qwen3-ASR-0.6B实际作品集：跨语言会议纪要+中英双语字幕生成

Spring AI 实战教程（一）：基础对话与流式输出 —— 让你的应用接入大模型

ONNX模型多线程推理并解决线程踩踏与显存溢出问题

AI Agent的“幻觉“问题：从根源到缓解的完整分析

2026年苏州及周边叉车上岗证培训top5机构盘点：姑苏区n1证/姑苏区叉车上岗证/姑苏区叉车证/学叉车/选择指南 - 优质品牌商家

QMCDecode终极指南：如何快速解密QQ音乐加密文件实现跨平台播放

ARM SME2指令集：矩阵运算加速与AI性能优化

移动应用开发中的跨平台框架选择与性能对比

安全与权限管理：保障模型与数据资产的安全