当前位置: 首页 > news >正文

从 3D Gaussian Splatting 到具身智能:AI 正在学会“进入世界”

从 3D Gaussian Splatting 到具身智能:AI 正在学会“进入世界”

前言

过去十年,AI 已经学会了两件事:读和写。大模型可以理解复杂语义,也能生成高质量内容,看起来已经“很聪明”。但如果把它放进真实世界,比如让它去拿一个杯子、开一扇门、或者在陌生环境中行动,它会立刻暴露出一个本质问题:

它不理解空间,也不会行动。

这正是当前 AI 的边界所在。语言智能解决的是“知道”,而现实世界需要的是“做到”。从这个角度看,AI 的下一阶段,其实不是更强的对话能力,而是——具身智能(Embodied AI)

而在这条路径上,一个原本属于计算机图形学的技术——3D Gaussian Splatting(3DGS),正在成为关键支点。


3DGS:不只是更快的 NeRF

很多人第一次听到 3DGS,往往把它当作“NeRF 的加速版”。这种理解并不完全错,但远远不够。

传统三维表示方法其实一直存在一个经典矛盾:

  • Mesh / 点云:结构清晰,但表达能力有限
  • NeRF:表达能力强,但推理极慢

3DGS 的价值,在于它打破了这个二选一的局面。它用一组带有空间分布的高斯来表示场景,使得系统既具备显式结构,又保留了连续表达能力,同时还能实现实时渲染。

但更重要的是,它带来了一种新的可能性:

把三维世界变成一种可以计算、可以查询的数据结构

你给的材料里其实已经点出了这一点——3DGS 正在从“单场景表示”走向“世界级系统” 。这句话背后的含义,是整个技术方向的转折点。


京东:https://item.jd.com/15356282.html
当当:https://product.dangdang.com/30039018.html


编辑推荐
(1)大厂一线算法专家倾力打造,凝练多项工程经验与专利成果 (2)打通从传统几何重建到神经场建模的知识壁垒,构建NeRF与3DGS的完整技术谱系 (3)融合公式推导,深入渲染管线,系统解析NeRF与3DGS核心机制与源码 (4)传授NerfStudio可视化与异构优化实践经验,带你构建面向工程落地的三维重建实现体系
内容简介
本书旨在为读者架起一座从三维视觉理论通往神经渲染实战的桥梁。面对NeRF与3DGS技术陡峭的学习曲线,本书坚持“原理深度”与“工程落地”并重,不仅系统解析了从多视图几何到神经隐式表示的演进逻辑,更通过丰富的代码注解与可视化案例,将复杂的数学推导转化为可操作的工程实践。无论你是希望深入理解体渲染奥秘的算法研究员,还是致力于优化重建流程的开发工程师,都能在本书中找到从入门到进阶的完整路径。全书共分为8章。第1章综览三维重建技术全景,奠定NeRF与3DGS的理论基石。第2章与第3章夯实数学与渲染基础,详解坐标变换、投影映射与体渲染流水线。第4章与第5章深入NeRF核心,从源码层面剖析位置编码、分层采样,并通过NerfStudio平台演示模型训练与调试的完整闭环。第6章聚焦3DGS技术,详细解读三维高斯表示、快速可微光栅化及密度控制策略。第7章拓展至产业应用,介绍三维模型提取、Blender插件开发与交互渲染技巧。第8章则着眼于性能瓶颈,探讨跨平台加速与优化策略,助力模型高效部署。
作者简介
作者简介
宗炜:资深AI与图形图像工程师,长期专注于三维重建、神经渲染与异构计算优化。拥有十余年系统研发经验,参与多项图形图像与性能优化项目,获多项相关技术专利,并致力于三维表示技术从理论到工程落地的体系化实践。

巴·孟克吉尔格力:毕业于亚琛工业大学,拥有多年视频编解码开源框架开发经验,曾参与基于深度学习的场景深度估计、三维场景重建等多个研究项目。目前就职于Intel,从事AI大模型适配和优化等相关工作。

凌静:毕业于华东师范大学,曾任Intel 3D算法工程师,从事三维重建算法在Intel GPU平台上的部署适配与性能优化工作。曾为开源框架NerfStudio提供Zip-NeRF模型适配支持。

李建宇:毕业于复旦大学,专注于各类AI模型在Intel平台上的部署与优化,曾负责3DGS、NeRF等模型在Intel GPU上的移植工作。此前,他曾在S3 Graphics、ARM等企业从事Direct3D、OpenGL ES及Vulkan等图形驱动的开发。

许广新:曾任Intel数据中心AI训练高级经理,从事大语言模型、多模态模型及NeRF、3DGS等三维生成模型的训练与性能优化工作,拥有多项国际专利,在AI基础架构与模型性能优化领域具有丰富经验。

一个关键变化:从渲染工具到“空间系统”

过去的三维技术,大多是离线的。

你建模 → 渲染 → 输出结果
这是一个典型的“工具链”。

但现在的系统(比如新一代 Web 3D 渲染架构)开始发生变化,它们更像是“运行时系统”:

  • 场景可以按需加载(类似视频流)
  • 数据可以跨设备访问
  • 渲染复杂度与场景规模解耦

这意味着什么?

简单说一句:

三维世界开始像网页一样被访问,而不是像文件一样被处理

一旦三维数据变成“在线系统”,它就不再只是用来看,而是可以参与计算、推理,甚至决策。

这一步,是 3DGS 真正“出圈”的原因。

AI 的三块拼图:认知、空间、行动

如果把问题再往上抽象,其实可以用一句话总结当前 AI 的核心方向:

让机器不仅能理解世界,还能在世界中行动

这背后对应三种能力:

1. 认知(Cognition)

由多模态大模型承担,比如 GPT-4V、LLaVA 这类模型。

它负责理解:

  • 用户在说什么
  • 任务是什么
  • 目标是什么

但它有一个明显短板:
👉 它不知道世界的真实结构


2. 空间(Spatial Representation)

这正是 3DGS 的位置。

它提供的是一种能力:

  • 物体在哪里
  • 长什么样
  • 与其他物体的关系

从本质上看,3DGS 正在变成一种:

“空间数据库”

你可以查询、操作、甚至更新这个三维世界。


3. 行动(Action)

这是最容易被忽视、但最关键的一层。

传统方法用控制算法或者强化学习,而现在越来越多工作开始用生成模型(尤其是 Flow / Diffusion)来生成动作轨迹。

相比扩散模型,Flow Matching 的优势在于:

  • 推理更快
  • 延迟更低
  • 更适合实时控制

一个完整闭环:AI 如何真正“做事”

当这三块拼图拼在一起,就会形成一个非常清晰的结构:

用户指令 ↓ 多模态 LLM(理解任务) ↓ 3DGS(获取空间信息) ↓ Flow 模型(生成动作) ↓ 执行 ↓ 反馈 → 再次更新

这个结构的关键,不是每一层有多强,而是:

它是闭环的

过去的 AI,大多是“输入 → 输出”。
而这里,是“输入 → 行动 → 反馈 → 再决策”。

这才是智能系统的本质。


为什么 3DGS 是关键,而不是可选项

你可以把整个系统想象成三层:

  • LLM:大脑
  • Flow:肌肉
  • 3DGS:眼睛 + 空间记忆

如果没有 LLM,系统没有目标
如果没有 Flow,系统无法行动
但如果没有 3DGS:

👉 系统根本不知道世界是什么样

这也是为什么很多“看起来很强”的 AI,在现实环境中表现很差——它们缺的是空间层。

而 3DGS 的意义就在于:

第一次让空间层同时具备表达能力 + 实时性 + 工程可行性


工程现实:理想很美,落地很难

说到这里,很容易产生一种错觉:路线已经清晰,剩下就是工程实现。

但现实恰恰相反。

目前最大的问题有三个:

1. 技术门槛极高

涉及:

  • 多视图几何
  • 神经渲染
  • 优化算法

不是简单调库能解决的


2. 工程链路很长

典型流程是:

数据采集 → SfM → MVS → NeRF → 3DGS

每一步都有坑,而且很多是“隐性坑”。


3. 性能优化困难

  • GPU 显存限制
  • 数据调度问题
  • 实时性要求

很多项目:

👉 能跑,但不可用
👉 可用,但不可扩展


总结

如果用一句话总结这条技术路线:

AI 正在从“理解信息”,走向“进入世界并采取行动”

而这条路径的核心结构,其实已经很清晰:

  • 大模型负责理解
  • 3DGS 负责建模世界
  • Flow 模型负责行动

其中,3DGS 是最容易被忽视的一环,但它很可能是:

AI 从虚拟智能走向现实智能的关键桥梁

如果你正在做三维重建、机器人、自动驾驶或者 XR,这个方向基本可以确定——不是短期热点,而是长期基础设施。

http://www.jsqmd.com/news/811752/

相关文章:

  • 别再空谈帕累托最优了!用Python+Excel手把手教你做资源分配决策分析
  • 开源智能抓取框架:为低成本机械爪赋予视觉与决策能力
  • Word公式转MathType:从批量转换报错到权限配置的实战复盘
  • 手机号逆向查询QQ号:3分钟掌握终极查询技巧
  • EdgeCIM框架:存内计算技术如何优化边缘设备上的小型语言模型
  • 多模态大模型学习笔记(三十九)——生成式与Transformer式OCR:从“像素抄录“到“文档智能“的完整演进
  • 智能工厂的核心交互:薄膜开关技术在新型基础设施中的关键作用
  • 五款API管理系统的功能体系与数据表现
  • 使用TaotokenTokenPlan套餐在长期项目中获得更大优惠的方法
  • Taotoken多模型聚合平台为arm7边缘AI应用提供稳定API服务
  • “柔”不是降低饱和度!Pastel印相的光学衍射模拟原理,及如何用--chaos 23–47精准控制粉彩颗粒噪点分布
  • Unlock-Music:浏览器音乐解锁工具完全指南
  • Python环境PyTorch无法调用GPU_检查CUDA驱动与版本匹配性
  • 覆盖成都各区的川师大家教网(大学生创业平台),怎么帮孩子挑个合适的学霸老师? - 教育快讯速递
  • 从图像融合到系统设计:EDA工程师的跨界思维迁移与工具选型实践
  • A1 学习速查表
  • 2026年GEO优化服务商口碑哪家好?案例验证与服务响应深度解析 - 科技焦点
  • 兔抗FANCI抗体亲和纯化,IP-WB全流程兼容设计,一站式解决FANCI蛋白分析功能
  • 从接入到上线观察 Taotoken 对开发者体验的整体提升
  • Arm Cortex-R52处理器流水线优化与指令调度实战
  • 2026年三款最值得在线预约小程序,解决您的预约难题
  • 在Windows上安装安卓应用的轻量化实践
  • 用ChatGPT 10分钟生成TikTok爆款脚本:5步工作流+3类高转化话术模板(附Prompt库下载)
  • 【OAI实战】基于Docker-Compose的5G核心网基础部署与排错指南
  • 实习期如何脱颖而出?3个月转正答辩的满分操作
  • 2026年GEO优化公司专业性评测:五大服务商技术能力深度对比 - 科技焦点
  • SpringAI全流程实战手册
  • DSP28335串口调试别再抓瞎了!手把手教你重定向printf到串口(附完整代码)
  • MBTI十六型人格职业性格测试源码完整版 亲测源码
  • 解决每次打开JFlash就提示:Device: TLE9863QXW20: Flash bank 0x11000000: No loader specified的问题