当前位置：首页 > news >正文

从 3D Gaussian Splatting 到具身智能：AI 正在学会“进入世界”

news 2026/7/5 3:35:39

从 3D Gaussian Splatting 到具身智能：AI 正在学会“进入世界”

前言

过去十年，AI 已经学会了两件事：读和写。大模型可以理解复杂语义，也能生成高质量内容，看起来已经“很聪明”。但如果把它放进真实世界，比如让它去拿一个杯子、开一扇门、或者在陌生环境中行动，它会立刻暴露出一个本质问题：

它不理解空间，也不会行动。

这正是当前 AI 的边界所在。语言智能解决的是“知道”，而现实世界需要的是“做到”。从这个角度看，AI 的下一阶段，其实不是更强的对话能力，而是——具身智能（Embodied AI）。

而在这条路径上，一个原本属于计算机图形学的技术——3D Gaussian Splatting（3DGS），正在成为关键支点。

3DGS：不只是更快的 NeRF

很多人第一次听到 3DGS，往往把它当作“NeRF 的加速版”。这种理解并不完全错，但远远不够。

传统三维表示方法其实一直存在一个经典矛盾：

Mesh / 点云：结构清晰，但表达能力有限
NeRF：表达能力强，但推理极慢

3DGS 的价值，在于它打破了这个二选一的局面。它用一组带有空间分布的高斯来表示场景，使得系统既具备显式结构，又保留了连续表达能力，同时还能实现实时渲染。

但更重要的是，它带来了一种新的可能性：

把三维世界变成一种可以计算、可以查询的数据结构

你给的材料里其实已经点出了这一点——3DGS 正在从“单场景表示”走向“世界级系统” 。这句话背后的含义，是整个技术方向的转折点。

京东：https://item.jd.com/15356282.html
当当：https://product.dangdang.com/30039018.html

编辑推荐
（1）大厂一线算法专家倾力打造，凝练多项工程经验与专利成果（2）打通从传统几何重建到神经场建模的知识壁垒，构建NeRF与3DGS的完整技术谱系（3）融合公式推导，深入渲染管线，系统解析NeRF与3DGS核心机制与源码（4）传授NerfStudio可视化与异构优化实践经验，带你构建面向工程落地的三维重建实现体系
内容简介
本书旨在为读者架起一座从三维视觉理论通往神经渲染实战的桥梁。面对NeRF与3DGS技术陡峭的学习曲线，本书坚持“原理深度”与“工程落地”并重，不仅系统解析了从多视图几何到神经隐式表示的演进逻辑，更通过丰富的代码注解与可视化案例，将复杂的数学推导转化为可操作的工程实践。无论你是希望深入理解体渲染奥秘的算法研究员，还是致力于优化重建流程的开发工程师，都能在本书中找到从入门到进阶的完整路径。全书共分为8章。第1章综览三维重建技术全景，奠定NeRF与3DGS的理论基石。第2章与第3章夯实数学与渲染基础，详解坐标变换、投影映射与体渲染流水线。第4章与第5章深入NeRF核心，从源码层面剖析位置编码、分层采样，并通过NerfStudio平台演示模型训练与调试的完整闭环。第6章聚焦3DGS技术，详细解读三维高斯表示、快速可微光栅化及密度控制策略。第7章拓展至产业应用，介绍三维模型提取、Blender插件开发与交互渲染技巧。第8章则着眼于性能瓶颈，探讨跨平台加速与优化策略，助力模型高效部署。
作者简介
作者简介
宗炜：资深AI与图形图像工程师，长期专注于三维重建、神经渲染与异构计算优化。拥有十余年系统研发经验，参与多项图形图像与性能优化项目，获多项相关技术专利，并致力于三维表示技术从理论到工程落地的体系化实践。

巴·孟克吉尔格力：毕业于亚琛工业大学，拥有多年视频编解码开源框架开发经验，曾参与基于深度学习的场景深度估计、三维场景重建等多个研究项目。目前就职于Intel，从事AI大模型适配和优化等相关工作。

凌静：毕业于华东师范大学，曾任Intel 3D算法工程师，从事三维重建算法在Intel GPU平台上的部署适配与性能优化工作。曾为开源框架NerfStudio提供Zip-NeRF模型适配支持。

李建宇：毕业于复旦大学，专注于各类AI模型在Intel平台上的部署与优化，曾负责3DGS、NeRF等模型在Intel GPU上的移植工作。此前，他曾在S3 Graphics、ARM等企业从事Direct3D、OpenGL ES及Vulkan等图形驱动的开发。

许广新：曾任Intel数据中心AI训练高级经理，从事大语言模型、多模态模型及NeRF、3DGS等三维生成模型的训练与性能优化工作，拥有多项国际专利，在AI基础架构与模型性能优化领域具有丰富经验。

一个关键变化：从渲染工具到“空间系统”

过去的三维技术，大多是离线的。

你建模 → 渲染 → 输出结果
这是一个典型的“工具链”。

但现在的系统（比如新一代 Web 3D 渲染架构）开始发生变化，它们更像是“运行时系统”：

场景可以按需加载（类似视频流）
数据可以跨设备访问
渲染复杂度与场景规模解耦

这意味着什么？

简单说一句：

三维世界开始像网页一样被访问，而不是像文件一样被处理

一旦三维数据变成“在线系统”，它就不再只是用来看，而是可以参与计算、推理，甚至决策。

这一步，是 3DGS 真正“出圈”的原因。

AI 的三块拼图：认知、空间、行动

如果把问题再往上抽象，其实可以用一句话总结当前 AI 的核心方向：

让机器不仅能理解世界，还能在世界中行动

这背后对应三种能力：

1. 认知（Cognition）

由多模态大模型承担，比如 GPT-4V、LLaVA 这类模型。

它负责理解：

用户在说什么
任务是什么
目标是什么

但它有一个明显短板：
👉 它不知道世界的真实结构

2. 空间（Spatial Representation）

这正是 3DGS 的位置。

它提供的是一种能力：

物体在哪里
长什么样
与其他物体的关系

从本质上看，3DGS 正在变成一种：

“空间数据库”

你可以查询、操作、甚至更新这个三维世界。

3. 行动（Action）

这是最容易被忽视、但最关键的一层。

传统方法用控制算法或者强化学习，而现在越来越多工作开始用生成模型（尤其是 Flow / Diffusion）来生成动作轨迹。

相比扩散模型，Flow Matching 的优势在于：

推理更快
延迟更低
更适合实时控制

一个完整闭环：AI 如何真正“做事”

当这三块拼图拼在一起，就会形成一个非常清晰的结构：

用户指令 ↓ 多模态 LLM（理解任务） ↓ 3DGS（获取空间信息） ↓ Flow 模型（生成动作） ↓ 执行 ↓ 反馈 → 再次更新

这个结构的关键，不是每一层有多强，而是：

它是闭环的

过去的 AI，大多是“输入 → 输出”。
而这里，是“输入 → 行动 → 反馈 → 再决策”。

这才是智能系统的本质。

为什么 3DGS 是关键，而不是可选项

你可以把整个系统想象成三层：

LLM：大脑
Flow：肌肉
3DGS：眼睛 + 空间记忆

如果没有 LLM，系统没有目标
如果没有 Flow，系统无法行动
但如果没有 3DGS：

👉 系统根本不知道世界是什么样

这也是为什么很多“看起来很强”的 AI，在现实环境中表现很差——它们缺的是空间层。

而 3DGS 的意义就在于：

第一次让空间层同时具备表达能力 + 实时性 + 工程可行性

工程现实：理想很美，落地很难

说到这里，很容易产生一种错觉：路线已经清晰，剩下就是工程实现。

但现实恰恰相反。

目前最大的问题有三个：

1. 技术门槛极高

涉及：

多视图几何
神经渲染
优化算法

不是简单调库能解决的

2. 工程链路很长

典型流程是：

数据采集 → SfM → MVS → NeRF → 3DGS

每一步都有坑，而且很多是“隐性坑”。

3. 性能优化困难

GPU 显存限制
数据调度问题
实时性要求

很多项目：

👉 能跑，但不可用
👉 可用，但不可扩展

总结

如果用一句话总结这条技术路线：

AI 正在从“理解信息”，走向“进入世界并采取行动”

而这条路径的核心结构，其实已经很清晰：

大模型负责理解
3DGS 负责建模世界
Flow 模型负责行动

其中，3DGS 是最容易被忽视的一环，但它很可能是：

AI 从虚拟智能走向现实智能的关键桥梁

如果你正在做三维重建、机器人、自动驾驶或者 XR，这个方向基本可以确定——不是短期热点，而是长期基础设施。

查看全文

http://www.jsqmd.com/news/811752/

别再空谈帕累托最优了！用Python+Excel手把手教你做资源分配决策分析

开源智能抓取框架：为低成本机械爪赋予视觉与决策能力

Word公式转MathType：从批量转换报错到权限配置的实战复盘

手机号逆向查询QQ号：3分钟掌握终极查询技巧

EdgeCIM框架：存内计算技术如何优化边缘设备上的小型语言模型

多模态大模型学习笔记（三十九）——生成式与Transformer式OCR：从“像素抄录“到“文档智能“的完整演进

智能工厂的核心交互：薄膜开关技术在新型基础设施中的关键作用

五款API管理系统的功能体系与数据表现

使用TaotokenTokenPlan套餐在长期项目中获得更大优惠的方法

Taotoken多模型聚合平台为arm7边缘AI应用提供稳定API服务

“柔”不是降低饱和度！Pastel印相的光学衍射模拟原理，及如何用--chaos 23–47精准控制粉彩颗粒噪点分布

Unlock-Music：浏览器音乐解锁工具完全指南

Python环境PyTorch无法调用GPU_检查CUDA驱动与版本匹配性

覆盖成都各区的川师大家教网（大学生创业平台），怎么帮孩子挑个合适的学霸老师？ - 教育快讯速递

从图像融合到系统设计：EDA工程师的跨界思维迁移与工具选型实践

A1 学习速查表

2026年GEO优化服务商口碑哪家好？案例验证与服务响应深度解析 - 科技焦点

兔抗FANCI抗体亲和纯化，IP-WB全流程兼容设计，一站式解决FANCI蛋白分析功能

从接入到上线观察 Taotoken 对开发者体验的整体提升

Arm Cortex-R52处理器流水线优化与指令调度实战

2026年三款最值得在线预约小程序，解决您的预约难题

在Windows上安装安卓应用的轻量化实践

用ChatGPT 10分钟生成TikTok爆款脚本：5步工作流+3类高转化话术模板（附Prompt库下载）

【OAI实战】基于Docker-Compose的5G核心网基础部署与排错指南

实习期如何脱颖而出？3个月转正答辩的满分操作

2026年GEO优化公司专业性评测：五大服务商技术能力深度对比 - 科技焦点

SpringAI全流程实战手册

DSP28335串口调试别再抓瞎了！手把手教你重定向printf到串口（附完整代码）

MBTI十六型人格职业性格测试源码完整版亲测源码

解决每次打开JFlash就提示：Device: TLE9863QXW20: Flash bank 0x11000000: No loader specified的问题