当前位置：首页 > news >正文

从“像素对齐“到“锚点对齐“：小米汽车PointForward重塑前馈3DGS

news 2026/5/16 23:45:48

点击下方卡片，关注“自动驾驶之心”公众号

作者 | Cheng Chi等
编辑 | 自动驾驶之心
本文只做学术分享，如有侵权，联系删文

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

要说最近自驾领域技术关心什么，世界模型应该算最重要的方向，之一。

表面上看，业内对新一代生成式/重建式仿真很感兴趣。放到更长的产业周期里看，底层逻辑是自动驾驶已经不再满足于「从真实道路采数据，再用开环方式训练模型」这一套流程。

原因大体如下。

自动驾驶正在走向从感知到认知的深水区。而这个问题，仅靠历史数据回放很难回答。

传统开环数据的价值在于复现真实世界，但它缺少一个核心能力：模型不能真正「改写」历史。自动驾驶系统可以在 log 里看到人类司机当时怎么开，却很难验证如果算法当时做了另一个动作，场景会不会进入更危险的状态。

这也是闭环仿真重新变得重要的原因。

去年十月，特斯拉在ICCV提到了生成式GS，一定程度上把这个方向推到了行业台前。关键词就是FeedForward和3DGS。

从自动驾驶之心的观察来看，3DGS 在自动驾驶里的价值，也不能简单理解成「画面更真实」。

在驾驶场景中，3DGS 更核心的作用，是把真实道路 log 转成可渲染、可编辑、可重放、可外推的 3D/4D 场景资产。只有当场景能够被快速重建，视角能够被自由变换，动态物体能够被一致建模，自动驾驶系统才有机会在仿真里真正接受闭环的检验。

早期 NeRF 和 3DGS 类方法虽然可以重建出高质量场景，但往往需要针对单个场景进行优化。对实验室展示来说，这条路线可以接受；放到自动驾驶的数据闭环里，它很快会遇到规模化问题。车企每天积累的是海量道路片段，不可能为每一段 log 都付出高成本的逐场景优化。

前馈式方法的吸引力正在这里。前馈式方法最大的优势在于把重建从「每个场景单独优化」变成「模型一次前向传播直接输出场景表示」。

目前，国内做前馈GS方案的公司不多，小米、理想和地平线，算是走在前列的。今天给大家分享的就是小米最新的 PointForward。

小米布局算比较早的，去年我们也分享过他们的WorldSplat，可以说是一脉相承了。

PointForward关心的问题更具体，也更工程：

当我们已经有多相机真实道路数据，如何用前馈方式快速重建一个动态驾驶场景？
当不同摄像头看到同一个物体，如何避免每个视角各自生成一套不一致的高斯？
当场景中有车辆、行人等动态实例，如何让它们在时间维度上保持一致运动，而不是依赖像素级场景流去硬预测？

这就是 PointForward 要解决的问题。

一、小米汽车团队的答案：PointForward

小米汽车团队提出的PointForward框架给出了一个简洁而有效的答案：放弃逐像素高斯预测，转而使用稀疏的3D查询点（Sparse 3D Queries）作为场景表示的基本单元，重新定义了前馈式3DGS重建的技术路线。

★
论文标题：PointForward: Feedforward Driving Reconstruction through Point-Aligned Representations
项目主页：https://wm-research.github.io/PointForward

核心思路

传统方法在逐像素的2D图像空间中预测3D高斯，再通过投影关系"硬凑"出3D结构。PointForward 的做法截然不同——它直接在3D世界空间中建立稀疏查询点，然后从多视角图像中聚合信息：

在3D世界空间中初始化稀疏查询点：每个查询点是一个9维向量，包含3D空间坐标、Plücker坐标
将查询点投影到多视角图像：通过相机参数将3D查询点投影到每个视角，聚合对应的图像特征
通过空间-时序融合模块聚合信息：融合多视角特征和时序上下文，生成全局一致的3D表示

这种"先有3D结构、后聚合2D特征"的范式，天然地保证了多视角几何一致性——因为所有视角的信息都被聚合到同一个3D查询点上。

二、方法详解：从稀疏查询到高质量渲染

2.1 整体架构

PointForward 的架构（如上图所示）可以分为四个核心模块：

（1）点对齐表示（Point-Aligned Representation）

给定多视角图像集合，首先通过预训练的特征提取器和深度估计模型提取图像特征和深度。然后在3D世界空间中生成稀疏查询集：

每个查询点是一个9维向量：空间坐标 + 6维3D Plücker坐标
这些查询点直接从像素深度和相机参数计算得到，本质上是将图像像素提升（lift）到3D空间

（2）场景图动态建模（Scene Graph Dynamic Modeling）

为了处理驾驶场景中的动态物体（车辆、行人等），PointForward 引入了场景图机制：

通过3D检测框获取所有动态实例的3D边界框
将查询点分解为静态查询集和动态查询集
动态查询点被转换到各自的规范化坐标系（canonical space）中，使得同一实例的所有查询点在一致的坐标系下表示

这种设计使得模型能够实现实例级运动传播——通过3D边界框的运动轨迹，自动推导出该实例所有3D点的运动，无需依赖密集场景流预测。

（3）空间-时序融合（Spatial-Temporal Fusion）

这是 PointForward 实现多视角一致性的核心模块：

时序多视角特征融合：将每个查询点投影到所有视角，根据特征差异和深度差异（查询深度与像素深度之差）自适应计算每个视角的可靠性权重，通过注意力机制聚合时序多视角特征，实现时序一致的动态表示

关键设计细节：

使用几何和多视角特征的一致性线索实现自适应聚合
融合后的查询点包含完整的多视角时序信息，并在后续影响3DGS的各个属性预测

（4）点对齐高斯渲染（Point-Aligned Gaussian Rendering）

最终，将融合后的查询点解码为3D高斯参数（颜色、中心、旋转、缩放、不透明度），通过可微渲染器生成图像。对于动态查询点，其高斯参数在不同时刻通过规范化坐标系进行变换，确保运动一致性。

2.2 与逐像素方法的本质区别

三、实验结果：全面超越 SOTA

3.1 Waymo 数据集上的定量结果

PointForward 在 Waymo Open Dataset 上取得了全面的性能提升：

★
PointForward 在纵向外推新视角实验中，全图 PSNR 上超越 DG GT1.1 dB，在动态区域 PSNR 上超越2.2 dB。这充分说明了点对齐表示在多视角一致性和动态重建质量上的优势。

★
PointForward 在原视角评测中，更大幅超越 DG GT3 dB 以上，证明了其强大的场景重建能力。

3.2 nuScenes 数据集上的泛化能力

★
在 nuScenes 上的零样本泛化中，PointForward 超越 DG GT+1.2 dB PSNR和+0.3 SSIM，充分证明了点对齐表示的泛化能力。

3.3 横向外推视角的鲁棒性

★
在横向外推视角任务中，PointForward 的 FID 指标全面领先。例如在 3m 位移下，PointForward 的 FID（33.71）远低于 STORM（81.54）和 DG GT（77.51），说明点对齐表示能够保持更强的几何一致性，在新视角下生成更准确的渲染结果。

3.4 消融实验验证

消融实验表明：

空间-时序融合是性能提升的关键，移除加权融合后 PSNR 下降 0.47 dB
深度感知融合对质量有较大贡献
即使不使用 LiDAR 深度，仅基于图像的深度估计，PointForward 仍然达到 28.00 PSNR，大幅超越 STORM 和 DG GT，证明了其纯图像驱动的能力

四、作者Q&A

★
问：PointForward 和现有的逐像素高斯方法（如 DG GT、STORM）最大的区别是什么？

答：最大的区别在于3D表示的基本单元。逐像素方法在每个像素位置独立预测一个3D高斯，这导致同一3D点在不同视角下被表示为多个不一致的高斯——这就是分层伪影的根源。PointForward 直接在3D世界空间中建立稀疏的查询点，将所有视角的信息聚合到同一个3D点上。这种"先有3D结构、后聚合2D特征"的范式，天然保证了多视角一致性。

★
问：场景图动态建模是怎么工作的？和场景流方法有什么区别？

答：我们通过3D检测框获取场景中所有动态实例的3D边界框，然后将每个查询点分配到对应的实例中。对于属于同一实例的所有查询点，我们将它们转换到同一个规范化坐标系下——在这个坐标系中，实例的局部运动被"剥离"了，只剩下来自不同视角的外观信息。这样做的好处是：(1) 实现了实例级的运动传播，无需逐像素预测场景流；(2) 规范化坐标系天然提供了跨时间步的一致性；(3) 避免了密集场景流预测中的误差累积。