从“像素对齐“到“锚点对齐“:小米汽车PointForward重塑前馈3DGS
点击下方卡片,关注“自动驾驶之心”公众号
作者 | Cheng Chi等
编辑 | 自动驾驶之心
本文只做学术分享,如有侵权,联系删文
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
要说最近自驾领域技术关心什么,世界模型应该算最重要的方向,之一。
表面上看,业内对新一代生成式/重建式仿真很感兴趣。放到更长的产业周期里看,底层逻辑是自动驾驶已经不再满足于「从真实道路采数据,再用开环方式训练模型」这一套流程。
原因大体如下。
自动驾驶正在走向从感知到认知的深水区。而这个问题,仅靠历史数据回放很难回答。
传统开环数据的价值在于复现真实世界,但它缺少一个核心能力:模型不能真正「改写」历史。自动驾驶系统可以在 log 里看到人类司机当时怎么开,却很难验证如果算法当时做了另一个动作,场景会不会进入更危险的状态。
这也是闭环仿真重新变得重要的原因。
去年十月,特斯拉在ICCV提到了生成式GS,一定程度上把这个方向推到了行业台前。关键词就是FeedForward和3DGS。
从自动驾驶之心的观察来看,3DGS 在自动驾驶里的价值,也不能简单理解成「画面更真实」。
在驾驶场景中,3DGS 更核心的作用,是把真实道路 log 转成可渲染、可编辑、可重放、可外推的 3D/4D 场景资产。只有当场景能够被快速重建,视角能够被自由变换,动态物体能够被一致建模,自动驾驶系统才有机会在仿真里真正接受闭环的检验。
早期 NeRF 和 3DGS 类方法虽然可以重建出高质量场景,但往往需要针对单个场景进行优化。对实验室展示来说,这条路线可以接受;放到自动驾驶的数据闭环里,它很快会遇到规模化问题。车企每天积累的是海量道路片段,不可能为每一段 log 都付出高成本的逐场景优化。
前馈式方法的吸引力正在这里。前馈式方法最大的优势在于把重建从「每个场景单独优化」变成「模型一次前向传播直接输出场景表示」。
目前,国内做前馈GS方案的公司不多,小米、理想和地平线,算是走在前列的。今天给大家分享的就是小米最新的 PointForward。
小米布局算比较早的,去年我们也分享过他们的WorldSplat,可以说是一脉相承了。
PointForward关心的问题更具体,也更工程:
当我们已经有多相机真实道路数据,如何用前馈方式快速重建一个动态驾驶场景?
当不同摄像头看到同一个物体,如何避免每个视角各自生成一套不一致的高斯?
当场景中有车辆、行人等动态实例,如何让它们在时间维度上保持一致运动,而不是依赖像素级场景流去硬预测?
这就是 PointForward 要解决的问题。
一、小米汽车团队的答案:PointForward
小米汽车团队提出的PointForward框架给出了一个简洁而有效的答案:放弃逐像素高斯预测,转而使用稀疏的3D查询点(Sparse 3D Queries)作为场景表示的基本单元,重新定义了前馈式3DGS重建的技术路线。
★论文标题:PointForward: Feedforward Driving Reconstruction through Point-Aligned Representations
项目主页:https://wm-research.github.io/PointForward
核心思路
传统方法在逐像素的2D图像空间中预测3D高斯,再通过投影关系"硬凑"出3D结构。PointForward 的做法截然不同——它直接在3D世界空间中建立稀疏查询点,然后从多视角图像中聚合信息:
在3D世界空间中初始化稀疏查询点:每个查询点是一个9维向量,包含3D空间坐标、Plücker坐标
将查询点投影到多视角图像:通过相机参数将3D查询点投影到每个视角,聚合对应的图像特征
通过空间-时序融合模块聚合信息:融合多视角特征和时序上下文,生成全局一致的3D表示
这种"先有3D结构、后聚合2D特征"的范式,天然地保证了多视角几何一致性——因为所有视角的信息都被聚合到同一个3D查询点上。
二、方法详解:从稀疏查询到高质量渲染
2.1 整体架构
PointForward 的架构(如上图所示)可以分为四个核心模块:
(1)点对齐表示(Point-Aligned Representation)
给定多视角图像集合,首先通过预训练的特征提取器和深度估计模型提取图像特征和深度。然后在3D世界空间中生成稀疏查询集:
每个查询点是一个9维向量:空间坐标 + 6维3D Plücker坐标
这些查询点直接从像素深度和相机参数计算得到,本质上是将图像像素提升(lift)到3D空间
(2)场景图动态建模(Scene Graph Dynamic Modeling)
为了处理驾驶场景中的动态物体(车辆、行人等),PointForward 引入了场景图机制:
通过3D检测框获取所有动态实例的3D边界框
将查询点分解为静态查询集和动态查询集
动态查询点被转换到各自的规范化坐标系(canonical space)中,使得同一实例的所有查询点在一致的坐标系下表示
这种设计使得模型能够实现实例级运动传播——通过3D边界框的运动轨迹,自动推导出该实例所有3D点的运动,无需依赖密集场景流预测。
(3)空间-时序融合(Spatial-Temporal Fusion)
这是 PointForward 实现多视角一致性的核心模块:
时序多视角特征融合:将每个查询点投影到所有视角,根据特征差异和深度差异(查询深度与像素深度之差)自适应计算每个视角的可靠性权重,通过注意力机制聚合时序多视角特征,实现时序一致的动态表示
关键设计细节:
使用几何和多视角特征的一致性线索实现自适应聚合
融合后的查询点包含完整的多视角时序信息,并在后续影响3DGS的各个属性预测
(4)点对齐高斯渲染(Point-Aligned Gaussian Rendering)
最终,将融合后的查询点解码为3D高斯参数(颜色、中心、旋转、缩放、不透明度),通过可微渲染器生成图像。对于动态查询点,其高斯参数在不同时刻通过规范化坐标系进行变换,确保运动一致性。
2.2 与逐像素方法的本质区别
三、实验结果:全面超越 SOTA
3.1 Waymo 数据集上的定量结果
PointForward 在 Waymo Open Dataset 上取得了全面的性能提升:
★PointForward 在纵向外推新视角实验中,全图 PSNR 上超越 DG GT1.1 dB,在动态区域 PSNR 上超越2.2 dB。这充分说明了点对齐表示在多视角一致性和动态重建质量上的优势。
★PointForward 在原视角评测中,更大幅超越 DG GT3 dB 以上,证明了其强大的场景重建能力。
3.2 nuScenes 数据集上的泛化能力
★在 nuScenes 上的零样本泛化中,PointForward 超越 DG GT+1.2 dB PSNR和+0.3 SSIM,充分证明了点对齐表示的泛化能力。
3.3 横向外推视角的鲁棒性
★在横向外推视角任务中,PointForward 的 FID 指标全面领先。例如在 3m 位移下,PointForward 的 FID(33.71)远低于 STORM(81.54)和 DG GT(77.51),说明点对齐表示能够保持更强的几何一致性,在新视角下生成更准确的渲染结果。
3.4 消融实验验证
消融实验表明:
空间-时序融合是性能提升的关键,移除加权融合后 PSNR 下降 0.47 dB
深度感知融合对质量有较大贡献
即使不使用 LiDAR 深度,仅基于图像的深度估计,PointForward 仍然达到 28.00 PSNR,大幅超越 STORM 和 DG GT,证明了其纯图像驱动的能力
四、作者Q&A
★问:PointForward 和现有的逐像素高斯方法(如 DG GT、STORM)最大的区别是什么?
答:最大的区别在于3D表示的基本单元。逐像素方法在每个像素位置独立预测一个3D高斯,这导致同一3D点在不同视角下被表示为多个不一致的高斯——这就是分层伪影的根源。PointForward 直接在3D世界空间中建立稀疏的查询点,将所有视角的信息聚合到同一个3D点上。这种"先有3D结构、后聚合2D特征"的范式,天然保证了多视角一致性。
★问:场景图动态建模是怎么工作的?和场景流方法有什么区别?
答:我们通过3D检测框获取场景中所有动态实例的3D边界框,然后将每个查询点分配到对应的实例中。对于属于同一实例的所有查询点,我们将它们转换到同一个规范化坐标系下——在这个坐标系中,实例的局部运动被"剥离"了,只剩下来自不同视角的外观信息。这样做的好处是:(1) 实现了实例级的运动传播,无需逐像素预测场景流;(2) 规范化坐标系天然提供了跨时间步的一致性;(3) 避免了密集场景流预测中的误差累积。
★问:这个方法的局限性是什么?未来有什么改进方向?
答:当前的动态建模主要依赖3D边界框来表示刚体运动,对于高度非刚体的运动(如行人的复杂动作)处理能力有限。未来可以探索更灵活的非刚体动态建模方法。此外,点对齐表示的扩展性也是一个值得探索的方向——如何在保持质量的同时处理更大规模的场景和更多的查询点。
五、总结
PointForward代表了前馈式驾驶场景重建的一条新路线:用稀疏3D查询点替代逐像素高斯预测,在重建过程中天然保证多视角几何一致性。
与现有的逐像素方法相比,PointForward 具有以下核心优势:
多视角一致性:所有视角的信息聚合到同一3D查询点,显式保证几何一致性,消除分层伪影
实例级动态建模:通过3D边界框和规范化坐标系实现运动传播,无需密集场景流
强大的泛化能力:在 Waymo 和 nuScenes 上均达到 SOTA,零样本泛化能力突出
外推视角鲁棒性:在新视角下保持更准确的几何结构和渲染质量
纯图像驱动:即使不使用 LiDAR 深度,仍然超越现有方法
小米汽车团队的这项工作为自动驾驶场景的3D重建提供了一个清晰且有效的技术路线。随着3D感知能力的不断提升,基于点对齐表示的前馈式重建有望在模拟仿真、数据增强、世界模型等领域发挥更大作用。
★论文链接:https://wm-research.github.io/PointForward
自动驾驶之心
求点赞
求分享
求喜欢
