当前位置：首页 > news >正文

地平线最新提出HorizonDrive：自动驾驶世界模型新范式、实现分钟级自回归生成

news 2026/7/15 12:34:35

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

一作投稿授权 | 编辑：3D视觉工坊

自动驾驶世界模型的价值，不只是生成一段逼真的驾驶视频，而是作为闭环可交互的环境，持续响应自车轨迹、交通参与者和地图条件的变化。只有当模型能稳定地向未来推演，planner 才能在其中反复试错，长尾场景构造和闭环评测也才真正有意义。

但这恰恰是自动驾驶世界模型最难的地方。短视频可以依赖干净的历史帧续写；一旦进入自回归生成，模型就必须在自己生成的结果上继续生成。前一段视频里的细小误差，会被带到下一段里继续放大。几轮之后，车辆和道路的关系可能开始漂移，动态物体变得不稳定，整个场景逐渐崩坏。

HorizonDrive和现有范式的比较

为了解决误差累积，近期不少方法会让 student 在蒸馏阶段模拟自回归 rollout，学习如何从自己的预测误差中恢复。这类 Self-Forcing 思路很自然：既然推理时模型会看到自己的错误，那训练时也应该让它提前适应这些错误。

不过，地平线团队在 HorizonDrive 中发现，仅仅把纠错能力交给 student 去学，并不足以支撑真正长时间的交互生成。关键在于，student 能学到什么，很大程度上取决于 teacher 能提供什么。如果 teacher 自身只能稳定监督较短窗口，那么 student 再怎么训练，也很难获得可靠的长程生成能力。

因此，HorizonDrive 重新审视了长视频蒸馏流程，提出了一个直接但关键的思路：先提升 teacher，再教 student。它先通过 Scheduled Rollout Recovery 增强 teacher 的自回归恢复能力，再通过 Teacher Rollout DMD 让 student 在更长轨迹上学习误差修复和动态一致性。这样一来，模型可以在不显著增加显存开销的情况下，实现分钟级的可控长时序驾驶视频生成。

实验结果也验证了这一思路的有效性。相比代表性基线方法，HorizonDrive 将 FID 降低了 52%，FVD 降低了 37%，同时将轨迹精度提升了 21%。更关键的是，在数十轮交互生成后，HorizonDrive 的视频质量仍然能够接近非自回归模型单轮的生成效果。

论文标题：HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation

论文链接：https://arxiv.org/abs/2605.11596

项目主页：https://zcliangyue.github.io/HorizonDrive

一、三阶段训练范式

HorizonDrive的三阶段训练范式

1.1 可控自动驾驶世界模型

HorizonDrive 的第一步是训练一个能够遵循动静态控制条件和自车行为、生成逼真画面的世界模型。如上图中 stage1 所示，模型接收 HD Map、3D Bbox 以及 Action，能够生成符合控制的短时序视频。

具体来说，HorizonDrive 在 video-VAE 的 latent 空间里建模。给定长度为的历史上下文，以及未来帧的驾驶控制，模型每一步预测下一段帧视频块：

训练时，每个 clip 被切成帧条件窗口 +帧生成块：条件 latent 保持干净（噪声），待生成块加噪后用 Flow Matching 监督。自车动作通过 AdaLN 注入，地图与 bbox 则作为 layout token 加入。核心训练目标为：

其中是模型预测的速度场，是噪声与真实 latent 的插值。训练完成后得到基础可控世界模型；但由于它只在干净 GT 历史上训练，直接自回归 rollout 会遭遇 exposure bias——每轮都在自己预测的误差上继续生成，漂移迅速累积。

1.2 增强教师的抗误差能力

第二步叫做 Scheduled Rollout Recovery（SRR）。HorizonDrive 没有一上来就只盯着 student 做抗漂移训练，而是增加了额外的一步训练，让前面的可控世界模型具备修复误差的能力，这一步的难点是如何让模型看见自己生成的误差，并提供有效的监督。

具体来说，HorizonDrive 先让基础模型自回归 rollout步，把预测误差“存档”下来。每一步在固定长度为的历史 buffer 上生成帧：

其中，最终得到误差逐步累积的 rollout 轨迹。

原本模型的训练目标是根据 GT 条件帧续写；SRR 将其替换为：用 rollout 预测作为条件，仍用 GT 作为监督目标：

这就改变了模型的“知识范围”：从前只见过干净的好数据，现在则见到了自己生成的差数据。

但这还不够。如果强行拼接误差和真值，会导致视频的连续性被破坏。为此，HorizonDrive 在生成边界附近引入 pred-to-GT 混合窗口（半径），在 latent 空间做线性平滑过渡（下图 a）：

其中在过渡窗口内从 1 线性衰减到 0。训练初期取，让模型先学会从较大偏差中直接恢复；随着训练推进，逐渐增大，任务转向更细粒度的连续修正。

在带有布局控制的情况下，这种做法能够最大化地利用预测结果与 GT 的结构相似性，同时最真实地模拟出推理产生的误差。相比于常见的手动模拟误差，SRR 能够处理的误差特性更加丰富，同时兼顾了语义性和通用性（下图 b 和 c）。

Scheduled Rollout Recovery 方法细节

在此基础上，HorizonDrive 还提供了两个洞察：

不连续修复比连续修复更简单：如果不要求连续，模型可以直接生成和前面完全无关但高质量的场景，这比兼顾连续性和质量要简单得多。因此，HorizonDrive 采取了一种课程学习的方式，让平滑过渡的窗口由小变大，提升了模型的收敛性。
rollout 距离越长，误差语义性越强：HorizonDrive 通过误差统计分析，发现在不同场景之间，前期的误差是比较相似的，但到了后期就呈现出特异性。随着训练进行，模型应该越来越连续，也就应该从特异性的误差学习收敛到更通用的误差。

经过 SRR 训练，基础模型被升级为具备 rollout 能力的教师模型——它能在自身预测的历史条件下持续生成，并从中恢复出更高质量的未来。这个稳定的 rollout 教师，也是后续 TRD 蒸馏阶段的起点。

1.3 蒸馏出可交互的学生模型

已经能够 rollout 十几轮，稳定性相比原始基模型显著提升，但仍受困于推理速度慢、监督信号短的问题。为此，HorizonDrive 引入了第三个阶段：Teacher Rollout DMD，简称 TRD。

TRD 的思路可以概括成一句话：

老师负责看得更远、更稳；学生负责迈得更快、更细。

TRD 从同时初始化教师与学生；教师冻结，仅更新学生参数。二者共享相同的历史窗口长度，但生成块大小不同——教师用更长的，学生用更短的（）。

前面这些设置和 Self-Forcing 是一致的。让 TRD 与众不同的，是它可以借助 teacher 的自回归能力，在超过单个教师生成块的长轨迹上进行监督。而这同样得益于的长时序 rollout 能力。

具体来说，师生在固定窗口下各自自回归 rollout。学生每步生成帧：

教师以更大的在相同轨迹上逐步 rollout，提供稳定的长程监督；当学生累积输出覆盖一个教师块长度时，就在对应区间上做分布匹配蒸馏。基础 DMD 通过比较 teacher 与 student 的 score 来对齐生成分布：

其中是对学生生成 latent 重新加噪后的样本，来自冻结教师，来自可训练 critic。

TRD 进一步引入 noise-truncated CFG：只在较低噪声级别时加入 CFG 增强，避免长 rollout 中信号过饱和。完整 TRD 目标在 DMD 基础上附加一项：

训练时从高水平逐步衰减，使优化重心从条件可控性过渡到视觉细节。

这样做有两个好处。

第一，student 不是只学一小段“短片技巧”，而是在轮自回归 rollout 中持续暴露于自身预测误差（实践中根据数据集的样本长度来灵活调节），学着应对部署时会遇到的漂移。

第二，teacher 不需要为了教更长的未来而无限扩窗口。它同样通过固定窗口一步步向前 rollout，每步内存开销有界；学生则以更小的窗口、更少的 denoise 步数（如 4 步）实现实时交互。

二、方法效果

2.1 长视频基线对比

论文在 nuScenes 上对比了代表性的强长时序 baseline，HorizonDrive 在视觉指标（FID、FVD、Vbench）和几何指标（ARE、DTW）上都显著领先于基线。

和现有世界模型相比，HorizonDrive 显著提升了长视频画面质量和几何精度

这表明它不只是画面质量提高了，在长时序生成里对道路结构、物体几何和自车运动的一致性保持也变得更好。

论文中的定性对比则更加直接地展示了 HorizonDrive 在几何结构和画面质量上的双重优势：

nuScenes 对比结果1

在附录中还有更多对比。不同场景下，HorizonDrive 的长视频质量也保持着明显优势。

nuScenes对比结果2

nuScenes对比结果3

2.2 分钟级长视频

在 nuScenes 上，评测长度受数据集本身限制，大约落在 20 秒级别；但在自采数据上，论文进一步展示了 30s 甚至接近一分钟的连续自回归生成，在多样化的天气、场景、运动和交互上实现了扩展。论文主页中还有更丰富的视频样例，可以更直观地展示 HorizonDrive 在多样化场景中的长时序稳定性。

自建数据集对比结果1

自建数据集对比结果2

一分钟长视频效果

HorizonDrive 的长时序稳定生成结果表明：模型显著缓解了自身误差累积带来的影响，能够在较长时间内维持稳定的 rollout 质量，从而使长时间复杂交互成为可能。