当前位置: 首页 > news >正文

地平线最新提出HorizonDrive:自动驾驶世界模型新范式、实现分钟级自回归生成

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

一作投稿授权 | 编辑:3D视觉工坊

自动驾驶世界模型的价值,不只是生成一段逼真的驾驶视频,而是作为闭环可交互的环境,持续响应自车轨迹、交通参与者和地图条件的变化。只有当模型能稳定地向未来推演,planner 才能在其中反复试错,长尾场景构造和闭环评测也才真正有意义。

但这恰恰是自动驾驶世界模型最难的地方。短视频可以依赖干净的历史帧续写;一旦进入自回归生成,模型就必须在自己生成的结果上继续生成。前一段视频里的细小误差,会被带到下一段里继续放大。几轮之后,车辆和道路的关系可能开始漂移,动态物体变得不稳定,整个场景逐渐崩坏。

HorizonDrive和现有范式的比较

为了解决误差累积,近期不少方法会让 student 在蒸馏阶段模拟自回归 rollout,学习如何从自己的预测误差中恢复。这类 Self-Forcing 思路很自然:既然推理时模型会看到自己的错误,那训练时也应该让它提前适应这些错误。

不过,地平线团队在 HorizonDrive 中发现,仅仅把纠错能力交给 student 去学,并不足以支撑真正长时间的交互生成。关键在于,student 能学到什么,很大程度上取决于 teacher 能提供什么。如果 teacher 自身只能稳定监督较短窗口,那么 student 再怎么训练,也很难获得可靠的长程生成能力。

因此,HorizonDrive 重新审视了长视频蒸馏流程,提出了一个直接但关键的思路:先提升 teacher,再教 student。它先通过 Scheduled Rollout Recovery 增强 teacher 的自回归恢复能力,再通过 Teacher Rollout DMD 让 student 在更长轨迹上学习误差修复和动态一致性。这样一来,模型可以在不显著增加显存开销的情况下,实现分钟级的可控长时序驾驶视频生成。

实验结果也验证了这一思路的有效性。相比代表性基线方法,HorizonDrive 将 FID 降低了 52%,FVD 降低了 37%,同时将轨迹精度提升了 21%。更关键的是,在数十轮交互生成后,HorizonDrive 的视频质量仍然能够接近非自回归模型单轮的生成效果。

论文标题HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation

论文链接https://arxiv.org/abs/2605.11596

项目主页https://zcliangyue.github.io/HorizonDrive

一、三阶段训练范式

HorizonDrive的三阶段训练范式

1.1 可控自动驾驶世界模型

HorizonDrive 的第一步是训练一个能够遵循动静态控制条件和自车行为、生成逼真画面的世界模型。如上图中 stage1 所示,模型接收 HD Map、3D Bbox 以及 Action,能够生成符合控制的短时序视频。

具体来说,HorizonDrive 在 video-VAE 的 latent 空间里建模。给定长度为的历史上下文,以及未来帧的驾驶控制,模型每一步预测下一段帧视频块:

训练时,每个 clip 被切成帧条件窗口 +帧生成块:条件 latent 保持干净(噪声),待生成块加噪后用 Flow Matching 监督。自车动作通过 AdaLN 注入,地图与 bbox 则作为 layout token 加入。核心训练目标为:

其中是模型预测的速度场,是噪声与真实 latent 的插值。训练完成后得到基础可控世界模型;但由于它只在干净 GT 历史上训练,直接自回归 rollout 会遭遇 exposure bias——每轮都在自己预测的误差上继续生成,漂移迅速累积。

1.2 增强教师的抗误差能力

第二步叫做 Scheduled Rollout Recovery(SRR)。HorizonDrive 没有一上来就只盯着 student 做抗漂移训练,而是增加了额外的一步训练,让前面的可控世界模型具备修复误差的能力,这一步的难点是如何让模型看见自己生成的误差,并提供有效的监督。

具体来说,HorizonDrive 先让基础模型自回归 rollout步,把预测误差“存档”下来。每一步在固定长度为的历史 buffer 上生成帧:

其中,最终得到误差逐步累积的 rollout 轨迹

原本模型的训练目标是根据 GT 条件帧续写;SRR 将其替换为:用 rollout 预测作为条件,仍用 GT 作为监督目标:

这就改变了模型的“知识范围”:从前只见过干净的好数据,现在则见到了自己生成的差数据。

但这还不够。如果强行拼接误差和真值,会导致视频的连续性被破坏。为此,HorizonDrive 在生成边界附近引入 pred-to-GT 混合窗口(半径),在 latent 空间做线性平滑过渡(下图 a):

其中在过渡窗口内从 1 线性衰减到 0。训练初期取,让模型先学会从较大偏差中直接恢复;随着训练推进,逐渐增大,任务转向更细粒度的连续修正。

在带有布局控制的情况下,这种做法能够最大化地利用预测结果与 GT 的结构相似性,同时最真实地模拟出推理产生的误差。相比于常见的手动模拟误差,SRR 能够处理的误差特性更加丰富,同时兼顾了语义性和通用性(下图 b 和 c)。

Scheduled Rollout Recovery 方法细节

在此基础上,HorizonDrive 还提供了两个洞察:

  1. 不连续修复比连续修复更简单:如果不要求连续,模型可以直接生成和前面完全无关但高质量的场景,这比兼顾连续性和质量要简单得多。因此,HorizonDrive 采取了一种课程学习的方式,让平滑过渡的窗口由小变大,提升了模型的收敛性。

  2. rollout 距离越长,误差语义性越强:HorizonDrive 通过误差统计分析,发现在不同场景之间,前期的误差是比较相似的,但到了后期就呈现出特异性。随着训练进行,模型应该越来越连续,也就应该从特异性的误差学习收敛到更通用的误差。

经过 SRR 训练,基础模型被升级为具备 rollout 能力的教师模型——它能在自身预测的历史条件下持续生成,并从中恢复出更高质量的未来。这个稳定的 rollout 教师,也是后续 TRD 蒸馏阶段的起点。

1.3 蒸馏出可交互的学生模型

已经能够 rollout 十几轮,稳定性相比原始基模型显著提升,但仍受困于推理速度慢、监督信号短的问题。为此,HorizonDrive 引入了第三个阶段:Teacher Rollout DMD,简称 TRD。

TRD 的思路可以概括成一句话:

老师负责看得更远、更稳;学生负责迈得更快、更细。

TRD 从同时初始化教师与学生;教师冻结,仅更新学生参数。二者共享相同的历史窗口长度,但生成块大小不同——教师用更长的,学生用更短的)。

前面这些设置和 Self-Forcing 是一致的。让 TRD 与众不同的,是它可以借助 teacher 的自回归能力,在超过单个教师生成块的长轨迹上进行监督。而这同样得益于的长时序 rollout 能力。

具体来说,师生在固定窗口下各自自回归 rollout。学生每步生成帧:

教师以更大的在相同轨迹上逐步 rollout,提供稳定的长程监督;当学生累积输出覆盖一个教师块长度时,就在对应区间上做分布匹配蒸馏。基础 DMD 通过比较 teacher 与 student 的 score 来对齐生成分布:

其中是对学生生成 latent 重新加噪后的样本,来自冻结教师,来自可训练 critic。

TRD 进一步引入 noise-truncated CFG:只在较低噪声级别时加入 CFG 增强,避免长 rollout 中信号过饱和。完整 TRD 目标在 DMD 基础上附加一项:

训练时从高水平逐步衰减,使优化重心从条件可控性过渡到视觉细节。

这样做有两个好处。

第一,student 不是只学一小段“短片技巧”,而是在轮自回归 rollout 中持续暴露于自身预测误差(实践中根据数据集的样本长度来灵活调节),学着应对部署时会遇到的漂移。

第二,teacher 不需要为了教更长的未来而无限扩窗口。它同样通过固定窗口一步步向前 rollout,每步内存开销有界;学生则以更小的窗口、更少的 denoise 步数(如 4 步)实现实时交互。

二、方法效果

2.1 长视频基线对比

论文在 nuScenes 上对比了代表性的强长时序 baseline,HorizonDrive 在视觉指标(FID、FVD、Vbench)和几何指标(ARE、DTW)上都显著领先于基线。

和现有世界模型相比,HorizonDrive 显著提升了长视频画面质量和几何精度

这表明它不只是画面质量提高了,在长时序生成里对道路结构、物体几何和自车运动的一致性保持也变得更好。

论文中的定性对比则更加直接地展示了 HorizonDrive 在几何结构和画面质量上的双重优势:

nuScenes 对比结果1

在附录中还有更多对比。不同场景下,HorizonDrive 的长视频质量也保持着明显优势。

nuScenes对比结果2
nuScenes对比结果3

2.2 分钟级长视频

在 nuScenes 上,评测长度受数据集本身限制,大约落在 20 秒级别;但在自采数据上,论文进一步展示了 30s 甚至接近一分钟的连续自回归生成,在多样化的天气、场景、运动和交互上实现了扩展。论文主页中还有更丰富的视频样例,可以更直观地展示 HorizonDrive 在多样化场景中的长时序稳定性。

自建数据集对比结果1
自建数据集对比结果2
一分钟长视频效果

HorizonDrive 的长时序稳定生成结果表明:模型显著缓解了自身误差累积带来的影响,能够在较长时间内维持稳定的 rollout 质量,从而使长时间复杂交互成为可能。

2.3 闭环仿真

HorizonDrive 也展示了和 planner 的闭环交互。

将HorizonDrive用于闭环仿真

在这个循环里,planner 根据模型最新生成的画面给出下一步自车轨迹;HorizonDrive 再把这个轨迹和地图、车辆布局等条件编码回来,继续生成下一段画面。

经过几轮交互之后,生成画面和真实画面产生了错位,因为 planner 做出了与真值不同的决策。这非常有利于对 planner 的轨迹做更完整的评估。

论文也给出了模型的推理速度:在单卡 NVIDIA RTX 5090 上,HorizonDrive 使用 4-step student denoiser,每步自回归生成 10 帧:256×512 分辨率下约 5.6 FPS,384×768 下约 1.7 FPS。

三、结语

HorizonDrive走通了一条看起来很难的路:不依赖显式 3D、不依赖额外 cache 或 memory 机制,仅通过一套自纠正的训练范式,就能让模型处理复杂的误差累积,达到长时序生成的效果。

当然,论文也留下了继续往前走的空间。比如当前 SRR 仍是离线训练,未来如果世界模型能在交互轨迹中继续在线提升自己的 rollout 鲁棒性,误差修复的上限还会更高。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

http://www.jsqmd.com/news/891949/

相关文章:

  • 毕业论文紧急降AIGC率,求推荐上手快、效果立竿见影的降重工具
  • 如何永久免费激活IDM:终极完整指南与简单解决方案
  • 从“永恒之蓝”到BAT脚本:聊聊那些年我们见过的“低技术”系统破坏手段
  • libhv实战:构建一个具备自动重连与心跳机制的TCP客户端
  • 临床执业医师老师推荐:一位讲师,一套体系,一条路径 - 医考机构品牌测评专家
  • Buzz终极指南:完全离线的智能语音转录与翻译工具
  • AI驱动的现货定价引擎已上线!——某全球Top 3矿商内部白皮书首次公开(含Transformer+物理模型融合架构图)
  • 使用Taotoken CLI工具快速为团队统一开发环境配置模型密钥
  • 别光会抄代码!从Arduino的setup和loop函数,聊聊嵌入式程序的‘心跳’与‘呼吸’
  • 26-cv-2721、26-cv-3253、26-cv-4061MILWAUKEE TOOL 美沃奇工具巨头商标连续发案再度来袭!注意排查!
  • 分区网格与动态模型:高效高精度壁湍流大涡模拟实践
  • 观测 TaoToken 在多模型间自动路由的故障转移表现
  • 2026年上半年烟台财产分割律师排行:5位专业律师实力对比 - 奔跑123
  • 如何快速搭建个人漫画图书馆:免费开源哔咔漫画下载器终极指南
  • 帝国CMS自定义团购模块开发教程
  • 基于ENS210传感器与Arduino的高精度露点监测仪设计与实现
  • CVPR‘26 Highlight 开源|Vista4D:一段视频→任意运镜,任意编辑!
  • SpringBoot2 集成 xxl-job:从基础配置到动态参数解析实战
  • 26-cv-3065、26-cv-3391、26-cv-4054 BLACK CLOVER 黑色四叶草、BLEACH
  • LGTV Companion终极指南:让你的LG电视与电脑智能同步开关机
  • 超节点技术深度篇五:长上下文推理与 KV Cache 池化:从显存压力到 PD 分离调度
  • 学生党AI搜索避坑手册(2024高校图书馆实测数据版):这3类工具正在悄悄拖垮你的学习效率!
  • 通过 Python 调用 Taotoken 实现多模型自动切换与降级策略
  • STM32CubeIDE实战:巧用Build Analyzer剖析内存与存储的奥秘
  • Foreign Key实战指南:从数据一致性到生产避坑
  • 2026年AI论文平台深度评测:6款工具全流程得分排名
  • 26-cv-2701、26-cv-2736、26-cv-2794、26-cv-5556、26-cv-5631、26-cv-5683、26-cv-5877、26-cv-5981 UGG商标!
  • 【AI学术合规红线】:20年IT专家亲授ChatGPT查重规避的7个合法边界与3类高危误操作
  • 哈夫曼树代码
  • 3分钟革命性激活方案:告别Windows和Office激活烦恼的智能解决方案