当前位置：首页 > news >正文

X-World：小鹏面向规模化端到端自动驾驶的可控自车中心多相机世界模型

news 2026/7/8 14:00:43

「自车中心、纯环视、全层级文本可控」

01 研究背景：端到端自动驾驶世界模型的现存痛点

02 X-World核心创新点：重构自动驾驶世界模型的技术范式

1. 纯量产相机驱动，自车中心多视角几何一致性建模

2. 流式自回归生成架构，原生支持长时序闭环推演

3. 全层级精细化可控性，覆盖动作、动态、静态、外观四大维度

4. 数据驱动无人工建模，适配规模化仿真需求

5. 确定性复现与模块化编辑，兼顾测试与研发实用性

03 X-World与同类核心工作的差异化对比

1. 与Drive-WM对比

2. 与UniDriveDreamer对比

3. 与XVWM对比

4. 与VerseCrafter对比

5. 与传统仿真器对比

04 总结

01研究背景：端到端自动驾驶世界模型的现存痛点

随着端到端自动驾驶技术从实验室走向量产落地，基于世界模型的仿真预测与决策闭环，逐渐成为突破自动驾驶感知、规划、控制一体化的核心路径。

端到端自动驾驶指跳过传统“感知-定位-规划-控制”分步拆解模式，直接让模型从摄像头等原始数据输出驾驶动作（转向、刹车、油门）的一体化方案；世界模型则相当于自动驾驶的“大脑想象力”，能基于当前路况，预测未来几秒甚至几十秒的道路场景变化，辅助车辆提前决策。现有自动驾驶世界模型普遍存在几大核心瓶颈：

其一，多数方案依赖激光雷达等高端传感器，无法适配量产车主流的纯环视相机配置，落地成本与硬件兼容性不足；其二，传统生成式模型多采用双向扩散架构（通俗讲就是反复打磨画面、多步修正的生成方式），长时序预测易出现漂移、撕裂，难以实现实时闭环推演与在线交互；其三，跨多相机视角的几何一致性建模薄弱，生成画面存在视角错位、场景失真问题；其四，可控性层级单一，仅能实现基础动作条件驱动，无法兼顾动态目标、静态场景、外观风格的精细化独立编辑，难以满足规模化仿真、策略训练与极端场景测试的多元需求。

针对上述行业共性难题，小鹏团队提出的X-World，作为一款自车中心、纯环视多相机、全层级可控、流式自回归的端到端驾驶世界模型，彻底跳出了传统3D重建后渲染、依赖激光雷达、闭环能力薄弱的局限，专为量产级规模化端到端自动驾驶设计，成为当前同类工作中兼具实用性、可控性与落地性的标杆方案。

02X-World核心创新点：重构自动驾驶世界模型的技术范式

X-World的核心定位，是直接从量产车7路环视摄像头历史视频帧，结合自车未来动作序列，生成几何严格对齐、时序高度连贯、可全维度编辑的未来多视角视频，而非依赖中间3D占用栅格、点云、高精地图等间接表征，彻底跳过传统“感知-重建-渲染”的繁琐链路，实现了从原始视觉数据到未来场景生成的端到端闭环

1. 纯量产相机驱动，自车中心多视角几何一致性建模

区别于绝大多数同类工作依赖激光雷达、高精地图、单目相机或是多传感器融合的配置，X-World完全采用量产车标配的7路环视摄像头作为唯一输入源，彻底剥离对激光雷达、毫米波雷达、高精地图等非量产或高成本传感器的依赖，硬件适配性直接对标市面量产车型的视觉配置，从根源上降低了技术落地的硬件门槛，解决了现有模型“实验室可行、量产难落地”的核心问题。

模型内部创新性地显式建模多相机之间的外参、内参与投影几何关系，通过专用的几何对齐模块，强制前视、后视、左环视、右环视、广角环视等各视角画面，严格对齐自车中心坐标系，所有场景元素的位置、尺度、相对关系都遵循真实物理投影规则，从算法层面杜绝了多视角生成常见的画面撕裂、视角错位、物体变形、空间失真等问题。这种纯视觉、自车中心的建模逻辑，完全贴合自动驾驶车辆的实际决策视角，所有场景推演、动态交互都围绕自车运动轨迹展开，更符合端到端驾驶模型的感知与决策习惯，而非脱离实际的全局场景建模。

2. 流式自回归生成架构，原生支持长时序闭环推演

这是X-World与主流扩散类驾驶世界模型最核心的架构差异，也是实现实时闭环的关键突破。先把两种生成架构做通俗对比：双向扩散模型就像画画时反复擦改、慢慢细化，要十几甚至几十步才能画出一帧，速度慢，画多帧还会越画越歪（也就是场景漂移）；而流式自回归逐帧生成就像拍视频逐帧录制，按时间顺序一帧接一帧生成，前一帧定好后直接接下一帧，不用反复修改，流畅又稳定。

现有自动驾驶世界模型大多采用双向扩散生成架构，这类模型需要数十甚至上百步的去噪迭代才能生成一帧画面，不仅生成速度慢、推理延迟高，无法满足实时性要求，更致命的是长时序多帧推演时，极易出现累积误差，导致场景漂移、物体消失、逻辑矛盾等问题，完全无法支持在线闭环交互与强化学习。而X-World摒弃了扩散架构的固有缺陷，采用专为连续视频流设计的流式自回归逐帧生成架构，以历史多视角视频帧序列和规划的未来自车动作序列为双重条件，按照时间轴逐帧递进生成未来多视角视频流，每一步生成都依托前序真实帧和已生成帧的隐式特征，无需反复去噪迭代，生成效率大幅提升，天然具备低延迟、长时序稳定的核心优势。

该架构实现了原生的闭环仿真能力：生成的未来多视角场景可直接输入端到端驾驶决策模型，模型输出新的转向、加速、变道等动作指令，再将新动作反向输入X-World驱动生成下一时刻场景，循环往复完成长时序闭环推演，全程无明显场景失真或逻辑断裂，完美适配自动驾驶策略的闭环训练、在线迭代、极端场景实时测试与强化学习优化，这是绝大多数扩散类模型无法实现的核心能力。

3. 全层级精细化可控性，覆盖动作、动态、静态、外观四大维度

全层级可控是X-World最具突破性的核心创新，也是同类工作无法企及的关键优势，通俗来讲就是想改什么就能改什么，改一部分不影响其他部分，彻底打破了以往驾驶世界模型“只能粗略控制自车动作，无法精细化编辑场景”的行业局限，实现了动作指令、动态目标、静态场景、外观风格四大维度的独立可控与联合编辑，每一个维度都可单独调节，互不干扰，满足自动驾驶研发中各类仿真场景的定制化需求。

动作级严格控制：生成场景完全精准对齐输入的转向角度、加速踏板开度、制动力度、变道指令、跟车距离等自车底层动作信号，无任何动作偏差与逻辑延迟，确保仿真场景与规划指令100%匹配，从根源杜绝决策指令与场景推演脱节的问题，保证仿真结果的可信度与可复现性；

动态元素可控：动态元素就是道路上会动的目标，比如周边车辆、行人、非机动车，可自主编辑这些目标的全维度行为，包括车辆行驶轨迹、加减速状态、变道时机、跟车逻辑，行人行走路线、横穿速度、等待行为，非机动车运动状态等，还能自定义车流密度、车辆类型分布、交互冲突场景，精准复现日常通勤、高峰拥堵、突发横穿、近距离加塞等各类常规与极端动态场景；

静态场景可控：静态场景就是道路上固定不变的设施，可独立调整车道线类型与虚实、交通路标位置与内容、路沿形状、路口拓扑结构、护栏位置、绿化带布局、基础设施形态等，适配城市道路、高速公路、乡村小路、异形路口等多种路况，无需重新建模即可快速切换不同道路场景；

外观文本可控：就是用日常说话的文字指令就能改场景外观，支持自然语言Prompt直接驱动，灵活调控场景外观属性，包括晴天、雨天、雾天、雪天等天气状态，白天、黑夜、黄昏、黎明等时段变化，强光、逆光、弱光、路灯照明等光照条件，甚至能实现国内道路与海外道路规则、路标、行驶规范的零样本风格迁移，大幅降低跨区域仿真的本地化研发成本与周期。

这种模块化、分层级的可控设计，既可以固定部分参数复现完全一致的确定性场景，用于自动驾驶算法的对比测试、故障复现与性能验证；也可以灵活调整单一或多个参数，快速生成海量稀缺极端场景，弥补真实路测场景覆盖不足、风险场景难以复现的痛点，全面满足规模化仿真训练的多元需求。

4. 数据驱动无人工建模，适配规模化仿真需求

对比CARLA、LGSVL等传统自动驾驶仿真器，X-World彻底摒弃了人工建模、手动渲染、参数手动调试的低效模式，通俗讲人工建模就是工程师手动搭建道路、车辆、建筑模型，耗时久且不真实；而数据驱动生成是直接学习真实道路采集的海量数据，自动还原真实路况细节。

模型完全基于海量真实道路采集数据驱动生成，场景纹理、车流形态、道路细节、交通行为都高度贴近真实世界，避免了人工建模场景的纹理虚假、逻辑刻板、细节缺失等局限性，仿真场景的真实度与泛化性大幅提升。同时，模型依托流式生成架构与高效推理逻辑，支持大规模批量并行生成，可短时间内构建百万级甚至千万级的多样化仿真数据集，覆盖不同地域、不同天气、不同车流、不同路况的全场景类型，完美适配端到端自动驾驶模型的规模化训练、泛化性评估与鲁棒性验证，从根本上解决了真实路测成本高昂、极端场景采集危险、数据覆盖不全的行业核心痛点。

5. 确定性复现与模块化编辑，兼顾测试与研发实用性

X-World具备行业内稀缺的确定性复现能力，通俗解释就是“同样的输入，能跑出一模一样的场景”，不会随机变化，在相同的输入条件（历史视频帧、动作序列、环境参数）下，可生成完全一致的场景画面，帧间细节、物体位置、运动轨迹无任何随机偏差，这对于自动驾驶策略的标准化对比测试、算法故障定位、复现疑难场景至关重要，是工程研发与测试环节不可或缺的核心能力。

而模块化编辑就是想改哪里改哪里，比如只调整行人轨迹，不用重新生成整个道路场景，模型支持场景局部模块化编辑，无需重新生成全量场景序列，只需单独修改动态目标、静态元素或外观参数中的某一项，即可快速完成场景更新，大幅缩短研发调试周期，提升场景测试效率。无论是算法工程师的日常调试、测试人员的场景验证，还是极端工况的专项优化，这款模型都具备极强的工程实用性，真正实现了从学术创新到工程落地的无缝衔接。

03X-World与同类核心工作的差异化对比

当前自动驾驶世界模型领域，Drive-WM、UniDriveDreamer、XVWM、VerseCrafter等是代表性工作，X-World与这些方案在核心范式、传感器依赖、生成逻辑、可控能力、闭环属性上存在一些差异。

1. 与Drive-WM对比

Drive-WM聚焦3D占用栅格与BEV表征结合的场景预测，其中BEV表征就是鸟瞰视角的道路建模方式，该模型依赖激光雷达数据，生成逻辑以中间3D表征为核心，可控性仅覆盖动作与占用预测，无法实现静态场景、外观风格的编辑，且闭环能力薄弱；X-World采用纯视频空间直接生成，无激光雷达依赖，实现动作、动态、静态、外观四层全控，流式架构支持原生闭环，场景编辑灵活性远超Drive-WM。

2. 与UniDriveDreamer对比

UniDriveDreamer采用多模态融合扩散架构，必须依赖相机+激光雷达联合输入，双向扩散模型无法实现实时流式闭环，且仅支持有限的动态元素控制，无文本外观可控能力；X-World纯相机适配量产配置，自回归架构无去噪延迟，实时闭环流畅，额外具备文本驱动的外观编辑与跨区域迁移能力，落地门槛更低。

3. 与XVWM对比

XVWM聚焦单视角到多视角的跨视角预测，仅支持基础动作条件驱动，无多视角几何一致性强制约束，也不具备任何场景编辑能力，仅能完成基础视角推演；X-World针对量产多摄同步设计，严格保障跨视角几何对齐，全维度可控编辑，完全面向自动驾驶实际决策与仿真需求，应用场景更贴合量产。

4. 与VerseCrafter对比

VerseCrafter基于4D高斯与点云扩散，核心聚焦单视角4D物体轨迹控制，依赖4D标注数据，无自车动作级精准驱动能力，无法实现自动驾驶闭环；X-World以自车动作为核心驱动，适配多摄量产方案，流式闭环稳定，兼顾动态、静态与外观控制，更贴合自动驾驶的决策逻辑与工程需求。

5. 与传统仿真器对比

传统仿真器依赖人工建模，场景虚假、覆盖度低、视角固定，研发成本高、周期长；X-World数据驱动生成，场景真实度高，多视角灵活适配，可控性强，可快速生成海量真实场景，完全适配端到端自动驾驶的规模化研发节奏。

04总结

X-World的提出，重新定义了量产端到端自动驾驶世界模型的技术标准，据笔者已知的有限报道，它是目前领域内唯一同时满足纯量产相机、多视角几何严格一致、自车动作精准对齐、动态静态外观全层级文本可控、流式自回归长时序稳定、原生支持端到端闭环训练与规模化测试的驾驶世界模型。

从技术落地角度，X-World摆脱了对激光雷达等高价格的传感器的依赖，硬件适配性较好；从研发效率角度，全层级可控与确定性复现，大幅降低仿真测试与算法迭代成本；从技术范式角度，流式自回归架构彻底解决了扩散模型长时序漂移、无法实时闭环的行业难题，为端到端自动驾驶的在线强化学习、闭环决策优化提供了核心技术支撑。

相较于同类工作，X-World没有一味追求复杂的多模态融合或3D表征建模，而是始终围绕量产落地、闭环实用、规模化高效三个核心目标，精准解决现有技术的痛点短板，不仅是一款学术创新成果，更具备较强的工程转化潜力。

查看全文

http://www.jsqmd.com/news/674488/